حققت OpenAI معلمًا جديدًا في توسيع نطاق التعلم العميق بإصدار GPT-4. كخلف لـ GPT-3.5 ، فإن النموذج هو نظام كبير متعدد الوسائط يمكنه قبول كل من مدخلات الصور والنص وإنتاج مخرجات نصية. في حين أنها ليست قادرة حتى الآن مثل البشر في العديد من سيناريوهات العالم الحقيقي ، يحقق GPT-4 أداء على مستوى البشر في مختلف المعايير المهنية والأكاديمية.
استخدمت OpenAI الدروس المستفادة من خبرتهم مع التعلم الآلي العدائي و ChatGPT لتحسين استجابة نموذج GPT-4 للتعليمات. تم تحسين GPT-4 بشكل كبير في ثلاثة أبعاد رئيسية: الواقعية ، وقابلية التوجيه ، والقدرة على البقاء داخل حواجز الحماية. من المتوقع أن تعزز هذه التحسينات دقة وفائدة GPT-4 في تطبيقات العالم الحقيقي.
الواقعية والأداء
يعد GPT-4 قفزة كبيرة إلى الأمام في جهود OpenAI لتوسيع نطاق التعلم العميق. تتمثل إحدى قدراته الرئيسية في تعزيز الواقعية والأداء. بينما قد لا يبدو GPT-4 مختلفًا كثيرًا عن GPT-3.5 عند التفاعل العادي المبسط ، فإن تفوقه يصبح واضحًا عندما تصبح المحادثة أكثر تعقيدًا. اختبرت OpenAI نموذج GPT-4 على أكثر من 30 معيارًا ، بما في ذلك اختبارات المحاكاة التي تم تصميمها في الأصل للبشر ، وأظهرت النتائج أن GPT-4 يعرض أداءً على مستوى الإنسان في مختلف المعايير المهنية والأكاديمية.
بالإضافة إلى ذلك ، قامت شركة OpenAI بتقييم GPT-4 وفقًا للمعايير التقليدية المصممة لنماذج التعلم الآلي ، وكانت النتائج مذهلة. يتفوق GPT-4 بشكل كبير على نماذج اللغة الكبيرة الحالية ، بما في ذلك معظم نماذج (SOTA) الحديثة التي قد تتضمن صياغة خاصة بالمعايير أو بروتوكولات تدريب إضافية.
اختبرت OpenAI أيضًا أداء نموذج GPT-4 على لغات أخرى من خلال ترجمة 14000 مشكلة متعددة الخيارات تشمل 57 موضوعًا إلى لغات متعددة. أظهرت النتائج أن GPT-4 يتفوق على GPT-3.5 ونماذج اللغات الكبيرة الأخرى ، حتى بالنسبة للغات منخفضة الموارد. تفتح هذه الإمكانية عالمًا من الاحتمالات لمعالجة اللغة الطبيعية في سياقات متعددة اللغات.
المدخلات المرئية
تتمثل إحدى القدرات الرئيسية لـ GPT-4 في قدرتها على قبول كل من النص والصور كمدخلات ، وهو تحسن كبير عن نموذج GPT-3. هذا يعني أنه يمكن للمستخدمين إدخال المستندات النصية والصور الفوتوغرافية ولقطات الشاشة والمخططات إلى نموذج GPT-4 ، مما يسمح بنهج متعدد الاستخدامات ومتعدد الوسائط لمعالجة اللغة الطبيعية.
يمكن للمستخدمين إدخال كل من البيانات النصية والمرئية إلى النموذج ، والتي ستتمكن بعد ذلك من إنشاء استجابات دقيقة وذات صلة. تمثل هذه القدرة تقدمًا كبيرًا في مجال معالجة اللغة الطبيعية ، ومن المحتمل أن يكون لها آثار بعيدة المدى على الصناعات التي تتراوح من الرعاية الصحية إلى التمويل إلى التعليم.