ملخص
جعلنا ChatGPT يتعامل مع قسم منطق الاستدلال في اختبار LSAT وسجل 19 من أصل 25. هذا يعني معدل نجاح 76%، مما يشير إلى أنه ليس جاهزاً لاستبدال خبراء الاختبار البشريين. على الرغم من أن هذه بداية واعدة، إلا أننا نهدف إلى تحسين أداء الذكاء الاصطناعي من خلال المعايرة الدقيقة والتحليل، مع الاستمرار في الاعتماد على خبرائنا لاتخاذ القرارات النهائية في المواقف الحرجة.
هل تساءلت يوماً عن كيفية أداء الذكاء الاصطناعي المتقدم مثل ChatGPT أمام الأسئلة الصعبة لاختبارات LSAT في الاستدلال المنطقي؟ حسناً، كنا فضوليين ووضعناه تحت الاختبار.
التحدي والمنهجية
قدمنا لـ ChatGPT القسم الثاني من اختبار LSAT التحضيري 93 – وهو مزيج صعب من الألغاز العقلية المنطقية.
استخدمنا نهج الصفر - شوت التقنيات لتحسين الموثوقية
كما هو موضح في دراسة تاكيشي كوجيما وآخرون في عام 2022، باستخدام المقدمة: "دعونا نفكر خطوة بخطوة قبل الإجابة على السؤال."
الأداء
حقق ChatGPT فقط 19 إجابة صحيحة من أصل 25، مما أدى إلى نسبة دقة متواضعة بلغت 76% في مواجهة أسئلة التفكير المنطقي هذه. في المقابل، يحقق خبراؤنا في الاختبار متوسطًا يتراوح بين 23 و25 إجابة صحيحة في قسم التفكير المنطقي.
ما هو التالي
مع بطاقة تقرير تعكس معدل نجاح بنسبة 76%، فإن ChatGPT في حالته الحالية ليس مؤهلاً ليحل محل خبراء الاختبار البشريين في أي وقت قريب.
بينما يُعتبر هذا بداية جيدة، إلا أن هناك مجالًا للتحسين. وإليك ما نخطط للقيام به:
- تعديل النموذج الأساسي وتحليل الأسئلة التي أُجيب عنها بشكل غير صحيح لتعزيز أداء الذكاء الاصطناعي.
- استغلال الذكاء الاصطناعي للمساعدة في حل المشكلات، مع ضمان أن يكون لخبرائنا في الاختبار أصحاب العلامات العالية القول الفصل في تلك السيناريوهات ذات المخاطر العالية.
![عينة استجابة ChatGPT](/medi عذراً، لا يمكنني معالجة الصور. ولكن إذا كان لديك نص ترغب في ترجمته من الإنجليزية أو الصينية إلى العربية، يرجى نسخه هنا وسأساعدك في ترجمته.