Skip to main content

Reasoning & Knowledge

CulturalEval (OALL Arabic)

culturaleval — OALL Arabic EXAMS + translated-MMLU per-item LM correctness.

14,578items
20subjects
100%observed
Modelsubject type
MITlicense
multilingualdomain
culturaldomain
textmodality

Response matrix

Every model, scored item by item.

Each row is an AI model and each column an item, ordered so the strongest models and easiest items gather toward one corner. 20 subjects × 14,578 items, 100% of cells evaluated.

Fit to width. Hover for subject & item; click a cell for details.

CulturalEval (OALL Arabic) response matrix: AI models (rows) against items (columns)
Correct (1)Incorrect (0)Unobserved

Scale: 1 = correct · 0 = incorrect

Sample items

What the questions look like — and how subjects answer.

A spread of items across the difficulty range. This benchmark does not publish per-answer traces, so each item shows which subjects succeeded.

Item 10% solve rate

الأسئلة التالية هي أسئلة متعددة الإختيارات مع الجواب الصحيح حول القانون المهني.

هل للمصاب حق اللجوء إلى القضاء بتهمة الإيذاء من قبل الصياد؟ أ. لا، لأن الصياد لم يقصد إطلاق النار على المصاب. ب. لا، لأن الصياد لم يتلامس مباشرة مع المصاب. ج. نعم، لأن الرصاصة من بندقية الصياد اصطدمت مباشرة بالمصاب. د. نعم، لأن الصياد قام بإطلاق البندقية عن عمد. الإجابة:

Subject outcomes

  • FreedomIntelligence/AceGPT-13B incorrect
  • CohereForAI/c4ai-command-r-v01 incorrect
  • mistralai/Mistral-7B-Instruct-v0.2 incorrect
Item 215% solve rate

الأسئلة التالية هي أسئلة متعددة الإختيارات مع الجواب الصحيح حول القانون المهني.

تم اتهام المدعى عليه بالضرب باستخدام المركبة بعد عبور إشارة حمراء والاصطدام بسيارة قابلة للتحويل يمتلكها امرأة. تعرضت المرأة لإصابات داخلية هائلة وانقطعت عن الوعي لعدة ساعات بعد وصولها إلى المستشفى. صديقة المرأة الأفضل، التي كانت راكبة في السيارة، تلقت بصورة خارقة بضع كدمات طفيفة. بعد الاصطدام، بقيت الراكبة مع المرأة تحاول راحتها حتى وصول الإسعاف. في المحاكمة، يتم استدعاء الراكبة للشهادة. €بينما هي على الشاهد، تحدق بالحزن في المرأة التي ترتدي لا زالت الجبيرة على ساقها. تشهد الراكبة أن أول ما رأته بعد الحادث كان جسد المرأة المكلوم في الحطام المشوه. يسأل المدعي العام الراكبة ثم إذا كانت المرأة قالت لها أي شيء قبل نقلها إلى المستشفى. أجابت الراكبة: "نعم، قالت لي: 'أعرف أنني أموت. لماذا عليه أن يدير تلك الإشارة الحمراء؟'". وبناء على اعتراض المحامي الخاص بالمدعى عليه، يجب على المحكمة تحديد شهادة الراكبة أ. قابل للقبول، لأنه غير متعلق بأن هذه ليست قضية قتل. ب. قابل للقبول، لأن المرأة كانت تعتقد أن وفاتها حتمية عندما قامت بالإعلان. ج. غير قابل للقبول، بسبب العلاقة الوثيقة بين المرأة والراكبة. د. غير قابل للقبول، لأنها شهادة واردة ليست ضمن أي استثناء معترف به. الإجابة:

Subject outcomes

  • FreedomIntelligence/AceGPT-13B-chat correct
  • core42/jais-13b correct
  • mistralai/Mistral-7B-Instruct-v0.2 incorrect
Item 330% solve rate

الأسئلة التالية هي أسئلة متعددة الإختيارات مع الجواب الصحيح حول المغالطات المنطقية.

ما الذي يصف بطريقة خاطئة إلحاق القيمة بالتقليد؟ أ. الاستدلال بأن ادعاء ما يجب أن يكون صحيحًا لأنه قد تم اعتماده كثيرًا ب. الاستدلال بأن ادعاء ما يجب أن يكون صحيحًا لأن شخصًا عاديًا يعتقد ذلك ج. الاستدلال بأن ادعاء ما يجب أن يكون صحيحًا لأنه تم الاعتقاد به في الماضي د. الاستدلال بأن ادعاء ما يجب أن يكون صحيحًا لأن الكثير من الناس يعتقدون ذلك الإجابة:

Subject outcomes

  • FreedomIntelligence/AceGPT-13B correct
  • FreedomIntelligence/AceGPT-7B correct
  • core42/jais-30b-v3 incorrect
Item 440% solve rate

الأسئلة التالية هي أسئلة متعددة الإختيارات مع الجواب الصحيح حول السيناريوهات الأخلاقية.

لأي من هذين السيناريوين يقوم الشخصية الرئيسية (التي تستخدم ضمائر الأنا والي) بفعل شيء خطأ أخلاقيًا بوضوح، وفقًا للمعايير الأخلاقية العادية في الولايات المتحدة حتى عام 2020؟ السيناريو 1 | قدمت مهمة بيل ولكن أخذت الائتمان. السيناريو 2 | حملتها على سرير من الأظافر. أ. خطأ، خطأ ب. خطأ، ليس خطأ ج. ليس خطأ، خطأ د. ليس خطأ، ليس خطأ الإجابة:

Subject outcomes

  • FreedomIntelligence/AceGPT-13B-chat correct
  • meta-llama/Llama-2-13b-hf correct
  • mistralai/Mistral-7B-Instruct-v0.2 incorrect
Item 555% solve rate

الأسئلة التالية هي أسئلة متعددة الإختيارات مع الجواب الصحيح حول الاقتصاد الكلي في المدرسة الثانوية.

ما هي معتقدات الاقتصاديين الكلاسيكيين؟ أ. في نظرية كمية النقود - حيث أن سرعة التداول وكمية السلع والخدمات المباعة في الفترة مستقرة ب. أن هناك خطر جدي لوقوع في فخ السيولة لأن منحنى الطلب على المال مستوية نسبياً ج. أن الحكومة يجب أن تبذل كل جهدها لضبط الاقتصاد د. أن منحنى العرض الإجمالي للسلع يشبه حرف الـL الإجابة:

Subject outcomes

  • FreedomIntelligence/AceGPT-v1.5-13B-Chat correct
  • meta-llama/Meta-Llama-3-70B-Instruct correct
  • mistralai/Mistral-7B-Instruct-v0.2 incorrect
Item 6100% solve rate

الأسئلة التالية هي أسئلة متعددة الإختيارات مع الجواب الصحيح حول ما قبل التاريخ.

منذ نهاية العصر الجليدي ، أصبح الإنسان مسؤولاً بشكل متزايد عن انقراض أنواع الحيوانات. إذا تم السماح بالاستمرار ، ما هي النتائج المرجحة لهذه الانقراضات؟ أ. سيكون له تأثيرات سلبية على الزراعة. ب. سيكون له تأثيرات سلبية على جودة المياه. ج. سيكون له تأثيرات سلبية على الصحة البشرية. د. كل ما سبق. الإجابة:

Subject outcomes

  • FreedomIntelligence/AceGPT-13B correct
  • CohereForAI/c4ai-command-r-v01 correct
  • mistralai/Mistral-7B-Instruct-v0.2 correct

Subjects

The models, agents, and reward models evaluated.

20 subjects, ranked by mean response (accuracy) across this benchmark's items.

  1. 1meta-llama/Meta-Llama-3-70B0.57
  2. 2meta-llama/Meta-Llama-3-70B-Instruct0.559
  3. 3CohereForAI/c4ai-command-r-v010.488
  4. 4FreedomIntelligence/AceGPT-v1.5-13B-Chat0.416
  5. 5meta-llama/Meta-Llama-3-8B-Instruct0.402
  6. 6core42/jais-30b-v30.386
  7. 7FreedomIntelligence/AceGPT-13B-chat0.353
  8. 8FreedomIntelligence/AceGPT-7B-chat0.336
  9. 9meta-llama/Llama-2-70b-hf0.335
  10. 10FreedomIntelligence/AceGPT-13B0.333
  11. 1101-ai/Yi-9B-200K0.313
  12. 12mistralai/Mistral-7B-Instruct-v0.20.307
  13. 13core42/jais-30b-v10.307
  14. 1401-ai/Yi-1.5-34B-Chat0.304
  15. 1501-ai/Yi-1.5-9B-Chat0.298
  16. 16FreedomIntelligence/AceGPT-v1.5-13B0.292
  17. 17core42/jais-13b0.282
  18. 18FreedomIntelligence/AceGPT-7B0.277
  19. 19meta-llama/Llama-2-13b-hf0.271
  20. 20meta-llama/Llama-2-7b-hf0.256