Skip to main content

Reasoning & Knowledge

CMMLU

CMMLU (Chinese MMLU) — per-(model, question) correctness across 67 subjects, from OpenCompass CompassAcademic predictions (answer letter extracted from each model output vs gold).

11,580items
22subjects
100%observed
CC-BY-NC-SA-4.0license
multilingualdomain
textmodality

Response matrix

Every model, scored item by item.

Each row is an AI model and each column an item, ordered so the strongest models and easiest items gather toward one corner. 22 subjects × 11,580 items, 100% of cells evaluated.

Fit to width. Hover for subject & item; click a cell for details.

CMMLU response matrix: AI models (rows) against items (columns)
Correct (1)Incorrect (0)Unobserved

Scale: 1 = correct · 0 = incorrect

Sample items

What the questions look like — and how subjects answer.

A spread of items across the difficulty range. This benchmark does not publish per-answer traces, so each item shows which subjects succeeded.

Item 10% solve rate

请回答以下关于计算机安全的单项选择题, 你回答的最后一行必须是以下格式 '答案: $选项' (不带引号), 其中选项是ABCD之一.

下面关于跨站攻击描述不正确的是

  • A.

    跨站脚本攻击也可称作 CSS

  • B.

    跨站脚本攻击简称 XSS

  • C.

    跨站脚本攻击指的是恶意攻击者向 Web 页面里插入恶意的 html 代码

  • D.

    跨站脚本攻击是主动攻击

Subject outcomes

  • MiniMax-Text-01 incorrect
  • deepseek-chat-v3 incorrect
  • deepseek-r1 incorrect
  • qwen2.5-7b-instruct incorrect
  • rlhf-lmdeploy incorrect
  • sft-s2-lmdeploy incorrect
Item 227% solve rate

请回答以下关于临床知识的单项选择题, 你回答的最后一行必须是以下格式 '答案: $选项' (不带引号), 其中选项是ABCD之一.

某药企在一社区进行“某药对高血压患者脑卒中发生率的影响”随机双盲空白对照试验,受试者为高血压中危患者,时间为3年。患者发生脑卒中后即停止观察,实验组服用研究药物,对照组服用安慰剂。社区医生每招募1名受试者给其100元作为酬劳。从伦理学角度来说,以下说法正确的是

  • A.

    实验设计完全科学,故无伦理学的问题

  • B.

    实验设计不符合伦理学要求,招募者之间存在利益冲突

  • C.

    对于受试者有较大的风险,但可得到伦理辩护

  • D.

    实验设计符合伦理学要求,但招募者之间存在利益冲突

Subject outcomes

  • MiniMax-Text-01 correct
  • qwen2.5-7b-instruct correct
  • llama-3_3-70b-instruct correct
  • qwen2.5-72b-instruct incorrect
  • rlhf-lmdeploy incorrect
  • sft-s2-lmdeploy incorrect
Item 345% solve rate

请回答以下关于解剖学的单项选择题, 你回答的最后一行必须是以下格式 '答案: $选项' (不带引号), 其中选项是ABCD之一.

全身最复杂的关节是

  • A.

    肘关节

  • B.

    髋关节

  • C.

    肩关节

  • D.

    膝关节

Subject outcomes

  • MiniMax-Text-01 correct
  • deepseek-chat-v3 correct
  • deepseek-r1 correct
  • llama-3_3-70b-instruct incorrect
  • qwen2.5-7b-instruct incorrect
  • qwen2.5-72b-instruct incorrect
Item 464% solve rate

请回答以下关于人类性行为的单项选择题, 你回答的最后一行必须是以下格式 '答案: $选项' (不带引号), 其中选项是ABCD之一.

中年期的生理变化中有一个重要的特征,那就是

  • A.

    精力旺盛

  • B.

    衰老

  • C.

    发育成熟

  • D.

    更年期

Subject outcomes

  • MiniMax-Text-01 correct
  • deepseek-chat-v3 correct
  • deepseek-r1 correct
  • qwen2.5-14b-instruct incorrect
  • qwen2.5-32b-instruct incorrect
  • qwen2.5-7b-instruct incorrect
Item 573% solve rate

请回答以下关于大学法律的单项选择题, 你回答的最后一行必须是以下格式 '答案: $选项' (不带引号), 其中选项是ABCD之一.

2010 年,甲立自书遗嘱一份,表示自己的房屋由儿子乙继承,屋内的紫檀家具由孙子丙继承。2018 年甲将房屋卖给任某,得款 120 万元,并办理了过户登记手续,后甲病故。对此,下列表述正确的是

  • A.

    甲立遗嘱后不得出卖遗嘱处分的财产

  • B.

    丙有权基于遗赠取得紫檀家具

  • C.

    甲所立自书遗嘱的内容全部被撤回

  • D.

    乙有权基于遗嘱继承权取得卖房款 120 万元

Subject outcomes

  • MiniMax-Text-01 correct
  • deepseek-chat-v3 correct
  • deepseek-r1 correct
  • llama-3_1-8b-instruct incorrect
  • qwen2.5-14b-instruct incorrect
  • sft-s2-lmdeploy incorrect
Item 682% solve rate

请回答以下关于大学工程水文学的单项选择题, 你回答的最后一行必须是以下格式 '答案: $选项' (不带引号), 其中选项是ABCD之一.

下渗容量(能力) 曲线,是指[ ]。

  • A.

    降雨期间的土壤下渗过程线

  • B.

    干燥的土壤在充分供水条件下的下渗过程线

  • C.

    充分湿润后的土壤在降雨期间的下渗过程线

  • D.

    土壤的下渗累积过程线

Subject outcomes

  • MiniMax-Text-01 correct
  • deepseek-chat-v3 correct
  • deepseek-r1 correct
  • llama-3_1-8b-instruct incorrect
  • llama-3_3-70b-instruct incorrect
  • qwen2.5-7b-instruct incorrect
Item 786% solve rate

请回答以下关于市场营销的单项选择题, 你回答的最后一行必须是以下格式 '答案: $选项' (不带引号), 其中选项是ABCD之一.

问号类战略业务单位的特征是

  • A.

    高市场增长率和低相对市场占有率

  • B.

    低市场增长率和高相对市场占有率

  • C.

    低市场增长率和低相对市场占有率

  • D.

    高市场增长率和高相对市场占有率

Subject outcomes

  • MiniMax-Text-01 correct
  • deepseek-chat-v3 correct
  • deepseek-r1 correct
  • llama-3_1-8b-instruct incorrect
  • llama-3_2-3b-instruct incorrect
  • qwen2.5-7b-instruct incorrect
Item 891% solve rate

请回答以下关于中国历史的单项选择题, 你回答的最后一行必须是以下格式 '答案: $选项' (不带引号), 其中选项是ABCD之一.

战国以前,“百姓”是对贵族的总称;战国以后,“百姓”成为民众的通称。导致这一变化的主要原因是

  • A.

    井田制的推行

  • B.

    百家争鸣局面的出现

  • C.

    宗法制的衰落

  • D.

    分封制的加强

Subject outcomes

  • MiniMax-Text-01 correct
  • deepseek-chat-v3 correct
  • deepseek-r1 correct
  • sft-s2-lmdeploy correct
  • llama-3_2-3b-instruct incorrect
  • llama-3_1-8b-instruct incorrect
Item 995% solve rate

请回答以下关于新闻学的单项选择题, 你回答的最后一行必须是以下格式 '答案: $选项' (不带引号), 其中选项是ABCD之一.

直接导致“魔弹”被否定的理论是

  • A.

    新的强效力论

  • B.

    信源的可信效果论

  • C.

    适度效果论

  • D.

    有限效果论

Subject outcomes

  • MiniMax-Text-01 correct
  • deepseek-chat-v3 correct
  • deepseek-r1 correct
  • qwen2.5-7b-instruct correct
  • sft-s2-lmdeploy correct
  • llama-3_2-3b-instruct incorrect
Item 1095% solve rate

请回答以下关于中国文学的单项选择题, 你回答的最后一行必须是以下格式 '答案: $选项' (不带引号), 其中选项是ABCD之一.

《慕尼黑》表达了诗人

  • A.

    对坚持真理的高贵品格的不倦追求

  • B.

    对人类和世界命运的深切关注

  • C.

    渴盼暖春到来的心情

  • D.

    对自然与劳作强烈的眷恋之情

Subject outcomes

  • MiniMax-Text-01 correct
  • deepseek-chat-v3 correct
  • deepseek-r1 correct
  • qwen2.5-7b-instruct correct
  • sft-s2-lmdeploy correct
  • llama-3_1-8b-instruct incorrect
Item 11100% solve rate

请回答以下关于食品科学的单项选择题, 你回答的最后一行必须是以下格式 '答案: $选项' (不带引号), 其中选项是ABCD之一.

不属于冰淇淋加工步骤的是

  • A.

    硬化

  • B.

    老化

  • C.

    凝冻

  • D.

    护色

Subject outcomes

  • MiniMax-Text-01 correct
  • deepseek-chat-v3 correct
  • deepseek-r1 correct
  • qwen2.5-7b-instruct correct
  • rlhf-lmdeploy correct
  • sft-s2-lmdeploy correct
Item 12100% solve rate

请回答以下关于小学语文的单项选择题, 你回答的最后一行必须是以下格式 '答案: $选项' (不带引号), 其中选项是ABCD之一.

度量衡是我国古代使用的计量单位,其中“衡”是指的哪个方面的标准

  • A.

    长度

  • B.

    重量

  • C.

    面积

  • D.

    体积

Subject outcomes

  • MiniMax-Text-01 correct
  • deepseek-chat-v3 correct
  • deepseek-r1 correct
  • qwen2.5-7b-instruct correct
  • rlhf-lmdeploy correct
  • sft-s2-lmdeploy correct

Subjects

The models, agents, and reward models evaluated.

22 subjects, ranked by mean response (accuracy) across this benchmark's items.

  1. 1deepseek-r10.9093
  2. 2qwen-max-2025-01-250.8754
  3. 3deepseek-chat-v30.8582
  4. 4qwen2.5-72b-instruct0.8551
  5. 5MiniMax-Text-010.8461
  6. 6internlm3-8b-instruct0.8426
  7. 7qwen2.5-32b-instruct0.8356
  8. 8deepseek-v2_5-12100.8102
  9. 9qwen2.5-14b-instruct0.8063
  10. 10deepseek-v2_50.791
  11. 11qwen2.5-7b-instruct0.7813
  12. 12internlm2_5-20b-chat0.7765
  13. 13rlhf-lmdeploy0.762
  14. 14internlm2_5-7b-chat0.7567
  15. 15sft-s2-lmdeploy0.7462
  16. 16llama-3_3-70b-instruct0.739
  17. 17gemma3_27b_it0.6979
  18. 18gpt-4o-mini-2024-07-180.6901
  19. 19gemma-2-27b-it0.6321
  20. 20gemma-2-9b-it0.5793
  21. 21llama-3_1-8b-instruct0.5491
  22. 22llama-3_2-3b-instruct0.4578