Reasoning & Knowledge

CMMLU

CMMLU (Chinese MMLU) — per-(model, question) correctness across 67 subjects, from OpenCompass CompassAcademic predictions (answer letter extracted from each model output vs gold).

11,580items

22subjects

100%observed

CC-BY-NC-SA-4.0license

multilingualdomain

textmodality

Original source Paper Build script ← All benchmarks

Response matrix

Every model, scored item by item.

Each row is an AI model and each column an item, ordered so the strongest models and easiest items gather toward one corner. 22 subjects × 11,580 items, 100% of cells evaluated.

CMMLU response matrix: AI models (rows) against items (columns) — Correct (1)Incorrect (0)Unobserved
Scale: 1 = correct · 0 = incorrect

Sample items

What the questions look like — and how subjects answer.

A spread of items across the difficulty range. This benchmark does not publish per-answer traces, so each item shows which subjects succeeded.

Item 10% solve rate

请回答以下关于计算机安全的单项选择题, 你回答的最后一行必须是以下格式 '答案: $选项' (不带引号), 其中选项是ABCD之一.

下面关于跨站攻击描述不正确的是

A.
跨站脚本攻击也可称作 CSS
B.
跨站脚本攻击简称 XSS
C.
跨站脚本攻击指的是恶意攻击者向 Web 页面里插入恶意的 html 代码
D.
跨站脚本攻击是主动攻击

Subject outcomes

MiniMax-Text-01 incorrect
deepseek-chat-v3 incorrect
deepseek-r1 incorrect
qwen2.5-7b-instruct incorrect
rlhf-lmdeploy incorrect
sft-s2-lmdeploy incorrect

Item 227% solve rate

请回答以下关于临床知识的单项选择题, 你回答的最后一行必须是以下格式 '答案: $选项' (不带引号), 其中选项是ABCD之一.

某药企在一社区进行“某药对高血压患者脑卒中发生率的影响”随机双盲空白对照试验，受试者为高血压中危患者，时间为3年。患者发生脑卒中后即停止观察，实验组服用研究药物，对照组服用安慰剂。社区医生每招募1名受试者给其100元作为酬劳。从伦理学角度来说，以下说法正确的是

A.
实验设计完全科学，故无伦理学的问题
B.
实验设计不符合伦理学要求，招募者之间存在利益冲突
C.
对于受试者有较大的风险，但可得到伦理辩护
D.
实验设计符合伦理学要求，但招募者之间存在利益冲突

Subject outcomes

MiniMax-Text-01 correct
qwen2.5-7b-instruct correct
llama-3_3-70b-instruct correct
qwen2.5-72b-instruct incorrect
rlhf-lmdeploy incorrect
sft-s2-lmdeploy incorrect

Item 345% solve rate

请回答以下关于解剖学的单项选择题, 你回答的最后一行必须是以下格式 '答案: $选项' (不带引号), 其中选项是ABCD之一.

全身最复杂的关节是

A.
肘关节
B.
髋关节
C.
肩关节
D.
膝关节

Subject outcomes

MiniMax-Text-01 correct
deepseek-chat-v3 correct
deepseek-r1 correct
llama-3_3-70b-instruct incorrect
qwen2.5-7b-instruct incorrect
qwen2.5-72b-instruct incorrect

Item 464% solve rate

请回答以下关于人类性行为的单项选择题, 你回答的最后一行必须是以下格式 '答案: $选项' (不带引号), 其中选项是ABCD之一.

中年期的生理变化中有一个重要的特征，那就是

A.
精力旺盛
B.
衰老
C.
发育成熟
D.
更年期

Subject outcomes

MiniMax-Text-01 correct
deepseek-chat-v3 correct
deepseek-r1 correct
qwen2.5-14b-instruct incorrect
qwen2.5-32b-instruct incorrect
qwen2.5-7b-instruct incorrect

Item 573% solve rate

请回答以下关于大学法律的单项选择题, 你回答的最后一行必须是以下格式 '答案: $选项' (不带引号), 其中选项是ABCD之一.

2010 年，甲立自书遗嘱一份，表示自己的房屋由儿子乙继承，屋内的紫檀家具由孙子丙继承。2018 年甲将房屋卖给任某，得款 120 万元，并办理了过户登记手续，后甲病故。对此，下列表述正确的是

A.
甲立遗嘱后不得出卖遗嘱处分的财产
B.
丙有权基于遗赠取得紫檀家具
C.
甲所立自书遗嘱的内容全部被撤回
D.
乙有权基于遗嘱继承权取得卖房款 120 万元

Subject outcomes

MiniMax-Text-01 correct
deepseek-chat-v3 correct
deepseek-r1 correct
llama-3_1-8b-instruct incorrect
qwen2.5-14b-instruct incorrect
sft-s2-lmdeploy incorrect

Item 682% solve rate

请回答以下关于大学工程水文学的单项选择题, 你回答的最后一行必须是以下格式 '答案: $选项' (不带引号), 其中选项是ABCD之一.

下渗容量(能力) 曲线，是指[ ]。

A.
降雨期间的土壤下渗过程线
B.
干燥的土壤在充分供水条件下的下渗过程线
C.
充分湿润后的土壤在降雨期间的下渗过程线
D.
土壤的下渗累积过程线

Subject outcomes

MiniMax-Text-01 correct
deepseek-chat-v3 correct
deepseek-r1 correct
llama-3_1-8b-instruct incorrect
llama-3_3-70b-instruct incorrect
qwen2.5-7b-instruct incorrect

Item 786% solve rate

请回答以下关于市场营销的单项选择题, 你回答的最后一行必须是以下格式 '答案: $选项' (不带引号), 其中选项是ABCD之一.

问号类战略业务单位的特征是

A.
高市场增长率和低相对市场占有率
B.
低市场增长率和高相对市场占有率
C.
低市场增长率和低相对市场占有率
D.
高市场增长率和高相对市场占有率

Subject outcomes

MiniMax-Text-01 correct
deepseek-chat-v3 correct
deepseek-r1 correct
llama-3_1-8b-instruct incorrect
llama-3_2-3b-instruct incorrect
qwen2.5-7b-instruct incorrect

Item 891% solve rate

请回答以下关于中国历史的单项选择题, 你回答的最后一行必须是以下格式 '答案: $选项' (不带引号), 其中选项是ABCD之一.

战国以前，“百姓”是对贵族的总称；战国以后，“百姓”成为民众的通称。导致这一变化的主要原因是

A.
井田制的推行
B.
百家争鸣局面的出现
C.
宗法制的衰落
D.
分封制的加强

Subject outcomes

MiniMax-Text-01 correct
deepseek-chat-v3 correct
deepseek-r1 correct
sft-s2-lmdeploy correct
llama-3_2-3b-instruct incorrect
llama-3_1-8b-instruct incorrect

Item 995% solve rate

请回答以下关于新闻学的单项选择题, 你回答的最后一行必须是以下格式 '答案: $选项' (不带引号), 其中选项是ABCD之一.

直接导致“魔弹”被否定的理论是

A.
新的强效力论
B.
信源的可信效果论
C.
适度效果论
D.
有限效果论

Subject outcomes

MiniMax-Text-01 correct
deepseek-chat-v3 correct
deepseek-r1 correct
qwen2.5-7b-instruct correct
sft-s2-lmdeploy correct
llama-3_2-3b-instruct incorrect

Item 1095% solve rate

请回答以下关于中国文学的单项选择题, 你回答的最后一行必须是以下格式 '答案: $选项' (不带引号), 其中选项是ABCD之一.

《慕尼黑》表达了诗人

A.
对坚持真理的高贵品格的不倦追求
B.
对人类和世界命运的深切关注
C.
渴盼暖春到来的心情
D.
对自然与劳作强烈的眷恋之情

Subject outcomes

MiniMax-Text-01 correct
deepseek-chat-v3 correct
deepseek-r1 correct
qwen2.5-7b-instruct correct
sft-s2-lmdeploy correct
llama-3_1-8b-instruct incorrect

Item 11100% solve rate

请回答以下关于食品科学的单项选择题, 你回答的最后一行必须是以下格式 '答案: $选项' (不带引号), 其中选项是ABCD之一.

不属于冰淇淋加工步骤的是

A.
硬化
B.
老化
C.
凝冻
D.
护色

Subject outcomes

MiniMax-Text-01 correct
deepseek-chat-v3 correct
deepseek-r1 correct
qwen2.5-7b-instruct correct
rlhf-lmdeploy correct
sft-s2-lmdeploy correct

Item 12100% solve rate

请回答以下关于小学语文的单项选择题, 你回答的最后一行必须是以下格式 '答案: $选项' (不带引号), 其中选项是ABCD之一.

度量衡是我国古代使用的计量单位，其中“衡”是指的哪个方面的标准

A.
长度
B.
重量
C.
面积
D.
体积

Subject outcomes

MiniMax-Text-01 correct
deepseek-chat-v3 correct
deepseek-r1 correct
qwen2.5-7b-instruct correct
rlhf-lmdeploy correct
sft-s2-lmdeploy correct

Subjects

The models, agents, and reward models evaluated.

22 subjects, ranked by mean response (accuracy) across this benchmark's items.

1deepseek-r10.9093
2qwen-max-2025-01-250.8754
3deepseek-chat-v30.8582
4qwen2.5-72b-instruct0.8551
5MiniMax-Text-010.8461
6internlm3-8b-instruct0.8426
7qwen2.5-32b-instruct0.8356
8deepseek-v2_5-12100.8102
9qwen2.5-14b-instruct0.8063
10deepseek-v2_50.791
11qwen2.5-7b-instruct0.7813
12internlm2_5-20b-chat0.7765
13rlhf-lmdeploy0.762
14internlm2_5-7b-chat0.7567
15sft-s2-lmdeploy0.7462
16llama-3_3-70b-instruct0.739
17gemma3_27b_it0.6979
18gpt-4o-mini-2024-07-180.6901
19gemma-2-27b-it0.6321
20gemma-2-9b-it0.5793
21llama-3_1-8b-instruct0.5491
22llama-3_2-3b-instruct0.4578

Full data on Hugging Face Back to the gallery