Measurement Data Bank

A curated data bank of AI evaluation results, standardized for measurement.

The data layer

measurement-db standardizes evaluation results from 201 public benchmarks into (model × item) response matrices, the raw observations that item response theory and other psychometric models are estimated from. It is the data layer beneath torch_measure.

Maintained by Nhi Truong, Sang Truong, and Sanmi Koyejo

201

Benchmarks curated

2.1M

Unique evaluation items

64.1M

Model–item responses

01What it is

Coverage spans reasoning, coding, agentic, multimodal, safety, and human-preference benchmarks. Every benchmark ships a reproducible build script, and each response carries its model, item, benchmark, and test condition.

Browse the dataset

02Coverage

What the bank measures, and how deeply: the frontier models it tracks, and the domains its benchmarks cover.

Ranked by items asked

Frontier Model Coverage

A curated set of frontier models ranked by the number of distinct benchmark items they have been evaluated on.

#ModelsItems asked

1
Microsoft
Phi-4
45,415
2
Meta
Llama 4 Maverick
37,096
3
Salesforce
xGen-MM
7,541
4
Tencent
Hunyuan Standard Vision
7,433
5
Cohere
Command A
7,000
6
Google
Gemini 3.1 Pro
3,422
7
IBM
Granite 4.0 Micro
2,944
8
OpenAI
GPT-5.5
2,276
9
Mistral
Large 3
2,070
10
DeepSeek
V4 Pro
1,800
11
Anthropic
Claude Opus 4.8
902
12
Alibaba
Qwen3.7 Max
41
13
Amazon
Nova 2 Lite
40
14M
Moonshot
Kimi K2.7
40
15
xAI
Grok 4.3
40

Ranked by items covered

Domain Coverage Assessment

Benchmarks that span multiple domains count toward each, so the totals overlap rather than partition the bank.

#DomainItems

1
Reasoning
69 benchmarks
1,176,697
2
Knowledge
38 benchmarks
759,312
3
Safety
44 benchmarks
444,135
4
General
10 benchmarks
398,000
5
Mathematics
24 benchmarks
296,542
6
NLP Tasks
9 benchmarks
286,828
7
ML Engineering
5 benchmarks
271,701
8
Science
18 benchmarks
265,723
9
Preference
10 benchmarks
205,834
10
Multilingual
10 benchmarks
136,069
11
Medicine
31 benchmarks
130,464
12
Law
2 benchmarks
86,374
13
Software Engineering
26 benchmarks
63,560
14
Agents & Tool Use
24 benchmarks
36,280
15
Cultural
3 benchmarks
24,864

Average score per domain, every model

Model × Domain Scores

Every model’s average score across each benchmark domain. A hatched cell means the model was never measured in that domain.

Model

72
79
72
79
81
81
68
79
48
62
65
80
77
73
77
76
77
77
77
77
77
77
73
77
77
77
77
77
77
77
78
94
71
97
65
82
64
81
76
73
76
76
76
76
76
76
76
82
74
68
75
75
75
63
75
63
62
73
76
71
76
74
76
77
76
76
76
76
71
74
75
75
76
74
75
75
70
72
76
76
76
70
76
76
76
77
63
75
75
75
77
75
75
75
81
79
81
81
81
81
81
81
25
25
81
61
64
77
80
83
83
66
80
60
78
22
40
51
79
75
65
73
73
73
75
73
73
73
73
69
73
73
73
73
73
73
73
69
67
74
74
74
69
74
74
74
53
63
75
67
79
79
71
62
74
71
54
37
58
73
88
85
77
83
77
83
49
76
59
73
73
73
76
73
70
73
43
66
67
77
78
78
68
77
76
81
17
77
71
76
76
70
83
70
51
56
45
97
87
67
61
72
71
72
71
69
50
70
68
50
23
67
62
41
69
79
68
82
82
73
69
82
77
68
0
40
74
86
61
70
78
78
79
63
79
92
49
13
1
79
52
70
58
84
68
78
80
83
83
67
82
54
6
0
82
56
77
78
79
75
80
80
80
50
66
39
36
78
75
58
69
68
69
75
69
75
69
28
57
71
73
74
74
57
73
74
68
63
72
69
68
69
69
69
69
69
69
69
85
90
74
81
74
72
42
67
69
73
73
73
69
73
73
40
38
63
70
90
88
76
79
79
79
59
62
60
12
12
39
97
54
72
82
85
86
86
72
83
63
35
40
30
45
80
19
67
58
70
70
70
67
70
68
70
96
94
96
39
67
80
73
71
85
70
52
60
31
29
57
69
71
71
71
59
70
66
57
63
64
75
57
67
67
67
75
67
75
21
67
76
65
70
72
70
65
72
66
52
32
66
63
65
65
65
66
65
65
65
88
91
88
54
66
61
65
65
65
67
65
65
65
29
57
55
59
69
69
67
60
69
67
69
59
70
78
93
69
97
35
53
57
72
78
78
78
54
73
81
20
52
19
81
66
57
65
65
65
66
65
66
65
70
66
72
73
75
75
59
73
55
0
71
32
73
41
60
52
69
69
69
60
69
63
57
61
69
87
89
87
50
65
54
66
66
66
64
66
63
66
88
61
71
97
48
58
63
66
66
66
58
66
66
66
62
65
64
62
64
64
64
64
64
24
53
66
69
69
69
53
69
69
64
63
67
66
59
64
64
64
66
64
64
64
61
65
64
61
64
64
64
64
64
48
66
59
71
75
75
73
66
75
71
21
25
40
75
89
91
89
38
79
83
79
63
63
47
88
91
88
39
85
91
85
45
88
92
88
38
88
79
88
48
98
98
88
90
88
37
98
98
91
90
91
29
89
90
89
31
96
96
96
96
81
81
81
63
57
63
63
63
63
63
63
56
63
64
56
63
63
63
64
63
63
63
86
82
74
92
96
89
87
89
30
86
89
86
31
81
85
81
46
93
93
81
86
81
43
93
93
84
85
84
39
85
88
85
34
93
93
87
89
87
29
79
73
71
72
66
46
47
49
87
87
87
29
87
88
87
28
8
69
75
69
75
75
74
69
42
81
87
81
40
92
92
92
92
91
91
84
72
84
48
86
86
86
30
88
88
44
68
87
87
87
27
79
81
79
47
78
78
78
78
78
77
86
87
86
28
90
90
90
90
90
90
80
77
76
90
90
57
60
66
62
66
58
66
51
66
90
90
85
89
85
26
86
84
86
28
89
71
77
76
24
89
86
89
34
38
69
86
67
74
64
29
84
88
84
26
80
88
80
34
98
77
84
88
84
26
88
88
85
90
85
21
85
87
85
24
77
80
77
46
81
85
81
33
87
87
61
61
61
61
61
61
61
61
61
83
86
83
26
84
87
84
24
78
74
73
62
51
62
62
62
62
62
60
62
83
86
83
27
86
86
83
83
83
28
96
75
86
86
83
72
70
83
85
83
26
85
85
82
86
82
27
85
85
82
87
82
25
61
50
62
61
62
62
62
60
62
82
86
82
26
82
86
82
24
85
85
84
84
88
82
88
38
31
79
85
79
32
86
91
86
11
81
87
81
24
82
84
82
26
74
74
73
81
69
81
44
83
83
83
25
74
68
55
64
64
64
66
64
64
0
51
63
81
86
81
22
73
73
73
35
62
58
72
72
72
59
72
51
68
59
8
48
68
82
82
82
82
78
83
78
31
75
81
75
38
81
81
81
81
81
81
71
71
66
69
66
31
82
86
82
18
79
88
79
22
71
71
71
78
85
78
26
77
74
77
44
45
53
56
79
68
77
77
77
79
77
77
0
0
0
77
80
80
71
71
71
81
83
81
20
85
83
85
33
33
79
85
79
23
80
80
61
52
59
58
59
61
59
63
59
84
70
84
25
61
47
61
61
61
61
61
59
61
79
79
75
82
75
32
42
68
75
64
75
75
59
35
62
41
56
43
42
57
79
83
79
21
78
78
68
76
65
78
82
78
24
78
78
74
82
74
32
73
82
73
32
69
69
69
55
62
70
65
76
78
73
55
72
64
53
30
27
38
69
11
74
81
74
31
83
70
83
26
54
100
54
54
75
78
75
33
74
83
74
29
77
83
77
23
77
77
51
93
63
77
77
72
82
72
34
100
100
100
100
100
100
100
100
100
100
100
100
80
69
80
30
76
76
100
53
74
78
74
33
76
76
67
71
67
98
76
76
39
61
52
61
68
67
68
68
68
68
76
78
76
26
75
75
76
83
76
21
76
85
76
19
77
82
77
21
77
78
77
24
99
51
75
75
92
96
15
89
90
89
14
27
75
75
75
75
75
75
67
67
67
83
78
89
39
59
36
30
74
74
74
74
75
82
75
21
78
77
78
21
58
58
58
58
58
58
58
58
58
25
72
74
72
72
74
76
66
50
44
39
14
73
73
73
73
73
73
51
56
60
60
60
51
60
60
60
66
66
66
73
73
78
68
78
27
75
80
75
22
73
73
85
88
85
3
44
91
74
83
74
20
91
69
77
69
35
59
42
59
59
59
59
59
58
59
69
78
69
33
65
65
65
74
66
74
35
72
72
90
78
83
78
11
79
79
38
71
71
71
71
78
60
78
32
89
98
28
34
75
80
75
19
76
85
76
12
64
64
67
70
76
70
33
88
52
91
52
75
80
75
17
70
70
26
48
54
65
65
65
48
65
65
52
65
70
70
70
70
87
49
30
69
77
75
60
46
56
59
59
63
59
55
48
59
70
70
70
70
71
81
71
23
86
86
56
62
57
56
57
56
57
55
57
70
70
86
70
70
83
85
83
24
24
69
69
85
69
69
69
69
64
64
64
69
82
69
23
85
55
51
84
74
80
69
21
69
69
68
68
84
49
53
87
55
86
89
86
9
26
83
53
55
72
72
72
25
71
76
71
24
72
72
72
71
31
31
82
79
82
26
27
83
99
73
35
35
68
68
86
63
37
37
86
39
82
81
62
81
17
60
65
60
60
60
60
60
58
16
60
82
63
79
63
36
73
82
73
13
78
57
58
39
59
59
59
58
59
58
59
67
67
85
53
49
80
78
67
78
16
67
67
69
79
69
23
63
74
66
36
66
66
79
71
76
71
21
66
66
47
60
50
36
91
64
51
79
73
78
73
14
80
52
79
78
74
77
74
14
78
66
78
66
26
72
84
72
10
78
88
43
72
77
72
15
71
75
71
19
65
65
47
55
92
43
70
76
70
20
63
76
63
33
64
75
64
32
75
75
60
60
60
63
63
70
80
70
13
64
76
64
29
63
63
73
73
60
60
60
60
60
60
66
62
68
70
71
71
63
70
59
0
70
21
69
4
63
96
63
63
40
14
59
28
59
59
59
59
59
57
59
63
63
63
63
72
69
78
69
16
72
79
62
72
19
65
81
65
20
71
70
56
48
53
53
53
55
53
53
52
76
64
76
16
71
62
62
63
61
62
62
71
67
80
67
14
70
70
72
70
72
15
69
69
65
41
59
59
59
64
59
55
24
53
61
69
70
75
70
13
69
63
58
55
61
61
69
68
93
59
66
10
68
68
67
54
53
68
68
68
68
58
58
58
67
65
80
65
16
56
91
58
19
56
67
84
49
69
11
67
66
60
62
68
66
68
61
68
50
4
19
68
59
59
66
66
60
46
60
59
53
54
53
53
53
53
53
54
66
53
59
59
64
68
74
91
78
44
61
42
38
42
38
20
64
64
59
59
64
64
64
58
58
64
63
63
63
58
58
63
63
65
76
65
15
69
77
69
7
69
54
69
30
66
75
66
13
62
62
62
61
54
57
54
54
54
54
54
52
54
61
61
77
89
77
22
22
39
61
61
61
60
60
60
98
71
25
25
64
54
48
60
65
54
65
35
59
66
77
66
10
59
59
56
56
59
59
59
59
55
55
55
59
46
67
52
59
58
58
55
45
55
55
55
55
55
54
55
58
65
79
65
7
58
57
57
57
57
46
45
71
46
71
44
57
57
55
55
57
57
35
64
37
69
65
57
57
56
55
55
70
58
35
56
62
75
62
17
56
56
56
56
76
56
27
56
46
58
58
64
79
64
8
56
55
55
55
55
54
54
54
55
55
42
55
55
55
55
55
53
55
58
69
58
29
49
59
53
53
53
54
54
53
53
53
54
54
53
55
80
54
63
70
36
55
24
41
54
53
53
53
53
64
78
64
8
45
57
57
22
43
28
95
56
77
50
53
53
53
53
53
58
53
53
53
53
53
51
53
53
53
52
52
72
49
72
18
52
68
53
68
22
52
52
52
52
52
52
52
22
48
49
50
58
62
61
50
62
63
45
55
62
52
52
56
28
56
56
56
56
56
55
56
52
52
59
72
59
20
51
55
47
53
53
53
55
53
53
53
52
52
61
76
61
11
51
52
52
50
50
50
50
50
50
50
60
76
60
12
60
74
60
15
76
76
5
49
49
49
63
39
48
68
48
38
48
48
48
51
51
48
48
48
78
23
47
47
47
47
47
46
60
41
60
50
50
50
50
47
46
46
49
75
49
31
49
49
51
51
51
60
76
60
9
55
33
55
55
55
55
55
53
55
61
77
61
5
45
44
44
59
75
59
11
50
50
50
43
43
43
81
58
10
90
57
65
79
11
7
58
74
58
12
35
49
49
69
47
48
58
76
58
10
47
47
37
58
41
49
49
49
57
77
57
9
59
65
59
16
40
57
76
57
10
47
47
47
47
57
23
51
68
46
46
39
83
69
83
15
38
18
46
46
39
39
39
46
46
39
52
47
52
52
52
52
52
51
52
58
75
58
7
62
68
50
62
56
56
69
63
70
25
29
13
54
38
46
46
46
46
38
38
78
79
78
0
15
38
37
55
62
55
24
57
67
57
15
37
31
18
97
46
53
58
45
45
57
75
57
8
58
17
68
36
45
45
45
45
36
36
52
45
52
52
52
52
52
51
52
51
74
51
19
45
45
59
66
59
11
39
58
57
57
57
39
57
39
57
36
35
35
44
44
35
57
69
57
10
34
67
76
67
18
18
33
33
33
49
40
51
33
38
37
99
38
33
32
43
43
43
43
42
42
54
69
54
15
74
59
5
31
42
42
56
73
56
6
31
31
42
42
30
41
41
29
48
49
49
49
48
29
49
49
48
47
49
29
28
41
41
41
41
51
43
40
28
45
45
45
53
68
53
14
27
40
40
58
39
36
51
45
51
51
51
51
51
50
51
27
26
26
26
43
57
59
26
50
43
38
46
46
50
51
46
25
25
25
24
38
38
38
38
49
44
37
56
20
23
50
54
50
50
50
50
50
48
50
23
23
38
38
2
68
68
68
74
47
15
18
18
93
22
43
43
43
37
37
45
45
37
42
42
42
20
49
49
49
49
49
49
49
49
49
49
54
49
49
49
49
49
48
49
73
78
73
1
7
45
48
42
48
48
48
49
48
56
70
48
20
53
71
51
21
81
8
19
53
48
53
24
52
30
52
52
52
52
52
50
52
19
19
18
61
76
61
21
11
43
46
35
39
41
42
44
44
35
49
71
49
6
44
43
34
15
39
48
35
34
34
46
53
46
28
80
98
25
12
12
14
14
51
34
51
51
51
51
51
49
51
75
42
28
28
12
39
39
39
32
44
60
59
60
32
60
30
60
11
51
28
51
51
51
51
51
50
51
31
31
83
25
23
77
23
77
23
10
10
10
39
39
39
31
31
9
9
31
31
41
62
41
25
11
91
57
63
63
56
63
63
10
10
9
37
45
32
8
8
48
51
48
48
48
48
48
47
48
53
42
53
55
55
52
55
52
49
19
55
8
7
42
66
42
15
46
59
46
14
49
96
49
55
23
1
29
29
28
43
38
95
52
15
5
5
5
37
41
33
4
38
64
38
24
41
41
41
41
42
60
42
20
4
34
42
34
17
17
100
17
66
64
43
43
13
36
43
30
3
48
48
48
48
48
48
48
48
48
56
70
56
21
11
47
58
47
9
27
27
47
48
47
47
47
47
47
47
47
68
20
20
47
47
47
47
47
47
47
47
47
36
36
36
38
41
28
27
27
29
29
83
26
44
54
0
35
35
35
0
46
42
19
47
46
47
47
47
47
47
51
47
38
40
28
41
57
41
19
22
45
50
55
54
54
43
55
58
50
46
51
42
50
53
58
58
42
58
37
26
55
34
42
29
35
40
29
35
41
29
26
71
26
62
26
27
42
35
34
40
29
36
32
36
34
34
34
46
57
46
46
46
46
46
44
46
34
40
28
35
57
47
57
56
10
33
38
30
33
39
29
33
33
33
35
30
35
23
23
34
37
28
34
37
27
32
38
28
32
36
29
32
11
48
45
48
48
48
48
48
32
48
32
37
27
75
11
11
46
46
46
46
46
46
46
46
46
32
37
27
28
37
46
37
37
37
37
37
46
46
46
46
46
46
46
46
46
30
32
33
31
31
31
46
45
46
46
46
46
46
45
46
20
20
33
56
33
24
44
57
44
44
44
44
44
44
44
31
31
31
31
35
27
34
24
40
48
31
31
31
45
45
45
45
45
45
45
44
45
57
68
53
59
59
56
59
56
1
33
7
59
21
53
53
55
56
56
54
36
72
43
11
63
48
55
49
32
3
16
19
39
49
39
13
30
31
25
29
30
26
28
28
28
29
30
25
30
29
24
28
30
25
29
27
26
29
29
24
14
14
46
37
46
46
46
46
46
44
46
29
28
24
14
14
17
10
30
50
30
23
27
27
25
27
27
23
25
27
26
25
26
26
19
19
19
74
24
27
25
26
25
25
26
26
24
26
26
24
38
62
38
21
22
25
26
25
11
11
25
24
26
25
26
25
23
26
26
25
25
24
25
25
24
45
43
45
45
45
45
45
37
45
25
24
25
13
13
48
25
24
24
27
22
23
24
24
24
53
53
53
10
10
23
25
24
25
24
24
26
24
23
26
22
24
25
23
24
24
24
24
24
24
24
24
23
24
24
24
23
25
23
23
25
23
23
25
23
22
27
49
27
19
24
23
23
8
8
25
22
22
23
22
24
18
52
49
50
53
52
51
52
59
34
31
45
53
22
22
22
55
2
73
2
67
73
79
27
53
10
72
24
75
56
53
65
64
49
17
47
23
40
51
23
46
42
46
43
43
43
42
43
41
43
21
21
21
30
31
38
38
31
46
52
47
47
47
46
47
46
7
47
13
33
13
19
19
19
1
1
1
1
1
1
30
30
35
37
30
18
18
18
26
30
26
22
31
31
31
11
17
17
17
22
8
22
24
28
28
36
57
36
36
28
28
28
36
36
36
36
36
36
36
36
80
36
48
55
46
50
50
48
50
48
27
2
48
39
43
41
41
41
40
41
38
41
41
40
41
41
41
41
41
40
41
40
40
40
40
40
40
40
40
40
27
26
27
11
12
12
12
26
26
30
28
30
34
13
68
15
68
31
16
19
19
19
31
29
92
29
22
19
0
36
52
37
37
37
36
37
36
37
19
23
23
32
57
32
23
23
30
26
30
38
41
38
38
38
38
38
37
38
6
6
6
39
29
38
38
38
39
38
38
38
17
17
17
17
37
37
37
37
37
37
37
37
37
35
52
35
35
35
35
35
34
35
36
39
36
36
36
36
36
35
36
5
38
55
55
55
54
55
53
2
5
33
64
33
33
33
33
33
32
33
10
10
10
28
35
35
35
35
35
35
35
35
35
35
35
35
35
35
35
35
35
35
46
0
0
0
4
18
4
4
60
5
19
5
5
31
37
32
32
32
31
32
30
32
31
32
31
31
31
31
31
31
31
33
33
30
33
30
30
30
30
30
11
14
14
22
34
22
28
49
28
28
28
28
28
27
28
29
40
29
29
29
28
29
28
29
1
25
24
1
1
2
23
22
2
2
0
25
25
0
0
1
24
24
1
1
0
25
25
0
0
29
29
29
29
29
29
29
29
29
26
44
26
26
26
26
26
26
26
26
44
26
26
26
26
26
26
26
4
36
41
41
41
40
41
40
2
4
19
19
19
19
19
19
19
19
19
1
25
25
25
24
25
24
1
1
17
6
17
17
17
17
17
17
17

03Public benchmarks

Every openly released benchmark in the bank. Each card’s title links to the original benchmark, while “Build script” opens our reproducible build in measurement-db.

2026

unknown2026

CEO-Bench

CEO-Bench: 15 LLM agents run a 500-day startup simulation (NovaMind); binary survival (avoided bankruptcy) per run, 3 runs per model.

1items

15subjects