Stanford UniversityAI Measurement Science

Reward Modeling

RewardBench

RewardBench per-(reward-model, item) correctness on chosen>rejected ranking.

2,733items

118subjects

ODC-BYlicense

reward_modelingdomain

textmodality

item-level responses released

Saturation status: Yes

Original source Paper ← All benchmarks

Response matrix

RewardBench response matrix: AI models (rows) against items (columns) — lowhighUnobserved
Scale: {0, 0.5, 1} (0.5 = judge tie, <1% of rows)

Subjects

1infly/INF-ORM-Llama3.1-70B0.9615
2nicolinho/QRM-Gemma-2-27B0.9518
3Skywork/Skywork-Reward-Gemma-2-27B-v0.20.9497
4Skywork/Skywork-Reward-Gemma-2-27B0.9451
5Skywork/Skywork-Reward-Llama-3.1-8B-v0.20.9404
6nicolinho/QRM-Llama3.1-8B-v20.939
7LxzGordon/URM-LLaMa-3.1-8B0.9374
8Skywork/Skywork-Reward-Llama-3.1-8B0.9333
9Ray2333/GRM-Llama3-8B-rewardmodel-ft0.924
10Ray2333/GRM-llama3.2-3B-rewardmodel-ft0.9209
11internlm/internlm2-20b-reward0.9176
12LxzGordon/URM-LLaMa-3-8B0.9142
13NCSOFT/Llama-3-OffsetBias-RM-8B0.9028
14internlm/internlm2-7b-reward0.8938
15Ray2333/GRM-llama3-8B-sftreg0.8908
16Skywork/Skywork-Critic-Llama-3.1-8B0.8898
17openai/gpt-4o-2024-08-060.8861
18Ray2333/GRM-gemma2-2B-rewardmodel-ft0.8858
19Ray2333/GRM-llama3-8B-distill0.8831
20openai/gpt-4o-2024-05-130.867
21opencompass/CompassJudger-1-14B-Instruct0.8665
22sfairXC/FsfairX-LLaMA3-RM-v0.10.8637
23meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo0.8613
24mattshumer/Reflection-70B0.8606
25meta-llama/Meta-Llama-3.1-70B-Instruct0.8586
26CIR-AMS/BTRM_Qwen2_7b_06130.8566
27berkeley-nest/Starling-RM-34B0.8509
28Ray2333/GRM-Gemma-2B-rewardmodel-ft0.8496
29opencompass/CompassJudger-1-7B-Instruct0.8479
30openbmb/Eurus-RM-7b0.8449
31google/gemini-1.5-flash-0010.8382
32allenai/tulu-v2.5-13b-preference-mix-rm0.8322
33NCSOFT/Llama-3-OffsetBias-8B0.8275
34openai/gpt-4o-mini-2024-07-180.8271
35weqweasdas/RM-Mistral-7B0.8235
36google/gemma-2-27b-it0.8216

Full data on Hugging Face Back to the gallery