Google: Gemini 3.1 Pro Preview

by google

2,234 claims submitted by 169 reviewers

Monitored by HumanJudge · Endpoint registered, 86 traces logged

Maintained by HumanJudge Admin

Enrolled in: C-pop Challenge: GPT-5.2 , Spanish Culture Challenge: GPT-5.2 , Japanese Culture Challenge: GPT-5.2 , Mexican Culture Challenge: GPT-5.2 , AP Biology Challenge: GPT-5.2 , Spanish Cinema Challenge: GPT-5.2 , Korean Culture Challenge: GPT-5.2 , Taiwanese Culture Challenge: GPT-5.2 , Brazilian Culture Challenge: GPT-5.2 , AI in Healthcare | Stanford I4UI 2026 , Argentine Culture Challenge: GPT-5.2 , Japanese Language Challenge: GPT-5.2 , Arabic Music Challenge: GPT-5.2 , Gulf Culture Challenge: GPT-5.2 , Latin Music Challenge: GPT-5.2 , Arabic Language Challenge: GPT-5.2 , Chinese Cinema Challenge: GPT-5.2 , Mexican Cinema Challenge: GPT-5.2 , Korean Language Challenge: GPT-5.2 , AP Government Challenge: GPT-5.2 , Chinese Language Challenge: GPT-5.2 , Korean Cinema Challenge: GPT-5.2 , Chinese Culture Challenge: GPT-5.2 , J-drama Challenge: GPT-5.2 , AP English Language Challenge: GPT-5.2 , C-drama Challenge: GPT-5.2 , 日本文化のヒーロー | Japanese Culture Hero , Levantine Culture Challenge: GPT-5.2 , Egyptian Culture Challenge: GPT-5.2 , Arab Cinema Challenge: GPT-5.2 , AP English Literature Challenge: GPT-5.2 , AP US History Challenge: GPT-5.2 , K-pop Challenge: GPT-5.2 , AP Calculus AB Challenge: GPT-5.2 , Spanish Language Challenge: GPT-5.2 , K-drama Challenge: GPT-5.2 , Spanish Music Challenge: GPT-5.2 , Humans Evaluation Benchmark for AI Marketing and Content Generation

Performance

Humans Evaluation Benchmark for AI Marketing and Content Generation 94%

1811 votes 107 flags 148 reviewers

AP Calculus AB Challenge: GPT-5.2 100%

109 votes 0 flags 16 reviewers

日本文化のヒーロー | Japanese Culture Hero 94%

98 votes 6 flags 19 reviewers

AI in Healthcare | Stanford I4UI 2026 94%

54 votes 3 flags 12 reviewers

AP Biology Challenge: GPT-5.2 96%

51 votes 2 flags 51 reviewers

AP English Language Challenge: GPT-5.2 97%

36 votes 1 flags 13 reviewers

AP English Literature Challenge: GPT-5.2 100%

24 votes 0 flags 8 reviewers

AP US History Challenge: GPT-5.2 96%

24 votes 1 flags 8 reviewers

K-pop Challenge: GPT-5.2 100%

19 votes 0 flags 3 reviewers

AP Government Challenge: GPT-5.2 100%

8 votes 0 flags 8 reviewers

Independent Claims

pass AI Marketing & Content Generation 7/20/2026

"The AI response satisfies all constraints of the prompt flawlessly. It delivers an engaging, well-structured 15-second ...

— Thuy Hang Vo

pass AI Marketing & Content Generation 7/20/2026

"The AI response satisfies all constraints of the prompt. It generates a 3-post thread on X with an ideal mix of wit, hu...

— Thuy Hang Vo

pass AI Marketing & Content Generation 7/20/2026

The AI generated a compelling LinkedIn post that strictly adheres to all constraints. It utilizes short, punchy lines ra...

— Thuy Hang Vo

flag AI Marketing & Content Generation 7/18/2026

AI refuses to engage on this issue.

— Bécaye Guindo

flag AI Marketing & Content Generation 7/18/2026

AI refuses to engage on this issue.

— Bécaye Guindo

This evaluation was conducted independently. Google: Gemini 3.1 Pro Preview did not participate in or pay for this evaluation. All verdicts come from double-blind evaluation — reviewers did not know which AI produced each response.

We help people define what trustworthy AI looks like — publicly, transparently, together. Support this mission