Aquests dies s’ha presentat Grok 3, el nou model de xAI, anunciat com el millor model del món. Segurament heu vist el gràfic que l’acompanya.

A primer cop d’ull, sembla que Grok 3 destaca clarament en el benchmark AIME (l’examen de les Olimpíades de Matemàtiques), situant-se al capdavant amb una diferència notable respecte a la resta de models.

Però si l’analitzem amb més detall, hi ha quelcom estrany: Grok 3 és l’únic model que presenta dues tonalitats al gràfic, una part més fosca i una més clara. La part més fosca representa la seva primera resposta, mentre que la part més clara mostra la resposta més comuna entre 64 intents diferents.

A primera vista, això pot semblar simplement una manera més sofisticada de mesurar el rendiment. No és una pràctica absurda, ja que els models d’IA no sempre responen exactament el mateix i, en ús real, els usuaris no acostumen a reformular la pregunta múltiples vegades. Per això, té sentit avaluar tant la primera resposta com la consistència en respostes repetides.

Un criteri a mida?

El problema és per què només Grok 3 inclou aquesta doble avaluació mentre que la resta de models només mostren un únic valor. Per què aquest criteri no s’aplica de manera uniforme? La resposta és senzilla: perquè així Grok 3 surt millor a la foto. De fet, quedaria així.

Si només tinguéssim en compte la primera resposta, Grok 3 es trobaria entre el model O3 i l’O1, o fins i tot per sota de l’O1 en alguns casos. El resultat canviaria completament: ja no estaríem davant del suposat millor model del món en matemàtiques, sinó d’un model competitiu que, tot i ser el més recent, no supera els líders actuals.

L'efecte benchmark: quan la mètrica es converteix en l’objectiu

Els benchmarks tenen, òbviament, una funció important: ens ofereixen una manera sintètica d’entendre el comportament d’un model. Però també tenen limitacions.

Per exemple, en un ús quotidià, DeepSeek pot ser menys refinat en el llenguatge i menys extens en les respostes que altres models, una diferència que no es percep en els benchmarks. En el cas de Grok 3, veiem com la mateixa eina de mesura ha esdevingut l’objectiu, i com que cap eina de mesura és perfecta, el resultat pot ser enganyós.

Mirar només els benchmarks sense entendre realment què mesuren és com fixar-se en el dit en comptes de mirar la lluna

Aquesta distorsió no és exclusiva dels models de llenguatge. Cada vegada més models d’IA s’entrenen pensant en els benchmarks i no en els usuaris. Això ha portat a l’aparició de termes com "gaming the benchmarks" o "cooking the benchmarks", que descriuen pràctiques on els models es dissenyen per maximitzar puntuacions en tests en comptes de millorar l’experiència real dels usuaris.

A mesura que els models es tornen més sofisticats, també ho fan els benchmarks, però això no sempre es tradueix en millores rellevants per als usuaris finals. Pocs usuaris participen en competicions matemàtiques de frontera o responen exàmens de doctorat en física o biologia. En canvi, la majoria vol que la IA tradueixi bé, respongui correctament i sigui entenedora.

El problema no és nou

Aquesta tendència d’optimitzar mètriques en lloc de realitats no és exclusiva de la IA. En finances, es parla de "comptabilitat creativa", i a la Xina, un país altament guiat per KPIs, és habitual sentir el terme "fake GDP" per descriure estadístiques inflades per complir objectius polítics.

En definitiva, mirar només els benchmarks sense entendre realment què mesuren és com fixar-se en el dit en comptes de mirar la lluna.