El caso del gráfico de Grok

- Esteve Almirall
- Barcelona. Jueves, 27 de febrero de 2025. 05:30
- Tiempo de lectura: 2 minutos
Estos días se ha presentado Grok 3, el nuevo modelo de xAI, anunciado como el mejor modelo del mundo. Seguramente habréis visto el gráfico que lo acompaña.
A simple vista, parece que Grok 3 destaca claramente en el benchmark AIME (el examen de las Olimpiadas de Matemáticas), situándose a la cabeza con una diferencia notable respecto al resto de modelos.
Sin embargo, si lo analizamos con más detalle, hay algo extraño: Grok 3 es el único modelo que presenta dos tonalidades en el gráfico, una parte más oscura y otra más clara. La parte más oscura representa su primera respuesta, mientras que la parte más clara muestra la respuesta más común entre 64 intentos diferentes.
A primera vista, esto puede parecer simplemente una forma más sofisticada de medir el rendimiento. No es una práctica absurda, ya que los modelos de IA no siempre responden exactamente lo mismo y, en el uso real, los usuarios no suelen reformular la pregunta varias veces. Por ello, tiene sentido evaluar tanto la primera respuesta como la consistencia en respuestas repetidas.
¿Un criterio a medida?
El problema es por qué solo Grok 3 incluye esta doble evaluación, mientras que el resto de modelos solo muestran un único valor. ¿Por qué este criterio no se aplica de manera uniforme? La respuesta es sencilla: porque así Grok 3 sale mejor en la foto. De hecho quedaría así.
Si solo tuviéramos en cuenta la primera respuesta, Grok 3 se situaría entre el modelo O3 y el O1, o incluso por debajo del O1 en algunos casos. El resultado cambiaría por completo: ya no estaríamos ante el supuesto mejor modelo del mundo en matemáticas, sino ante un modelo competitivo que, a pesar de ser el más reciente, no supera a los líderes actuales.
El efecto benchmark: cuando la métrica se convierte en el objetivo
Los benchmarks cumplen, obviamente, una función importante: nos ofrecen una forma sintética de comprender el comportamiento de un modelo. Pero también tienen limitaciones.
Por ejemplo, en un uso cotidiano, DeepSeek puede ser menos refinado en el lenguaje y menos extenso en las respuestas que otros modelos, una diferencia que los benchmarks no reflejan. En el caso de Grok 3, vemos cómo la propia herramienta de medición se ha convertido en el objetivo y, dado que ninguna métrica es perfecta, el resultado puede ser engañoso.
Mirar solo los benchmarks sin entender realmente qué miden es como fijarse en el dedo en vez de mirar la luna
Esta distorsión no es exclusiva de los modelos de lenguaje. Cada vez más modelos de IA se entrenan pensando en los benchmarks y no en los usuarios. Esto ha llevado a la aparición de términos como "gaming the benchmarks" o "cooking the benchmarks", que describen prácticas en las que los modelos se diseñan para maximizar puntuaciones en pruebas en lugar de mejorar la experiencia real de los usuarios.
A medida que los modelos se vuelven más sofisticados, también lo hacen los benchmarks, pero esto no siempre se traduce en mejoras relevantes para los usuarios finales. Pocos usuarios participan en competiciones matemáticas de alto nivel o responden exámenes de doctorado en física o biología. En cambio, la mayoría quiere que la IA traduzca bien, responda correctamente y sea comprensible.
El problema no es nuevo
Esta tendencia de optimizar métricas en lugar de realidades no es exclusiva de la IA. En el ámbito financiero, se habla de "contabilidad creativa", y en China, un país altamente guiado por KPIs, es común escuchar el término "fake GDP" para describir estadísticas infladas con el fin de cumplir objetivos políticos.
En definitiva, centrarse únicamente en los benchmarks sin entender realmente qué miden es como fijarse en el dedo en lugar de mirar la luna.