Desde que la inteligencia artificial responde preguntas, se debate sobre cuán cerca están de alcanzar el conocimiento humano. Para responder a esta cuestión de forma rigurosa, un grupo de expertos creó Humanity’s Last Exam (HLE), un examen diseñado para medir la capacidad de los modelos de lenguaje más avanzados del mundo. Este examen no evalúa a un individuo en particular, sino que representa el conocimiento acumulado de toda la humanidad. La inteligencia artificial, para superarlo, debe demostrar que puede igualar o incluso superar el nivel de comprensión y razonamiento de los expertos humanos en múltiples disciplinas.
El HLE es una prueba académica cerrada con 3,000 preguntas diseñadas para ser extremadamente difíciles. Las preguntas abarcan una amplia variedad de disciplinas, incluyendo matemáticas, ciencias naturales, informática, lingüística y humanidades. No se trata de simples cuestiones de trivial, sino de problemas que requieren razonamiento avanzado. Para garantizar su dificultad, las preguntas son formuladas por especialistas de más de 500 instituciones en 50 países. Antes de ser incluidas en el examen, se someten a un proceso de validación que impide que modelos de inteligencia artificial actuales puedan responderlas con facilidad. Cada pregunta se prueba contra los modelos de lenguaje más avanzados, y si un modelo logra responder correctamente con alta frecuencia, la pregunta se descarta o se reformula hasta que se vuelve un desafío real.
El HLE emplea dos tipos de preguntas. Algunas requieren que la inteligencia artificial elija entre varias opciones, mientras que otras exigen una respuesta exacta. Estas últimas son las más difíciles, porque no hay margen para interpretaciones o respuestas aproximadas.
Resultados actuales
Se evaluó con este examen a los modelos de inteligencia artificial más avanzados y los resultados mostraron que todavía hay una brecha con respecto al conocimiento humano. Modelos como GPT-4O y Claude 3.5 lograron menos del 10% de respuestas correctas, lo que indica que aún no están cerca de alcanzar el nivel de un ser humano experto.
Sin embargo, un nuevo modelo, ChatGPT Research, disponible únicamente para aquellos que pagan 200 dólares mensuales, logró un resultado mejor. Este modelo alcanzó un 26% de respuestas correctas, lo que sugiere que el progreso es notable. El hecho de que un modelo pase del 10% al 26% en tan poco tiempo plantea una pregunta clave: ¿cuánto tiempo llevará alcanzar el 50% de aciertos? Y, más aún, ¿cuándo podremos esperar que una inteligencia artificial se acerque al 100%?
La metodología detrás del HLE y su importancia
La clave del HLE es su capacidad para medir el progreso de la inteligencia artificial sin que los modelos puedan valerse de trucos como el acceso a bases de datos o la recuperación de información de internet. Cada pregunta tiene una sola respuesta correcta y verificable, lo que obliga a los modelos a razonar en lugar de depender de la búsqueda de información. Este enfoque permite evaluar la verdadera capacidad de la inteligencia artificial para comprender y procesar conocimiento, en lugar de medir su capacidad de recuperación de datos.
La selección de preguntas sigue un proceso riguroso. Inicialmente, los expertos elaboran preguntas diseñadas para ser difíciles de responder sin un razonamiento profundo. Luego, estas preguntas se prueban contra los modelos de lenguaje más avanzados. Si un modelo logra resolverlas correctamente con frecuencia, la pregunta es descartada o modificada para elevar su nivel de dificultad. Finalmente, un equipo de expertos revisa cada pregunta para garantizar su precisión y claridad.
Este enfoque garantiza que el HLE refleje el conocimiento humano de manera colectiva, no individual. Un solo ser humano puede no saber la respuesta a muchas de estas preguntas, pero la humanidad en su conjunto sí las conoce. Para que una inteligencia artificial supere el HLE, debe demostrar que es capaz de alcanzar ese nivel de conocimiento generalizado.
El camino hacia una IA que supere la prueba
Si un modelo pasa del 10% al 26% en cuestión de meses, es razonable suponer que alcanzará el 50% en los próximos dos o tres años. Este umbral representa el momento en que las IA igualen el desempeño de un grupo de expertos humanos en preguntas cerradas de alto nivel. Para lograrlo, los modelos deben mejorar en varios aspectos. Uno de los principales desafíos es la razón de confianza, ya que actualmente los modelos responden con alta seguridad incluso cuando están equivocados. Un sistema verdaderamente avanzado debe reconocer cuándo no tiene certeza sobre una respuesta.
Otro factor clave es el tiempo de procesamiento. Modelos como ChatGPT Research, que logra el 26%, requieren varios minutos para responder cada pregunta, lo que sugiere que aún dependen de procesos computacionales intensivos para razonar. Mejorar la velocidad de procesamiento sin sacrificar precisión será un paso fundamental para lograr un sistema verdaderamente eficiente.
¿Cuándo se alcanzará el 100%?
Llegar al 100% de precisión en el HLE es un objetivo ambicioso. Si la tasa de progreso se mantiene estable, es posible que dentro de diez años veamos modelos capaces de responder todas las preguntas del examen de manera correcta. Sin embargo, este avance no hará que la IA alcance la tan mentada "inteligencia general". El HLE evalúa conocimiento estructurado en preguntas cerradas, pero la inteligencia artificial aún necesita demostrar su capacidad para el pensamiento creativo y la investigación científica autónoma.
Superar el HLE será un hito importante, porque marcará que una IA podrá responder cualquier pregunta de conocimiento académico con el mismo nivel de certeza que los expertos humanos. Cuando ese momento llegue, será necesario crear nuevas pruebas que evalúen capacidades más avanzadas, como la formulación de nuevas teorías o la resolución de problemas inéditos.
El Humanity’s Last Exam es la herramienta más avanzada para medir el conocimiento de las inteligencias artificiales. Su diseño evalúa qué tan lejos están estos modelos del conocimiento humano acumulado. El camino hacia una inteligencia artificial que supere esta prueba implica mejorar la precisión, la calibración y la velocidad de procesamiento. Alcanzar el 50% será un hito en el corto plazo, y llegar al 100% marcará un cambio profundo en la forma en que concebimos la relación entre la inteligencia artificial y el conocimiento humano. La pregunta no es si sucederá, sino cuándo, y todo indica que ese día está más cerca de lo que pensamos.