Des que la intel·ligència artificial respon preguntes, es debat sobre que a prop estan d'assolir el coneixement humà. Per respondre a aquesta qüestió de forma rigorosa, un grup d'experts va crear Humanity's Last Exam (HLE), un examen dissenyat per mesurar la capacitat dels models de llenguatge més avançats del món. Aquest examen no avalua un individu en particular, sinó que representa el coneixement acumulat de tota la humanitat. La intel·ligència artificial, per superar-lo, ha de demostrar que pot igualar o fins i tot superar el nivell de comprensió i raonament dels experts humans en múltiples disciplines.
El HLE és una prova acadèmica tancada amb 3,000 preguntes dissenyades per ser extremadament difícils. Les preguntes inclouen una àmplia varietat de disciplines, incloent-hi matemàtiques, ciències naturals, informàtica, lingüística i humanitats. No es tracta de simples qüestions de trivial, sinó de problemes que requereixen raonament avançat. Per garantir la seva dificultat, les preguntes són formulades per especialistes de més de 500 institucions a 50 països. Abans de ser incloses en l'examen, se sotmeten a un procés de validació que impedeix que models d'intel·ligència artificial actuals puguin respondre-les amb facilitat. Cada pregunta es prova contra els models de llenguatge més avançats, i si un model aconsegueix respondre correctament amb alta freqüència, la pregunta es descarta o es reformula fins que torna un desafiament real.
El HLE fa servir dos tipus de preguntes. Algunes requereixen que la intel·ligència artificial elegeixi entre diverses opcions, mentre que d'altres exigeixen una resposta exacta. Aquestes últimes són les més difícils, perquè no hi ha marge per a interpretacions o respostes aproximades.
Resultats actuals
Es va avaluar amb aquest examen als models d'intel·ligència artificial més avançats i els resultats van mostrar que encara hi ha una bretxa respecte al coneixement humà. Models com a GPT-GPT-4O i Claude 3.5 van aconseguir menys del 10% de respostes correctes, la qual cosa indica que encara no estan a prop d'assolir el nivell d'un ésser humà expert.
Tanmateix, un nou model, ChatGPT Research, disponible únicament per a aquells que paguen 200 dòlars mensuals, va aconseguir un resultat millor. Aquest model va assolir un 26% de respostes correctes, la qual cosa suggereix que el progrés és notable. El fet que un model passi del 10% al 26% en tan poc temps planteja una pregunta clau: quant temps portarà assolir el 50% d'encerts? I, més encara, quan podrem esperar que una intel·ligència artificial s'apropi al 100%?
La metodologia darrere del HLE i la seva importància
La clau del HLE és la seva capacitat per mesurar el progrés de la intel·ligència artificial sense que els models puguin valer-se de trucs com l'accés a bases de dades o la recuperació d'informació d'internet. Cada pregunta té una sola resposta correcta i verificable, i això obliga els models a raonar en lloc de dependre de la recerca d'informació. Aquest enfocament permet avaluar la veritable capacitat de la intel·ligència artificial per comprendre i processar coneixement, en lloc de mesurar la seva capacitat de recuperació de dades.
La selecció de preguntes segueix un procés rigorós. Inicialment, els experts elaboren preguntes dissenyades per ser difícils de respondre sense un raonament profund. Després, aquestes preguntes es proven contra els models de llenguatge més avançats. Si un model aconsegueix resoldre-les correctament amb freqüència, la pregunta és descartada o modificada per elevar el seu nivell de dificultat. Finalment, un equip d'experts revisa cada pregunta per garantir la seva precisió i claredat.
Aquest enfocament garanteix que el HLE reflecteixi el coneixement humà de manera col·lectiva, no individual. Un sol ésser humà pot no saber la resposta a moltes d'aquestes preguntes, però la humanitat en el seu conjunt sí que les coneix. Perquè una intel·ligència artificial superi el HLE, ha de demostrar que és capaç d'assolir aquest nivell de coneixement generalitzat.
El camí cap a una IA que superi la prova
Si un model passa del 10% al 26% en qüestió de mesos, és raonable suposar que assolirà el 50% en els pròxims dos o tres anys. Aquest llindar representa el moment en què les IA igualin l'acompliment d'un grup d'experts humans en preguntes tancades d'alt nivell. Per aconseguir-ho, els models han de millorar en diversos aspectes. Un dels principals desafiaments és la raó de confiança, ja que actualment els models responen amb alta seguretat fins i tot quan estan equivocats. Un sistema veritablement avançat ha de reconèixer quan no té certesa sobre una resposta.
Un altre factor clau és el temps de processament. Models com ChatGPT Research, que aconsegueix el 26%, requereixen diversos minuts per respondre cada pregunta, la qual cosa suggereix que encara depenen de processos computacionals intensius per raonar. Millorar la velocitat de processament sense sacrificar precisió serà un pas fonamental per aconseguir un sistema veritablement eficient.
Quan s'assolirà el 100%?
Arribar al 100% de precisió en el HLE és un objectiu ambiciós. Si la taxa de progrés es manté estable, és possible que d'aquí a deu anys vegem models capaços de respondre totes les preguntes de l'examen de manera correcta. Tanmateix, aquest avenç no farà que la IA assoleixi la tan esmentada "intel·ligència general". El HLE avalua coneixement estructurat en preguntes tancades, però la intel·ligència artificial encara necessita demostrar la seva capacitat per al pensament creatiu i la investigació científica autònoma.
Superar el HLE serà una fita important, perquè marcarà que una IA podrà respondre qualsevol pregunta de coneixement acadèmic amb el mateix nivell de certesa que els experts humans. Quan aquell moment arribi, serà necessari crear noves proves que avaluïn capacitats més avançades, com la formulació de noves teories o la resolució de problemes inèdits.
L'Humanity's Last Exam és l'eina més avançada per mesurar el coneixement de les intel·ligències artificials. El seu disseny avalua que tan lluny són aquests models del coneixement humà acumulat. El camí cap a una intel·ligència artificial que superi aquesta prova implica millorar la precisió, el calibratge i la velocitat de processament. Assolir el 50% serà una fita a curt termini, i arribar al 100% marcarà un canvi profund en la forma en què concebem la relació entre la intel·ligència artificial i el coneixement humà. La pregunta no és si passarà, sinó quan, i tot indica que aquell dia està més a prop del que pensem.