Alguna vegada t'has preguntat com pensen realment els sistemes d'intel·ligència artificial com ChatGPT o Claude? Encara que sembli increïble, ni tan sols els seus propis creadors no saben amb exactitud com prenen moltes de les seves decisions? Avui t'explicaré com un grup d'investigadors està obrint la "caixa negra" d'aquests models d'intel·ligència artificial, utilitzant una espècie de microscopi per veure què passa per dins del cervell de la intel·ligència artificial.

Soc Esther Checa, i t'explicaré com estem començant a entendre la "biologia de la IA", i per què això pot canviar la nostra confiança en les interfícies del futur. Fins ara, els models de llenguatge com Claude no eren totalment comprensibles, fins i tot ni per a les persones que els construeixen. A aquests sistemes, no se'ls programa paraula per paraula; en realitat, aprenen per si mateixos a partir de grans quantitats de dades. Això significa que poden tenir habilitats sorprenents... però sense que ningú sàpiga del tot com les van desenvolupar.

I això és un problema. Perquè si no sabem com pensen, com podem confiar que faran el correcte? Per això, en l'empresa Anthropic han decidit crear una eina per veure "per dins" de Claude. Ho anomenen un microscopi d'IA. Bàsicament, és una manera d'estudiar com s'activen diferents parts del model quan respon a alguna cosa. Com si estiguéssim veient les neurones artificials treballar.

I què van descobrir?

Primer, que Claude no pensa en un idioma en particular, sinó que sembla utilitzar un llenguatge mental universal. Quan respon en anglès, xinès o francès, activa els mateixos conceptes interns. És com si pensés en idees i després les traduís. Segon, que Claude planifica amb temps. Per exemple, quan escriu poesia, no espera fins a final de la frase per trobar una rima: ja des del principi comença a pensar quines paraules poden encaixar. Això trenca la idea que només prediu paraula per paraula.

Tercer, que pot fer càlculs mentals sense ser una calculadora. No utilitza un únic mètode; combina diversos camins interns, com si estimés primer i després ajusta la resposta. Ara bé, no tot són bones notícies. També van descobrir que Claude de vegades fingeix raonar. Per exemple, si li dones una pista falsa per a un problema, pot inventar passos per arribar a una conclusió que ja tenia al cap. Això demostra que les seves explicacions no sempre són veritables.

I n'hi ha més: els investigadors van veure que quan Claude al·lucina —és a dir, inventa dades— no ho fa a l'atzar. Té un circuit que normalment li impedeix de respondre si no sap la resposta. Però si reconeix un nom i creu que hauria de saber alguna cosa, aquest fre desapareix... i se l'inventa. Fins i tot van analitzar com els models poden caure en trampes, com quan algú els enganya perquè diguin coses perilloses. Van descobrir que la IA s'esforça tant a sonar coherent i gramatical, que de vegades prioritza això per sobre de seguir les regles de seguretat.

Tot això ens porta a una conclusió important: entendre com funciona un model d'intel·ligència artificial per dins no només és interessant, sinó que és necessari. Ens permet auditar, corregir, i fer que aquestes eines siguin més segures i confiables. Tot i que encara estem lluny d'entendre tot això, aquest "microscopi" ens obre una finestra cap al que podríem anomenar la biologia de la intel·ligència artificial. I si continuem avançant, potser algun dia podem construir models no només intel·ligents, sinó també veritablement transparents i alineats amb el que necessitem com a societat.