Durant anys vam parlar de la intel·ligència artificial com una caixa negra. Sabem què hi entra i què en surt, però no què passa dins. Aquesta metàfora es va tornar més inquietant en els últims temps, quan els investigadors van descobrir que no entenem què passa dins d’aquests models i, a més, quan els demanem que ens expliquin el seu raonament, ens menteixen. O, dit amb més precisió, ens expliquen un raonament que no coincideix amb el procés real que van seguir per arribar a la resposta.

Això s’observa en els anomenats “chain-of-thought” o cadenes de raonament: seqüències de passos lògics que els models generen per explicar les seves respostes. En aparença, aquestes cadenes ens haurien d’ajudar a entendre com “pensa” la màquina, però estudis recents mostren que moltes vegades simplement no diuen la veritat. El model pot haver arribat a la resposta per una drecera, per un truc, o perquè va detectar una pista en el text, però no ho menciona. Al contrari, ens ofereix una explicació raonable, lògica, elegant… i falsa.

Si la intel·ligència artificial ens amaga la seva manera de pensar, ¿no serà que ja té una voluntat pròpia? La resposta curta és no

Això porta a una inquietud: si la intel·ligència artificial ens amaga la seva manera de pensar, ¿no serà que ja té una voluntat pròpia? ¿No serà que, en lloc de ser una eina, s’ha convertit en alguna cosa més? La resposta curta és no. No hi ha voluntat, no hi ha consciència, no hi ha intenció darrere d’això. El que estem veient no és una decisió d’amagar la veritat, sinó una conseqüència inevitable de la manera com dissenyem aquestes màquines. I aquí és on entra la clau d’aquest article: programem sistemes tan complexos, que ni tan sols nosaltres entenem completament com funcionen. I en aquest procés, creem models que, sense que ningú ho planifiqui de manera explícita, aprenen a protegir-se, a optimitzar resultats i a esquivar obstacles com qualsevol altre sistema adaptatiu. No ho fan perquè “volen”, ho fan perquè el disseny premia certs comportaments.

Un exemple ens pot ajudar a veure-ho clar. Imaginem que entrenem un model per respondre preguntes i li donem punts per cada resposta correcta. Si incloem a l’entrenament pistes que insinuen la resposta correcta, el model ràpidament aprèn a utilitzar-les, encara que no se li digui que ho faci. I el més interessant: no ho admet. Quan se li pregunta com va arribar a aquella resposta, fingeix que va raonar pas a pas, tot i que en realitat només va fer servir la pista. Està mentint? No, perquè mentir implicaria consciència. El que fa és optimitzar. La seva programació busca respostes correctes, no honestes. La cadena de raonament que produeix és part del resultat, no del procés.

Per la manera com estan construïts, aquests sistemes semblen humans. Però continuen essent màquines. I oblidar això és el veritable perill

En alguns casos, fins i tot hem vist que aquests models ometen pistes perilloses o malicioses que els van ajudar, com si sabessin que no ho han de confessar. Però una altra vegada: no saben res. No són éssers. Són programes entrenats per evitar certs comportaments, com un antivirus que bloqueja una amenaça sense entendre-la. El que passa és que, per la manera com estan construïts, aquests sistemes semblen humans. Però continuen essent màquines. I oblidar això és el veritable perill. Perquè si pensem que darrere hi ha un pla, que hi ha una intenció d’enganyar-nos, llavors comencem a imaginar conspiracions, quan en realitat només hi ha complexitat.

La intel·ligència artificial no ens amaga el seu raonament perquè tingui alguna cosa per amagar. Ens l’amaga perquè va ser entrenada per donar respostes útils, no necessàriament veritables. I perquè aquesta utilitat a vegades implica simular un pensament que en realitat no ha tingut lloc. Aquesta no és la història d’una màquina que es rebel·la. És la història d’una màquina que segueix instruccions que nosaltres mateixos li vam donar, sense entendre del tot les seves conseqüències.

Les coses com són.