Així és com les màquines estan aprenent a pensar per elles mateixes

Imagina que a casa teva tens un robot que pot fer coses increïbles: resoldre problemes de matemàtiques, detectar errors en programes d'ordinador, escriure històries o fins i tot explicar-te temes complicats de manera senzilla. Aquest robot no només sembla intel·ligent, sinó que respon de pressa i gairebé sempre fa l'efecte que "sap" el que està fent. Ara, la gran pregunta és: com pren decisions aquest robot? Es passa hores buscant entre totes les possibles respostes fins a donar amb la correcta? O funciona d'una manera completament diferent?

Aquesta és la màgia darrere d'OpenAI o1, un model d'intel·ligència artificial desenvolupat per OpenAI, que va canviar la manera en què entenem l'aprenentatge de les màquines. Molta gent va pensar, al principi, que aquest model utilitzava tècniques superavançades per buscar la millor solució a cada problema. S'imaginaven que, com un escaquista professional, analitzava totes les jugades possibles abans de decidir-se per una. Però no és així. La realitat és molt més senzilla i, alhora, més sorprenent.

Per entendre com funciona o1, ho compararem amb una cosa que tots coneixem: un estudiant que està aprenent. Imagina que aquest estudiant intenta resoldre un problema bàsic de matemàtiques, com ara "Quant suma 2 +2?". Al principi, no té idea de quina és la resposta, així que prova amb el primer que se li acudeix: "3". Algú li diu que està equivocat. Llavors prova de nou, aquesta vegada en diu "5", però torna a fallar. Finalment, en diu "4" i li confirmen que aquesta és la resposta correcta. Quan ho fa bé, rep una espècie de premi, una cosa que el motiva a recordar com ho va fer per repetir-ho en el futur.

Ara, imagina que aquest estudiant continua practicant amb més problemes. Cada vegada que encerta, es torna més ràpidament i precís, perquè ja sap com resoldre'ls. Al final, pot contestar sense dubtar, com si la resposta fos al seu cap des de sempre. Això és exactament el que fa OpenAI o1.

L'interessant d'aquest model és que no necessita buscar entre milions d'opcions com alguns creuen. No és com un detectiu revisant totes les pistes possibles abans de trobar el culpable. En lloc d'això, aprèn a força de practicar i millorar a poc a poc, tal com ho faria un estudiant a escola.

Com aprèn OpenAI o1?

OpenAI o1 utilitza una cosa anomenada "aprenentatge per reforç". Això significa que aprèn provant diferents opcions i rebent recompenses quan ho fa bé. Tornant a l'exemple de l'estudiant, imagina que cada vegada que respon correctament a un problema, algú li dona una galeta. Amb el temps, l'estudiant s'esforça per trobar les respostes correctes més ràpides per guanyar més galetes.

Un detall important aquí és que o1 no només aprèn dels seus encerts, també aprèn dels seus errors. Si dona una resposta incorrecta, revisa el que va fer malament i el corregeix per no tornar a cometre el mateix error. És com quan un nen s'equivoca en un examen, però després revisa els seus apunts per entendre en què va fallar. Per exemple, suposem que o1 intenta resoldre el problema "Quant és 10 dividit per 2?" i en respon "3". En lloc de quedar-se amb aquesta resposta, el model revisa els passos que va seguir per arribar allà, identifica on es va equivocar i el corregeix. La pròxima vegada que vegi un problema similar, ja sabrà com resoldre'l correctament.

El que fa únic o1 és que no necessita explorar totes les possibles solucions, com faria un programa d'escacs que analitza cada moviment abans de jugar. En lloc d'això, o1 s'enfoca a millorar el seu propi raonament amb cada intent. Això ho fa molt més eficient i ràpid.

Quines dades utilitza o1 per aprendre?

Per aprendre, OpenAI o1 utilitza dades clares i verificables. Això significa que se li dona informació amb respostes definitives, com a problemes matemàtics, errors en codi d'ordinador o tasques amb resultats específics. Per exemple, imagina que li dones un problema com ara "Quin és l'àrea d'un quadrat amb un costat de 4 metres?". Aquest és un problema fàcil de verificar per què la resposta és clara (16 metres quadrats). Si o1 s'equivoca, pot analitzar el seu error i corregir-lo ràpidament. Aquest tipus de dades li permet aprendre de manera eficient, sense necessitat de dependre de milions d'exemples confusos.

A més, o1 també aprèn a corregir-se a si mateix. Si detecta que una de les seves respostes no té sentit, intenta millorar-la automàticament. Això és com un estudiant que, en adonar-se que la seva resposta no encaixa, torna a pensar en el problema fins i tot trobar una solució que sí que ho faci.

Què passa quan o1 s'equivoca?

Una de les coses més fascinants de o1 és la seva capacitat per aprendre dels errors. Suposem que està escrivint un programa d'ordinador i comet un error que fa que el programa no funcioni. En lloc d'aturar-se allà, revisa el seu treball per trobar on està l'error i el corregeix. Imagina que tu mateix estàs escrivint una recepta i t'adones que vas oblidar incloure un ingredient clau, com el llevat en un pa de pessic. En lloc de tirar la recepta, tornes a llegir-la, afegeixes l'ingredient que falta i segueixes endavant. Això és el que fa o1: analitza els seus passos, troba l'error i el corregeix per fer-ho millor la pròxima vegada.

Per què és diferent d'altres models?

Molta gent pensava que OpenAI o1 funcionava com un programa d'escacs, analitzant totes les possibles opcions abans de decidir-se per una. Però aquest model és molt més senzill i efectiu. Un exemple clar: imagina que tens un munt de claus i necessites obrir una porta. Un programa de cerca avançada provaria totes les claus una per una fins a trobar la correcta. OpenAI o1, en canvi, intenta un parell de vegades, aprèn dels errors, i després troba la clau correcta molt més ràpida. Això ho fa menys complicat i més eficient que altres models d'intel·ligència artificial que depenen de tècniques més avançades i costoses.

Què significa això per al futur?

OpenAI o1 ens mostra que de vegades les solucions més simples són les més efectives. No necessita ser el model més complicat per fer coses increïbles. En lloc de dependre d'eines avançades, s'enfoca a aprendre de manera pràctica, com un estudiant aplicat que millora amb cada exercici. Aquest model un recordatori que l'aprenentatge i la millora contínua poden portar-nos molt lluny. En un món on la intel·ligència artificial es torna cada vegada més important, o1 ens dona un cop d'ull al futur: un futur on les màquines no només siguin més intel·ligents, sinó també més humanes en la forma en què aprenen i s'adapten. Així que, la pròxima vegada que vegis un robot, un assistent virtual o una màquina que sembla "saber-ho tot", recorda: darrere de la seva intel·ligència, hi ha un procés d'aprenentatge constant, fet de petits passos, errors i encerts. Just com aprenem nosaltres. Les coses com són.