OpenAI es prepara per al llançament immediat d'Operator L'operador és el nom del seu agent d'ús de l'ordinador que pot completar tasques al navegador web d'un usuari en nom seu. Altres empreses, com Google i Anthropic, han estat desenvolupant "agents" similars amb l'esperança que siguin el següent gran salt cap a la IA que compleixi la seva promesa de poder dur a terme tasques que actualment fan els humans.
Segons The Information, que va informar per primera vegada sobre el llançament imminent, Operator oferirà als usuaris suggeriments en categories com ara viatges, sopars i esdeveniments. Els usuaris podrien, per exemple, demanar a l'operador que trobi un bon vol de Nova York a Maui que no els faci aterrar massa tard al vespre. L'operador no completarà una transacció; l'usuari romandrà en el bucle i completarà el procés de pagament.
Què t'aporta?
És fàcil imaginar certes maneres en què Operator podria ser útil. El més fàcil d'imaginar-se és una mena de secretari personal que et planifica les teves sortides, organitza l'oci i els compromisos, però també et fa propostes per aconseguir el millor bitllet d'avió per a les teves pròximes vacances. Encara que hi ha altres usos. Les persones envellides que no coneguin ordinadors podrien demanar a l'operador que els ajudi a enviar un correu electrònic i veure que navega a Gmail i obre una finestra de redacció per a ells. Les persones expertes en tecnologia no necessiten aquest tipus d'ajuda, però els generadors més antics sovint tenen dificultats per navegar per la web i, fins i tot, completar tasques senzilles és un repte. Els robots també podrien ajudar en altres àrees, com ara les proves de garantia de qualitat on les empreses han de provar que els seus nous llocs web o serveis funcionen correctament.
Els riscos
Els anomenats "agents d'ús d'ordinadors" comporten riscos potencials. Ja hem vist que una empresa emergent introdueix un bot de navegació web per automatitzar el procés de publicació de correu brossa de màrqueting a Reddit. Els robots que prenen el control del client d'usuari final poden evitar les limitacions de l'API destinades a bloquejar l'automatització. Les startups d'IA hauran de prendre algunes mesures per combatre l'abús o, en cas contrari, els llocs web s'inundaran encara més de correu brossa que avui.
Aquests agents com Operator funcionen bàsicament fent captures de pantalla del navegador d'un usuari i enviant les imatges a OpenAI per analitzar-les. Una vegada que els seus models determinen el següent pas necessari per completar una tasca, s'envia una ordre al navegador per moure's i fer clic amb el ratolí a l'objectiu adequat, o escriure en un quadre d'entrada. Aprofita la tecnologia multimodal que OpenAI i altres han estat desenvolupant que poden interpretar múltiples formes d'entrada, en aquest cas text i imatges.
Tota la promesa d'una collita recent de startups d'IA és que seran capaços de crear una intel·ligència general artificial (AGI) que pugui substituir els humans en la majoria de les tasques que realitzen avui dia i fer que la vida de tothom sigui més eficient. A mesura que els guanys exponencials en el rendiment dels models lingüístics s'han alentit, aquestes empreses han estat buscant nous desbloqueigs que els hi arribin, i els agents d'ús d'ordinadors són un d'ells. Una intel·ligència artificial no pot substituir realment els humans fins que no pugui completar físicament les tasques per a ells: escriure només és part d'una tasca. Els robots també han de poder navegar pels fulls de càlcul, veure vídeos i molt més.
Després que Anthropic va publicar una vista prèvia inicial del seu bot d'ús de l'ordinador, els primers provadors es van queixar que estava a mig cuit en el millor dels casos, que es van quedar atrapats en bucles quan no sap què fer o s'obliden de la tasca i començaven a fer una altra cosa completament, com mirar imatges de la natura a Google Imatges. També és lent i costós d'operar. Mantenir els humans al corrent serà essencial amb un bot que tingui un control d'alt nivell i accés a dades crítiques. Sembla que potser els agents d'ús d'ordinadors seran semblants als cotxes autònoms. Google va ser capaç de fer que un cotxe condueixi per una recta per si mateix amb prou facilitat, però els escenaris extrems han trigat anys a resoldre's.
Hi ha un debat sobre com mesurar l'AGI i quan "s'aconseguirà", però OpenAI ha dit al seu principal patrocinador Microsoft que creu que s'aconseguirà l'AGI un cop hagi creat una IA que pugui generar almenys 100.000 milions de dòlars en beneficis. Aquest és un objectiu alt tenint en compte que OpenAI prediu que generarà ingressos de 12.000 milions de dòlars el 2025 tot i que encara perdrà milers de milions. Al mateix temps, ni Microsoft ni Google han vist clients empresarials disposats a adoptar eines d'IA tan ràpid com esperaven. En lloc de cobrar entre 20 i 30 dòlars per empleat per afegir eines d'IA als seus paquets, ambdues empreses ara introdueixen IA als seus paquets estàndard i augmenten els preus un parell de dòlars respectivament.