Des d'aquest divendres, OpenAI ha presentat Operator, un agent que pot utilitzar el seu propi navegador per acomplir tasques per a vostè. De moment, està disponible per als usuaris Pro als Estats Units. Finalment, la companyia s'ha avançat i ja deixa provar aquesta nova eina d'IA abans del 30 de gener. Aquest agent pot anar a la web per executar tasques per tu. Amb el seu propi navegador, pot mirar una pàgina web i interactuar amb ella escrivint, fent clic i desplaçant-se. Actualment, és una previsualització d'investigació, és a dir, té limitacions i evolucionarà en funció dels comentaris dels usuaris. L'operador és un dels nostres primers agents, que són IA capaços de fer feina per a vostè de manera independent: li doneu una tasca i l'executarà.

Es pot demanar a l'operador que gestioni una gran varietat de tasques repetitives del navegador, com ara omplir formularis, demanar queviures i fins i tot crear mems. La capacitat d'utilitzar les mateixes interfícies i eines amb les quals interactuen els humans diàriament amplia la utilitat de la IA, ajudant les persones a estalviar temps en les tasques quotidianes alhora que obre noves oportunitats de participació per a les empreses.

Per garantir un llançament segur i iteratiu, comencem de mica en mica. A partir d'avui, Operator està disponible per als usuaris a través de operator.chatgpt.com ⁠(s'obre en una finestra nova). Aquesta previsualització de la investigació permet a OpenAI aprendre dels seus usuaris i de l'ecosistema més ampli, perfeccionant-nos i millorant a mesura que avancem. El pla és expandir-se als usuaris Plus, Team i Enterprise i integrar aquestes capacitats a ChatGPT en el futur.

Com funciona?

L'operador està impulsat per un nou model anomenat Computer-Using Agent (CUA). Combinant les capacitats de visió de GPT-4o amb un raonament avançat mitjançant l'aprenentatge de reforç, CUA està entrenat per interactuar amb interfícies gràfiques d'usuari (GUI): els botons, menús i camps de text que la gent veu a la pantalla. L'operador pot "veure" (a través de captures de pantalla) i "interactuar" (utilitzant totes les accions que permeten un ratolí i un teclat) amb un navegador, cosa que li permet fer accions al web sense necessitat d'integracions d'API personalitzades. Si troba reptes o comet errors, l'operador pot aprofitar les seves capacitats de raonament per autocorregir-se. Quan s'encalla i necessita ajuda, simplement retorna el control a l'usuari, assegurant una experiència fluida i col·laborativa.

Usos pràctics

Per començar, només cal que descrigui la tasca que us agradaria fer i l'operador podrà gestionar la resta. Els usuaris poden optar per assumir el control del navegador remot en qualsevol moment, i l'operador està entrenat per demanar-li de manera proactiva a l'usuari que es faci càrrec de les tasques que requereixin inici de sessió, dades de pagament o quan resol CAPTCHA.

Els usuaris poden personalitzar els seus fluxos de treball a Operator afegint instruccions personalitzades, sigui per a tots els llocs o per a uns específics, com ara establir preferències per a les companyies aèries a Booking.com. L'operador permet als usuaris desar indicacions per accedir ràpidament a la pàgina d'inici, ideal per a tasques repetides com ara reposar queviures a Instacart. De manera semblant a l'ús de diverses pestanyes en un navegador, els usuaris poden fer que l'operador executi diverses tasques simultàniament creant noves converses, com ara demanar una tassa d'esmalt personalitzada a Etsy mentre reserveu un càmping a Hipcamp.