Desde este viernes, OpenAI ha presentado Operator, un agente que puede utilizar su propio navegador para cumplir tareas para usted. De momento, está disponible para los usuarios Pro en los Estados Unidos. Finalmente, la compañía se ha avanzado y ya deja probar esta nueva herramienta de IA antes del 30 de enero. Este agente puede ir a la web para ejecutar tareas por ti. Con su propio navegador, puede mirar una página web e interactuar con ella escribiendo, clicando y desplazándose. Actualmente, es una previsualización de investigación, es decir, tiene limitaciones y evolucionará en función de los comentarios de los usuarios. El operador es uno de nuestros primeros agentes, que son IA capaces de hacer trabajo para usted de manera independiente: le dais una tarea y lo ejecutará.
Se puede pedir al operador que gestione una gran variedad de tareas repetitivas del navegador, como rellenar formularios, pedir comestibles e incluso crear memes. La capacidad de utilizar las mismas interfaces y herramientas con las cuales interactúan los humanos diariamente amplía la utilidad de la IA, ayudando a las personas a ahorrar tiempo en las tareas cotidianas a la vez que abre nuevas oportunidades de participación para las empresas.
Por garantizar un lanzamiento seguro e iterativo, empezamos poco a poco. A partir de hoy, Operator está disponible para los usuarios a través de operator.chatgpt.com (s'obre en una ventana nueva). Esta previsualización de la investigación permite a OpenAI aprender de sus usuarios y del ecosistema más amplio, perfeccionándonos y mejorando a medida que avanzamos. El plan es expandirse a los usuarios Pluses, Team y Enterprise e integrar estas capacidades en ChatGPT en el futuro.
¿Cómo funciona?
El operador está impulsado por un nuevo modelo llamado Computer-Using Agent (COLA). Combinando las capacidades de visión de GPT-4o con un razonamiento avanzado mediante el aprendizaje de refuerzo, CUA está entrenado para interactuar con interfaces gráficas de usuario (GUI): los botones, menús y campos de texto que la gente ve en la pantalla. El operador puede "ver" (a través de capturas de pantalla) e "interactuar" (utilizando todas las acciones que permiten un ratón y un teclado) con un navegador, cosa que le permite hacer acciones a la web sin necesidad de integraciones de API personalizadas. Si encuentra retos o comete errores, el operador puede aprovechar sus capacidades de razonamiento para autocorregirse. Cuando se encalla y necesita ayuda, simplemente devuelve el control al usuario, asegurando una experiencia fluida y colaborativa.
Usos prácticos
Para empezar, solo hace falta que describa la tarea que os gustaría hacer y el operador podrá gestionar el resto. Los usuarios pueden optar por asumir el control del navegador remoto en cualquier momento, y el operador está entrenado para pedirle de manera proactiva al usuario que se haga cargo de las tareas que requieran inicio de sesión, datos de pago o cuando resuelve CAPTCHA.
Los usuarios pueden personalizar sus flujos de trabajo a Operator añadiendo instrucciones personalizadas, sea para todos los lugares o para unos específicos, como establecer preferencias para las compañías aéreas en Booking.com. El operador permite a los usuarios guardar indicaciones para acceder rápidamente a la página de inicio, ideal para tareas repetidas como reponer comestibles en Instacart. De manera parecida al uso de varias pestañas en un navegador, los usuarios pueden hacer que el operador ejecute varias tareas simultáneamente, creando nuevas conversaciones, como pedir una taza de esmalte personalizada a Etsy mientras reserváis un camping a Hipcamp.