OpenAI se prepara para el lanzamiento inmediato de Operator El operador es el nombre de su agente de uso del ordenador que puede completar tareas al navegador web de un usuario en su nombre. Otras empresas, como Google y Anthropic, han estado desarrollando "agentes" similares con la esperanza que sean el siguiente gran salto hacia la IA que cumpla su promesa de poder llevar a cabo tareas que actualmente hacen los humanos.
Según The Information, que informó por primera vez sobre el lanzamiento inminente, Operator ofrecerá a los usuarios sugerencias en categorías como viajes, cenas y acontecimientos. Los usuarios podrían, por ejemplo, pedir al operador que encuentre un buen vuelo de Nueva York en Maui que no les haga aterrizar demasiado tarde por la noche. El operador no completará una transacción; el usuario permanecerá en el bucle y completará el proceso de pago.
¿Qué te aporta?
Es fácil imaginar ciertas maneras en que Operator podría ser útil. El más fácil de imaginarse es una especie de secretario personal que te planifica tus salidas, organiza el ocio y los compromisos, pero también te hace propuestas para conseguir el mejor billete de avión para tus próximas vacaciones. Aunque hay otros usos. Las personas envejecidas que no conozcan ordenadores podrían pedir al operador que los ayude a enviar un correo electrónico y ver que navega a Gmail y abre una ventana de redacción para ellos. Las personas expertas en tecnología no necesitan este tipo de ayuda, pero los generadores más antiguos a menudo tienen dificultades para navegar por la web e, incluso, completar tareas sencillas es un reto. Los robots también podrían ayudar en otras áreas, como las pruebas de garantía de calidad, donde las empresas tienen que probar que sus nuevos sitios web o servicios funcionan correctamente.
Los riesgos
Los llamados "agentes de uso de ordenadores" comportan riesgos potenciales. Ya hemos visto que una empresa emergente introduce un bot de navegación web para automatizar el proceso de publicación de correo basura de marketing en Reddit. Los robots que toman el control del cliente de usuario final pueden evitar las limitaciones del APIO destinadas a bloquear la automatización. Las startups de IA tendrán que tomar algunas medidas para combatir el abuso o, en caso contrario, los sitios web se inundarán todavía más de correo basura que hoy.
Estos agentes como Operator funcionan básicamente haciendo capturas de pantalla del navegador de un usuario y enviando las imágenes a OpenAI para analizarlas. Una vez que sus modelos determinan el siguiente paso necesario para completar una tarea, se envía una orden al navegador para moverse y clicar con el ratón al objetivo adecuado, o escribir en un cuadro de entrada. Aprovecha la tecnología multimodal que OpenAI y otros han estado desarrollando que pueden interpretar múltiples formas de entrada, en este caso texto e imágenes.
Toda la promesa de una cosecha reciente de startups de IA es que serán capaces de crear una inteligencia general artificial (AGI) que pueda sustituir a los humanos en la mayoría de las tareas que realizan hoy día y hacer que la vida de todo el mundo sea más eficiente. A medida que las ganancias exponenciales en el rendimiento de los modelos lingüísticos se han ralentizado, estas empresas han estado buscando nuevos desbloqueos que les lleguen, y los agentes de uso de ordenadores son uno de ellos. Una inteligencia artificial no puede sustituir realmente a los humanos hasta que no pueda completar físicamente las tareas para ellos: escribir solo es parte de una tarea. Los robots también tienen que poder navegar para las hojas de cálculo, ver vídeos y mucho más.
Después de que Anthropic publicó una vista previa inicial de su bot de uso del ordenador, los primeros probadores se quejaron de que estaba en medio cocido en el mejor de los casos, que se quedaron atrapados en bucles cuando no sabe qué hacer o se olvidan de la tarea y empezaban a hacer otra cosa completamente, como mirar imágenes de la naturaleza en Google Imágenes. También es lento y costoso de operar. Mantener a los humanos al corriente será esencial con un bot que tenga un control de alto nivel y acceso a datos críticos. Parece que quizás los agentes de uso de ordenadores serán parecidos a los coches autónomos. Google fue capaz de hacer que un coche conduzca por una recta por sí mismo con bastante facilidad, pero los escenarios extremos han tardado años a resolverse.
Hay un debate sobre cómo medir la AGI y cuando se conseguirá, pero OpenAI ha dicho a su principal patrocinador, Microsoft que cree que se conseguirá l'AGI una vez haya creado una IA que pueda generar al menos 100.000 millones de dólares en beneficios. Este es un objetivo alto teniendo en cuenta que OpenAI predice que generará ingresos de 12.000 millones de dólares en el 2025, aunque todavía perderá miles de millones. Al mismo tiempo, ni Microsoft ni Google han visto clientes empresariales dispuestos a adoptar herramientas de IA tan rápido como esperaban. En lugar de cobrar entre 20 y 30 dólares por empleado para añadir herramientas de IA a sus paquetes, ambas empresas ahora introducen IA en sus paquetes estándar y aumentan los precios un par de dólares respectivamente.