Google ha dado un paso significativo en la evolución de sus asistentes virtuales con la incorporación de capacidades de visión en tiempo real a Gemini Live. Esta nueva función permite que la inteligencia artificial no solo procese comandos de voz o texto, sino que también interprete información visual capturada a través de la cámara del dispositivo móvil, ampliando considerablemente las posibilidades de interacción y asistencia al usuario.
¿Qué es la función de cámara de Gemini Live y cómo transforma la interacción con la IA?
La función de cámara de Gemini Live es una innovación que permite al asistente de Google analizar y comprender el entorno visual del usuario en tiempo real. Al activar esta característica, el usuario puede apuntar con la cámara de su smartphone hacia cualquier objeto, texto o escena, y Gemini Live proporcionará información relevante, responderá preguntas específicas o asistirá en tareas relacionadas con lo que se muestra en la pantalla.
Esta capacidad se basa en los avances del Proyecto Astra de Google, que busca integrar la percepción visual en los asistentes de inteligencia artificial para ofrecer una experiencia más completa y contextualizada. Según informes de The Verge, estas funcionalidades permiten que Gemini Live "vea" la pantalla del dispositivo y responda a consultas sobre el contenido mostrado, así como interpretar transmisiones en vivo desde la cámara para brindar respuestas en tiempo real basadas en el flujo de video.
Implementación y disponibilidad de la nueva función de cámara
La integración de la función de cámara en Gemini Live se anunció en el Mobile World Congress y comenzó su despliegue para los suscriptores de Gemini Advanced como parte del plan Google One AI Premium a finales de marzo de 2025. Inicialmente, la disponibilidad se centra en dispositivos Android, con planes de expansión a otras plataformas en el futuro.
Para utilizar esta función, los usuarios deben asegurarse de tener la última versión de la aplicación Gemini instalada en su dispositivo. Una vez actualizada, al abrir la aplicación, se presenta la opción de activar la cámara para interactuar con la IA. Al apuntar la cámara hacia un objeto o escena, Gemini Live procesa la imagen y ofrece información o asistencia pertinente, todo en tiempo real.

Aplicaciones prácticas y beneficios de la visión en tiempo real de Gemini Live
La capacidad de Gemini Live para interpretar información visual en tiempo real abre un abanico de aplicaciones prácticas en la vida cotidiana. Por ejemplo, un usuario que se encuentra en una librería puede apuntar la cámara hacia un libro y recibir una sinopsis, reseñas o incluso comparativas de precios en línea. De manera similar, al enfrentarse a un menú en un idioma desconocido, Gemini Live puede traducir y explicar los platos al instante.
Además, esta función es especialmente útil para personas con discapacidades visuales, ya que puede describir el entorno, leer textos en voz alta o identificar objetos y obstáculos, mejorando significativamente su autonomía y experiencia diaria.
La incorporación de la función de cámara en tiempo real a Gemini Live representa un avance notable en la interacción entre humanos y asistentes de inteligencia artificial. Al dotar a la IA de "ojos" para interpretar el mundo visual, Google no solo amplía las capacidades de asistencia de Gemini Live, sino que también sienta las bases para futuras innovaciones donde la comprensión multimodal (texto, voz e imagen) será esencial para ofrecer experiencias más ricas y contextualizadas.
