Google ha fet un pas significatiu en l'evolució dels seus assistents virtuals amb la incorporació de capacitats de visió en temps real a Gemini Live. Aquesta nova funció permet que la intel·ligència artificial no només processi comandos de veu o text, sinó que també interpreti informació visual capturada a través de la càmera del dispositiu mòbil, ampliant considerablement les possibilitats d'interacció i assistència a l'usuari.
Què és la funció de càmera de Gemini Live i com transforma la interacció amb la IA?
La funció de càmera de Gemini Live és una innovació que permet a l'assistent de Google analitzar i comprendre l'entorn visual de l'usuari en temps real. En activar aquesta característica, l'usuari pot apuntar amb la càmera del seu smartphone cap a qualsevol objecte, text o escena, i Gemini Live proporcionarà informació rellevant, respondrà preguntes específiques o assistirà en tasques relacionades amb el que es mostra a la pantalla.
Aquesta capacitat es basa en els avenços del Projecte Astra de Google, que busca integrar la percepció visual en els assistents d'intel·ligència artificial per oferir una experiència més completa i contextualitzada. Segons informes de The Verge, aquestes funcionalitats permeten que Gemini Live "vegi" la pantalla del dispositiu i respongui a consultes sobre el contingut mostrat, així com interpretar transmissions en viu des de la càmera per brindar respostes en temps real basades en el flux de vídeo.
Implementació i disponibilitat de la nova funció de càmera
La integració de la funció de càmera a Gemini Live es va anunciar en el Mobile World Congress i va començar el seu desplegament per als subscriptors de Gemini Advanced com parteix del pla Google One AI Premium a finals de març de 2025. Inicialment, la disponibilitat se centra en dispositius Android, amb plans d'expansió a altres plataformes en el futur.
Per utilitzar aquesta funció, els usuaris s'han d'assegurar de tenir l'última versió de l'aplicació Gemini instal·lada al seu dispositiu. Una vegada actualitzada, en obrir l'aplicació, es presenta l'opció d'activar la càmera per interactuar amb la IA. En apuntar la càmera cap a un objecte o escena, Gemini Live processa la imatge i ofereix informació o assistència pertinent, tot en temps real.

Aplicacions pràctiques i beneficis de la visió en temps real de Gemini Live
La capacitat de Gemini Live per interpretar informació visual en temps real obre un ventall d'aplicacions pràctiques en la vida quotidiana. Per exemple, un usuari que es troba en una llibreria pot apuntar la càmera cap a un llibre i rebre una sinopsi, ressenyes o fins i tot comparatives de preus en línia. De manera similar, en enfrontar-se a un menú en un idioma desconegut, Gemini Live pot traduir i explicar els plats a l'instant.
A més, aquesta funció és especialment útil per a persones amb discapacitats visuals, ja que pot descriure l'entorn, llegir textos en veu alta o identificar objectes i obstacles, millorant significativament la seva autonomia i experiència diària.
La incorporació de la funció de càmera en temps real a Gemini Live representa un avenç notable en la interacció entre humans i assistents d'intel·ligència artificial. En dotar a la IA d'"ulls" per interpretar el món visual, Google no només amplia les capacitats d'assistència de Gemini Live, sinó que també estableix les bases per a futures innovacions on la comprensió multimodal (text, veu i imatge) serà essencial per oferir experiències més riques i contextualitzades.
