Ciencia y tecnología

Es realmente intrigante que mi teléfono celular pueda detectarme. Probé los ojos de Géminis Live.

En diciembre de 2024, OpenAI dejó a todos boquiabiertos al presentar una característica deslumbrante: ChatGPT había adquirido «ojos», lo que le permitía ver e interpretar el mundo que lo rodea en tiempo real. La demostración fue sencillamente asombrosa: la aplicación, al utilizar la cámara de un dispositivo, podía observar y entender todo lo que veía. Y cuando decimos «todo», es una afirmación literal.

En el amanecer de 2025, Google reveló una novedad prominente en Gemini Live, su innovador modo de idioma avanzado. Este lanzamiento busca competir de manera directa con la función de ChatGPT, y ya está disponible para dispositivos como el Google Pixel 9 y el Samsung Galaxy S25, siempre y cuando los usuarios adquieran la suscripción avanzada correspondiente.

Tuve la oportunidad de probar esta función en un Google Pixel 9 Pro, y puedo confirmar que es tan impresionante como uno podría imaginar.

La interfaz. Utilizar los nuevos modos de «visión» de Gemini Live en tiempo real es bastante sencillo. Todo lo que necesitas hacer es abrir la aplicación y dirigirte al modo de lenguaje ampliado, el cual se encuentra indicado por un símbolo en la esquina inferior derecha de la pantalla.

Una vez que Gemini está activado en modo en vivo, aparecerán dos accesos directos: uno que te permitirá acceder a la cámara del dispositivo y otro que te proporcionará acceso a la pantalla. Esto significa que también puedes pedirle a Gemini que lea el contenido que aparece en tu pantalla en tiempo real, lo cual es realmente útil.

Modo de cámara. Al activar el modo de cámara, Gemini puede ver todo lo que la cámara capta. Es realmente espectacular la rapidez con la que puede reconocer diversos elementos, desde tipos de plantas hasta modelos de aparatos tecnológicos, sin que haya nada delante de ti para ayudar en la identificación.

Podemos hacerle todas las preguntas que se nos ocurran, ya que esta inteligencia artificial opera como un guía, traductor e incluso un profesor privado. Este último aspecto resulta increíble: puede resolver ecuaciones matemáticas, abordar problemas de psicometría y responder a todo tipo de preguntas explicando el proceso paso a paso.

Modo de pantalla. Este modo puede presentar consideraciones importantes respecto a la privacidad, pero si lo deseas, Gemini tiene la capacidad de leer todo lo que aparece en tu pantalla. Podemos preguntarle todo lo que desee sobre esos contenidos, lo que puede ser práctico para obtener información específica.

En este caso, aunque puede no parecer tan útil como se espera, ya que Google Lens ya nos brinda información necesaria en situaciones especiales, sigue siendo una muestra más del potencial renovado que presenta Gemini.

No confíes en la IA, nunca. Al igual que sucede con otras formas de inteligencia artificial, siempre hay que mantener un escepticismo saludable. Une situación curiosa ocurrió cuando Gemini logró identificar mi computadora con precisión desde una vista general. Sin embargo, al dirigirse directamente hacia el objeto, me informó que no había reconocido una computadora en absoluto.

Las preguntas nunca terminan. Tanto Gemini Live como el modo de conversación avanzada de GPT parecen compartir un mismo inconveniente: la saturación de preguntas. Para fomentar la conversación, las respuestas siempre concluyen con una pregunta, lo cual puede resultar molesto en ciertos contextos.

Es complicado profundizar en un tema, ya que estas interrupciones a menudo desvían la atención de la conversación. Este inconveniente, aunque notable, es un problema menor que se encuentra presente en muchas aplicaciones de inteligencia artificial, pero que puede obstaculizar un poco la fluidez del diálogo.

Pese a ello, la visión y las capacidades de Gemini son verdaderamente impresionantes.

Imagen |

En | Google Gemini: ¿Qué es, cómo funciona, diferencias con GPT y cuándo podrás usar este modelo para la inteligencia artificial?