El nuevo Proyecto Astra de Google se perfila como la aplicación estrella de la IA generativa

Google DeepMind ha anunciado una impresionante serie de nuevos productos y prototipos que podrían permitirle recuperar su liderazgo en la carrera para convertir la inteligencia artificial generativa en una preocupación del mercado masivo.

El primer puesto lo ocupa Gemini 2.0 , la última versión de la familia de modelos de lenguaje multimodales de gran tamaño de Google DeepMind , ahora rediseñada en torno a la capacidad de controlar agentes , y una nueva versión de Project Astra, la aplicación experimental para todo que la compañía presentó en Google I/O en mayo.

La semana pasada, MIT Technology Review probó Astra en una demostración en vivo a puertas cerradas. Fue una experiencia sorprendente, pero hay una gran diferencia entre una promoción pulida y una demostración en vivo.

Astra utiliza el marco de agente integrado de Gemini 2.0 para responder preguntas y realizar tareas mediante texto, voz, imágenes y video, y para acceder a aplicaciones de Google existentes, como Search, Maps y Lens, cuando es necesario. «Está fusionando algunos de los sistemas de recuperación de información más potentes de nuestro tiempo», afirma Bibo Xu, gerente de productos de Astra.

A Gemini 2.0 y Astra se unen Mariner, un nuevo agente creado sobre Gemini que puede navegar por la web por ti; Jules, un nuevo asistente de codificación desarrollado con Gemini; y Gemini for Games, un asistente experimental con el que puedes chatear y pedir consejos mientras juegas videojuegos.

(Y no olvidemos que la semana pasada Google DeepMind también anunció Veo , un nuevo modelo de generación de vídeo; Imagen 3 , una nueva versión de su modelo de generación de imágenes; y Willow , un nuevo tipo de chip para ordenadores cuánticos. Uf. Mientras tanto, el CEO Demis Hassabis estuvo ayer en Suecia recibiendo su Premio Nobel .)

Google DeepMind afirma que Gemini 2.0 es el doble de rápido que la versión anterior, Gemini 1.5, y la supera en una serie de pruebas estándar, incluido MMLU-Pro, un gran conjunto de preguntas de opción múltiple diseñadas para probar las capacidades de grandes modelos de lenguaje en una variedad de temas, desde matemáticas y física hasta salud, psicología y filosofía.

Pero los márgenes entre los modelos de gama alta como Gemini 2.0 y los de laboratorios rivales como OpenAI y Anthropic son ahora estrechos. Hoy en día, los avances en los modelos de lenguaje de gran tamaño tienen menos que ver con su calidad que con lo que se puede hacer con ellos.

Y aquí es donde entran los agentes.

Manos a la obra con el Proyecto Astra
La semana pasada, me llevaron a través de una puerta sin marcar en el piso superior de un edificio en el distrito King’s Cross de Londres a una habitación con fuertes vibraciones de proyecto secreto. La palabra «ASTRA» estaba estampada en letras gigantes en una pared. El perro de Xu, Charlie, la mascota de facto del proyecto , deambulaba entre los escritorios donde los investigadores e ingenieros estaban ocupados construyendo un producto en el que Google está apostando su futuro.

“La idea que le propusimos a mi madre es que estamos construyendo una IA que tiene ojos, oídos y voz. Puede estar contigo en cualquier lugar y puede ayudarte con todo lo que estés haciendo”, afirma Greg Wayne, codirector del equipo de Astra. “Todavía no está ahí, pero esa es la visión que tenemos”.

El término oficial para lo que Xu, Wayne y sus colegas están construyendo es “asistente universal”. Todavía están tratando de averiguar qué significa exactamente.

En un extremo de la sala Astra había dos escenarios que el equipo utiliza para las demostraciones: un bar de bebidas y una galería de arte simulada. Xu me llevó primero al bar. “Hace mucho tiempo contratamos a un experto en cócteles y le pedimos que nos diera instrucciones para preparar cócteles”, dijo Praveen Srinivasan, otro codirector. “Grabamos esas conversaciones y las usamos para entrenar a nuestro modelo inicial”.

Xu abrió un libro de cocina y encontró una receta de pollo al curry, la apuntó con su teléfono y despertó a Astra. “¡Ni hao, Bibo!”, dijo una voz femenina.

—¡Oh! ¿Por qué me hablas en mandarín? —le preguntó Xu a su teléfono—. ¿Puedes hablarme en inglés, por favor?

“Mis disculpas, Bibo. Estaba siguiendo una instrucción previa de hablar en mandarín. Ahora hablaré en inglés como me has pedido”.

Astra recuerda conversaciones anteriores, me dijo Xu. También lleva un registro de los 10 minutos de vídeo anteriores. (Hay un momento destacable en el vídeo promocional que Google publicó en mayo cuando Astra le dice a la persona que está haciendo la demostración dónde había dejado sus gafas, después de haberlas visto sobre un escritorio unos segundos antes. Pero no vi nada parecido en la demostración en vivo).

Volviendo al libro de cocina, Xu movió la cámara de su teléfono sobre la página durante unos segundos y le pidió a Astra que leyera la receta y le dijera qué especias contenía. “Recuerdo que la receta mencionaba una cucharadita de granos de pimienta negra, una cucharadita de chile picante en polvo y una rama de canela”, respondió.

«Creo que te faltan algunas», dijo Xu. «Échale otro vistazo».

“Tienes razón, te pido disculpas. También veo cúrcuma molida y hojas de curry entre los ingredientes”.

Al ver esta tecnología en acción, dos cosas te llaman la atención de inmediato. En primer lugar, tiene fallos y a menudo es necesario corregirlos. En segundo lugar, esos fallos se pueden corregir con solo unas pocas palabras habladas. Simplemente interrumpes la voz, repites tus instrucciones y sigues adelante. Parece más como si estuvieras entrenando a un niño que dando cabezazos con un software defectuoso.

A continuación, Xu señaló con su teléfono una hilera de botellas de vino y le pidió a Astra que eligiera la que combinaría mejor con el curry de pollo. Eligió un Rioja y explicó por qué. Xu preguntó cuánto costaría una botella. Astra dijo que tendría que usar la función de búsqueda para buscar precios en Internet. Unos segundos después, volvió con su respuesta.

Nos dirigimos a la galería de arte y Xu le mostró a Astra una serie de biombos con cuadros famosos: la Mona Lisa , El grito de Munch , un Vermeer, un Seurat y varios más. “¡Ni hao, Bibo!”, dijo la voz.

—Me estás hablando en mandarín otra vez —dijo Xu—. Intenta hablarme en inglés, por favor.

“Lo siento, parece que he entendido mal. Sí, responderé en inglés”. (Debería haberlo pensado mejor, pero podría jurar que escuché el comentario sarcástico).

Era mi turno. Xu me entregó su teléfono.

Intenté engañar a Astra, pero no quiso saber nada. Le pregunté en qué galería de arte famosa estábamos, pero se negó a arriesgarse a adivinar. Le pregunté por qué había identificado las pinturas como réplicas y empezó a disculparse por su error (Astra se disculpa mucho). Me vi obligado a interrumpirlo: “No, no, tienes razón, no es un error. Tienes razón al identificar las pinturas en las pantallas como pinturas falsas”. No pude evitar sentirme un poco mal: había confundido a una aplicación que existe solo para complacer.

Cuando funciona bien, Astra es fascinante. La experiencia de iniciar una conversación con el teléfono sobre lo que sea que estés apuntando se siente fresca y fluida. En una conferencia de prensa ayer, Google DeepMind compartió un video que mostraba otros usos: leer un correo electrónico en la pantalla del teléfono para encontrar un código de puerta (y luego recordarte ese código más tarde), apuntar el teléfono a un autobús que pasa y preguntarle a dónde va, preguntarle sobre una obra de arte pública mientras pasas caminando. Esta podría ser la aplicación estrella de la IA generativa.

Y, sin embargo, todavía queda un largo camino por recorrer antes de que la mayoría de la gente pueda hacerse con una tecnología como esta. No se menciona una fecha de lanzamiento. Google DeepMind también ha compartido vídeos de Astra trabajando en un par de gafas inteligentes, pero esa tecnología está incluso más abajo en la lista de deseos de la empresa.

Mezclandolo


Por ahora, investigadores ajenos a Google DeepMind siguen de cerca su evolución. “La forma en que se combinan las cosas es impresionante”, afirma Maria Liakata, que trabaja en modelos lingüísticos de gran tamaño en la Queen Mary University de Londres y el Alan Turing Institute. “Ya es bastante difícil razonar con el lenguaje, pero aquí es necesario incorporar imágenes y más. Eso no es trivial”.

A Liakata también le impresiona la capacidad de Astra para recordar cosas que ha visto o escuchado. Trabaja en lo que ella llama contexto de largo alcance, logrando que los modelos recuerden la información que han encontrado antes. “Esto es emocionante”, dice Liakata. “Incluso hacerlo en una sola modalidad es emocionante”.

Pero admite que gran parte de su evaluación es pura conjetura. “El razonamiento multimodal es realmente de vanguardia”, afirma. “Pero es muy difícil saber exactamente en qué punto se encuentran, porque no han dicho mucho sobre lo que contiene la tecnología en sí”.

Para Bodhisattwa Majumder, un investigador que trabaja en modelos y agentes multimodales en el Instituto Allen de IA, esa es una preocupación clave. “No sabemos en absoluto cómo lo está haciendo Google”, afirma.

Señala que si Google fuera un poco más abierto sobre lo que está construyendo, ayudaría a los consumidores a entender las limitaciones de la tecnología que pronto podrían tener en sus manos. “Necesitan saber cómo funcionan estos sistemas”, dice. “Quieres que un usuario pueda ver lo que el sistema ha aprendido sobre ti, corregir errores o eliminar cosas que quieres mantener privadas”.

También te podría gustar...

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *