ChatGPT finalmente puede ver
Después de meses de pruebas, OpenAI lanzó el modo de «voz avanzada» para ChatGPT en septiembre . La función te permite tener conversaciones en tiempo real con ChatGPT: puedes interrumpir al bot y su «habla» para hacer otra pregunta, y entiende tu tono de voz, que utiliza tanto para informar sus respuestas como para la inflexión que utiliza. (Es muy espeluznante cuando se ríe).
Sin embargo, desde su lanzamiento, faltaba una característica del modo de voz avanzado. Cuando OpenAI anunció por primera vez la función en mayo, mostró cómo ChatGPT podría acceder a su cámara y «ver» el mundo que lo rodea. Mientras conversaba con el bot, podía apuntar su cámara hacia algo, hacer una pregunta y ChatGPT respondería lo mejor que pudiera. Siete meses después, esta capacidad ya está aquí y es aterradoramente impresionante.
Para poder acceder a esta función, deberás tener una suscripción paga a ChatGPT, ya sea Plus (20 dólares al mes) o Pro (200 dólares al mes). Los suscriptores de ChatGPT Team también pueden acceder a ella. Es posible que la función no esté disponible de inmediato, incluso si pagas, ya que OpenAI la está implementando con el tiempo.
Prueba de la función de visión del modo de voz avanzado de ChatGPT
Acceder a la cámara es bastante sencillo una vez que se implementa en tu cuenta. Inicias el modo de voz avanzado de la misma manera que siempre lo haces, usando el ícono de forma de onda en la parte inferior derecha del chat. Desde aquí, verás un nuevo ícono de cámara, que, por supuesto, inicia la transmisión en vivo de la cámara. Esto no interrumpe el chat: puedes estar en medio de una conversación con ChatGPT, abrir la cámara y continuar charlando, solo que ahora con la transmisión de la cámara como parte de la conversación.
La primera vez que usé esto, apunté la cámara a una caja de Nintendo Switch que tenía cerca, con un cable de iPhone y mi Magic Trackpad encima, y pregunté: «¿Qué es esto?» ChatGPT dijo: «Parece una caja OLED de Nintendo Switch con algunos cables y una computadora portátil encima. ¿Estás planeando instalarla?» Dos de las tres respuestas fueron correctas, ya que confundió mi trackpad con una computadora portátil, pero bueno, lo suficientemente cerca. A continuación, apunté a mi botella de agua y le pedí que identificara lo que estaba resaltando: «Eso parece una botella Hydro Flask negra. ¡Es genial para mantener las bebidas frías o calientes! ¿La llevas contigo a menudo?»
Le pregunté a alguien más: «¿Sabes qué modelo de Hydro Flask es este?» ChatGPT: «No estoy seguro del modelo exacto, pero parece una de sus botellas de boca ancha, probablemente de alrededor de 32 onzas. Definitivamente está diseñada para mantener tus bebidas a la temperatura adecuada durante horas». Eso… es básicamente correcto. Tampoco me siento muy cómodo con que ChatGPT adivine el tamaño correctamente.
Pasé a mi teclado, que ChatGPT afirmó con precisión que era un Apple Magic Keyboard. Le pregunté qué teclas podía ver y mencioné algunas, pero no todas, de las teclas que tenía en el marco. Entonces, le pregunté cuántas teclas podía ver y me dijo «unas 30», cuando había 26. Así que, nuevamente, cerca.
Pudo identificar el puerto MagSafe de mi MacBook, así como los dos puertos USB y el conector para auriculares a su derecha. Reconoció la salida de aire del techo y el tipo específico de botas que tenía junto a la puerta de entrada. En resumen, reconoció básicamente todo lo que probé, menos el panel táctil.
La vista del modo de voz avanzado es rápida
Pero más allá de reconocerlo, creo que lo que más me sorprendió fue la velocidad de estas respuestas. Le pides a ChatGPT que identifique algo y lo hace, a veces más rápido que si se lo pidieras a una persona real. A veces, el bot se queda con una palabra por un momento (por ejemplo, «creooooo que eso es un…»), lo que probablemente sea un truco para dejar que ChatGPT procese el resto de lo que quiere decir. También lo he pillado menos seguro de sí mismo con su primera respuesta: lo apunté a mi Magic Mouse y su primera suposición fue qué era un ratón de ordenador. Pero cuando le pregunté de qué marca era, no sólo especificó que era Apple, sino que dijo que era un Magic Mouse de Apple, conocido por su «diseño elegante» y su «superficie sensible al tacto».
Sin embargo, teniendo en cuenta todo esto, estas respuestas suelen ser casi instantáneas, lo que habla de lo poderosos que son los modelos de OpenAI en la actualidad. Sigo siendo en gran medida un escéptico de la IA, pero este fue el primer desarrollo en mucho tiempo que me impresionó, y no sé qué pensar al respecto.
Por un lado, creo que esta tecnología podría utilizarse para hacer el bien. Imaginemos lo útil que podría ser algo así para los usuarios ciegos o con problemas de visión, especialmente en un dispositivo tan práctico como las gafas inteligentes . Alguien podría preguntarle a su asistente de inteligencia artificial hacia dónde está mirando, leer el menú de un restaurante o si es seguro cruzar la calle. Una tecnología como esta podría cambiar la búsqueda para mejor y facilitar el aprendizaje de cosas nuevas sobre el mundo apuntando la cámara de nuestro teléfono inteligente a un sujeto.
Por otro lado, mi mente se inclina hacia lo negativo, especialmente porque la IA todavía es propensa a las alucinaciones . A medida que más y más personas usen esta tecnología, inevitablemente experimentarán los errores que puede cometer la IA, y si confían en el robot para que los ayude con las tareas, especialmente algo que involucra su seguridad, las alucinaciones pueden ser peligrosas. No experimenté ningún error importante; solo la confusión del panel táctil. Anderson Cooper descubrió que el robot cometió un error en un problema de geometría (de nuevo, no es un gran problema). Pero es un buen recordatorio de que, a medida que esta tecnología mejora rápidamente, sus fallas inherentes aumentan las probabilidades de fracaso.