¿Cuál es el punto de chatear con un bot humanoide si es un narrador poco confiable y tiene una personalidad insípida?
Esa es la pregunta que he estado pensando desde que comencé a probar Gemini Live, la versión de Google del Modo Avanzado de Voz de OpenAI, la semana pasada. Gemini Live es un intento de una experiencia de chatbot más atractiva, con voces realistas y la libertad de interrumpir al bot en cualquier momento.
Gemini Live está “ajustado a medida para ser intuitivo y tener una conversación real, de ida y vuelta”, dijo Sissie Hsiao, directora general de experiencias de Gemini en Google, a TechCrunch en mayo. “[Puede] proporcionar información de manera más sucinta y responder de manera más conversacional que, por ejemplo, si estás interactuando solo en texto. Creemos que un asistente de IA debería ser capaz de resolver problemas complejos... y también sentirse muy natural y fluido al interactuar con él.”
Después de pasar una cantidad considerable de tiempo con Gemini Live, puedo confirmar que es más libre y natural que los intentos anteriores de Google en interacciones de voz con IA (ver: Asistente de Google). Pero no aborda los problemas de la tecnología subyacente, como alucinaciones e inconsistencias, y además introduce algunos nuevos.
El valle no tan inquietante
Gemini Live es básicamente un motor de texto a voz elegante conectado a los últimos modelos de IA generativa de Google, Gemini 1.5 Pro y 1.5 Flash. Los modelos generan texto que el motor lee en voz alta; una transcripción en ejecución de las conversaciones está a solo un deslizamiento de distancia desde la interfaz de Gemini Live en la aplicación Gemini en Android (y próximamente en la aplicación Google en iOS).
Para la voz de Gemini Live en mi Pixel 8a, elegí a Ursa, que Google describe como “de rango medio” y “comprometida”. (Me sonaba como una mujer más joven). La compañía dice que trabajó con actores profesionales para diseñar las diez voces de Gemini Live, y se nota. Ursa era de hecho un paso adelante en términos de expresividad respecto a muchas de las voces sintéticas más antiguas de Google, en particular la voz predeterminada del Asistente de Google.
Pero Ursa y el resto de las voces de Gemini Live mantienen un tono apasionado que se aleja de manera significativa del territorio del valle inquietante. No estoy seguro si eso es intencional; los usuarios tampoco pueden ajustar el tono, timbre o tenor de ninguna de sus voces, ni siquiera el ritmo al que habla la voz, lo que lo pone en clara desventaja respecto al Modo Avanzado de Voz.