OpenAI, la compañía pionera en inteligencia artificial, ha dado un paso importante en la evolución de su famoso chatbot, ChatGPT. Hoy se anunció una actualización de las aplicaciones móviles para iOS y Android que permite a los usuarios formular preguntas oralmente al chatbot, el cual responderá con su propia voz sintetizada. Además, se ha añadido inteligencia visual, lo que les permite a los usuarios cargar o tomar fotos desde la aplicación y ChatGPT proporcionará descripciones de las imágenes y contexto adicional, similar a la función de Google Lens.
Estas nuevas capacidades marcan un giro significativo en la estrategia de OpenAI, que está transformando sus modelos de inteligencia artificial en productos con actualizaciones iterativas. ChatGPT, que ha sorprendido por su éxito, ahora se perfila como una aplicación de consumo que compite con asistentes virtuales como Siri de Apple o Alexa de Amazon.
Fortaleciendo la posición competitiva
La expansión de la funcionalidad de ChatGPT tiene el potencial de fortalecer la posición de OpenAI en la competencia con otras empresas de IA como Google, Anthropic, InflectionAI y Midjourney. Esto se debe a que la aplicación recopila una mayor cantidad datos del usuario lo cual contribuye al entrenamiento sus potentes algoritmos. Introducir datos visuales y auditivos en estos modelos también se alinea con la visión a largo plazo de OpenAI para desarrollar una inteligencia artificial más cercana a lo humano.
El desafío de los modelos multimodales
Se rumorea que Google está trabajando en su propio modelo de IA «multimodal» llamado Gemini, el cual podría manejar no solo texto sino también video, imágenes y voz. Esto plantea la posibilidad de que los modelos multimodales superen a aquellos entrenados con una sola modalidad en términos de rendimiento.
Oportunidades de licencia y preocupaciones sobre privacidad
La tecnología de generación de voz del ChatGPT desarrollada internamente también se abre a oportunidades de licencia. Por ejemplo, Spotify planea utilizar los algoritmos de síntesis de voz de OpenAI para traducir podcasts a otros idiomas imitando la voz del podcaster original mediante IA. Sin embargo surgieron preocupaciones sobre privacidad a medida que ChatGPT incorpora datos vocales e imagen. OpenAI afirma haber tomado medidas técnicas para proteger privacidad de usuarios y limitar capacidad de chatbot para analizar y hacer declaraciones directas sobre personas.
Nuevas capacidades disponibles para suscriptores
Esta actualización estará disponible inicialmente para suscriptores ChatGPT Plus por $20 mensuales y se lanzará en mercados donde ChatGPT ya esté disponible comenzando con inglés. OpenAI planea expandir estas capacidades a otros grupos usuarios en futuro cercano.
Revolucionando la interacción con tecnología
La evolución ChatGPT hacia un chatbot multimodal promete revolucionar la forma en la que interactuamos con tecnología combinando voz e imagen con poder y lenguaje natural.