Meta presenta Voicebox: un modelo de IA generativa de texto a voz

Rosy Mixco

hace 3 años

El CEO de Meta Platforms Inc (NASDAQ:META), Mark Zuckerberg, sorprendió al mundo de la tecnología al presentar el viernes Voicebox, un revolucionario modelo de inteligencia artificial generativa de texto a voz (TTS, por sus siglas en inglés).

En un anuncio transmitido a través de su canal en Instagram, Zuckerberg demostró las impresionantes capacidades de Voicebox, que puede convertir texto en voz con una asombrosa calidad y precisión contextual. Este modelo de IA tiene el potencial de completar tareas para las que no fue específicamente entrenado, lo que lo coloca en un terreno pionero en el campo de la generación de voz artificial.

Voicebox ha sido comparado con otros destacados modelos de IA, como el aclamado ChatGPT de OpenAI en el ámbito del texto y Dall-E en la generación de imágenes. Engadget, un reconocido medio tecnológico, destacó que Voicebox representa un hito en la evolución de la IA generativa.

Construido sobre una sólida base de «modelo de coincidencia de flujo no autoregresivo entrenado para completar el habla, dado el contexto de audio y texto», Voicebox ha sido sometido a un riguroso entrenamiento utilizando más de 50.000 horas de audio diverso en múltiples idiomas, incluyendo inglés, francés, español, alemán, polaco y portugués.

Este enfoque de entrenamiento diverso permite que Voicebox produzca una habla conversacionalmente fluida en varios idiomas. En pruebas realizadas, los modelos de reconocimiento de voz entrenados en habla sintética generada por Voicebox mostraron un rendimiento casi tan bueno como los modelos entrenados en habla real, con solo un 1% de degradación en la tasa de error, según reporta el informe.

Una de las características destacadas de Voicebox es su capacidad para editar activamente clips de audio, permitiendo eliminar ruido de fondo o reemplazar palabras mal pronunciadas. Al detectar un segmento ruidoso en el habla, el usuario puede recortarlo y solicitar al modelo que regenere el segmento de manera más precisa, una funcionalidad que se asemeja al software de edición de imágenes para mejorar fotografías.

A diferencia de otros generadores TTS existentes, Voicebox no requiere una cantidad significativa de material inicial para imitar a un sujeto. Esto se debe al innovador método de entrenamiento de texto a voz sin intervención de Meta, conocido como Flow Matching, que ha permitido desarrollar un modelo altamente efectivo y eficiente.

A pesar de las infinitas aplicaciones potenciales que ofrece Voicebox, Meta ha decidido no lanzar públicamente la aplicación ni proporcionar su código fuente en este momento. Según informa Engadget, esta medida se debe a las preocupaciones de posible mal uso y a la necesidad de un enfoque cuidadoso para garantizar que el modelo se utilice de manera responsable y ética.