17 ene. 2025

Meta desarrolla un sistema de IA que traduce instantáneamente de voz a voz en 36 idiomas

Un modelo de Inteligencia Artificial (IA) desarrollado por Meta es capaz de traducir voz y texto en 101 idiomas y de hacer traducciones directas de voz a voz en 36 lenguas. El modelo, que supera a los existentes, puede allanar el camino hacia las traducciones universales rápidas.

META OK.jpg

Este modelo de inteligencia artificial puede filtrar el ruido de fondo y adaptarse a las variaciones del hablante.

Meta ya presentó una primera versión del modelo en agosto de 2023, aunque ahora, en un artículo publicado este miércoles en la revista Nature, la compañía incorpora varias innovaciones.

Denominado SEAMLESSM4T, el modelo tiene recursos “que se pondrán a disposición del público –para uso no comercial– para ayudar a seguir investigando” las tecnologías de traducción de voz inclusivas, avanzan los autores en Nature.

Realizar traducciones universales instantáneas es algo que, por ahora, solo ha logrado la ciencia ficción, como El pez de Babel, un pequeño pez amarillo incluido en la Guía del autoestopista galáctico, de Douglas Adams, que se insertaba en una oreja y traducía simultáneamente de manera telepática de una lengua hablada a otra.

Te puede interesar: La IA lleva la traducción en tiempo real a más espacios

Tener algo así sería muy útil para facilitar la comunicación en un panorama global interconectado, pero, hoy por hoy, la mayoría de los sistemas de traducción por aprendizaje automático están orientados al texto o requieren varios pasos: Reconocer la voz, traducir el texto y convertirlo de texto a voz en otro idioma.

Además, la cobertura lingüística de los modelos actuales de conversión de voz a voz es menor que la de los modelos de traducción de texto a texto y suele estar sesgada hacia la traducción de un idioma de origen al inglés.

El modelo desarrollado por Seamless Communication de Meta, sin embargo, admite múltiples modos de traducción hasta en 101 idiomas.

SEAMLESSM4T facilita la traducción de voz a voz (reconoce 101 idiomas y traduce a 36 idiomas), la traducción de voz a texto (101 a 96 idiomas), la traducción de texto a voz (96 a 36 idiomas), la traducción de texto a texto (96 idiomas) y el reconocimiento automático de voz (96 idiomas).

En el caso de la traducción de voz a voz, SEAMLESSM4T traduce textos con hasta un 23% más de precisión que los sistemas existentes.

Además, el modelo de inteligencia artificial puede filtrar el ruido de fondo y adaptarse a las variaciones del hablante, detalla el artículo de Nature.

Por todo ello, los autores aseguran que, aunque todavía hay que mejorarlo, SEAMLESSM4T puede suponer un paso adelante en la mejora de la comunicación más allá de las barreras lingüísticas.

Lea más: Meta AI en WhatsApp: El asistente inteligente reconoce el guaraní

La opinión de los expertos

En un News and Views publicado en Nature, Tanel Alumäe, del Laboratorio de Lenguaje Tecnológico en la Universidad de Tecnología (TalTech) de Tallin, Estonia, destaca que el modelo sea capaz de traducir directamente en 36 idiomas, algo “impresionante” porque puede –por ejemplo– traducir del inglés hablado al alemán hablado sin tener que transcribirlo primero en inglés para traducirlo después.

Pero para este investigador, la mayor virtud de este trabajo no es la idea o el método que propone, sino el hecho de que todos los datos y el código para ejecutar y optimizar esta tecnología están a disposición del público (siempre que no se utilice con fines comerciales), lo que demuestra que Meta es “uno de los mayores defensores de la tecnología lingüística de código abierto”.

En cuanto a los retos, Alumäe apunta que aunque el modelo SEAMLESS traduce un centenar de idiomas, el número de lenguas habladas en el mundo es de unas 7.000, además la herramienta aún tiene dificultades en muchas situaciones que los humanos manejan con relativa facilidad como conversaciones en lugares ruidosos o entre personas con acentos muy marcados.

Sin embargo, “los métodos de los autores para aprovechar los datos del mundo real abrirán un camino prometedor hacia una tecnología del habla que rivalice con la ciencia ficción”, pronostica.

En otro News and Views, Allison Koenecke, del Departamento de Ciencias Informáticas de la Universidad de Cornell, Nueva York, advierte de que aunque las tecnologías del habla pueden ser más eficaces y rentables que los humanos (que también son propensos a sesgos y errores), “es imperativo comprender las formas en que estas tecnologías fallan de forma desproporcionada para algunos grupos demográficos”.

Además, reconoce que algunos usuarios podrían optar por no utilizar las tecnologías del habla –por ejemplo, en entornos médicos o jurídicos para evitar errores– si así lo desean.

Para este experto es fundamental que en el futuro los investigadores en tecnologías del habla mejoren las disparidades de rendimiento y que los usuarios estén bien informados sobre los posibles beneficios y perjuicios asociados a estos modelos.

Fuente: EFE.

Más contenido de esta sección
La segunda etapa de la nave Starship, el cohete más grande y poderoso del mundo, se perdió el pasado jueves después de un despegue sin problemas desde la base de SpaceX en Boca Chica, en el sur de Texas (EEUU), en la frontera con México.
Un equipo de científicos desarrolló una tecnología que simula la sensación táctil en las personas sin sensibilidad en las manos. La tecnología, que usa estimulación cerebral conectada a una mano protésica acoplada a una silla, es lo más parecido al tacto real que se consiguió hasta ahora.
Un estudio recogido el pasado jueves en la revista Science reveló la capacidad del sistema inmunitario para controlar los niveles de azúcar en sangre, lo que abre prometedoras vías de tratamiento para enfermedades como la diabetes, la obesidad y el cáncer.
Japón conmemoró este viernes el 30 aniversario del terremoto de magnitud 7,3 que dejó unos 6.400 muertos en la ciudad de Kobe (oeste), y que llevó al Gobierno a mejorar la preparación contra este tipo de desastres con medidas como una nueva normativa para aumentar la resistencia antisísmica de edificios.
Al menos cuatro personas murieron y diez permanecen desaparecidas por un derrumbe ocurrido el pasado miércoles en una mina de oro artesanal en el centro de Mozambique, en la provincia de Manica, informaron a EFE este viernes las autoridades locales.
Constituyen un bonito efecto óptico, y hasta una oportunidad única para que los aficionados a la astronomía puedan contemplar a simple vista y fotografiar planetas, pero la aparente alineación o conjunción planetaria que se está produciendo durante estos días no es un evento astronómico excepcional ni tiene un interés científico especial.