Gran avance en neurociencia. Una mujer ha vuelto a hablar casi veinte años después gracias a la inteligencia artificial, tal como ha anunciado este lunes la Universidad de California en Berkeley (UC Berkeley). Según la investigación publicada en Nature Neuroscience, un equipo de esta universidad y de la UC San Francisco han descubierto una manera de restaurar el habla naturalista para personas con parálisis severa. En otras palabras, se trata de una neuroprótesis que traduce los pensamientos en voz en tiempo real.

La investigación resolvería el antiguo reto de la latencia en las neuroprótesis del habla, es decir, el retraso entre cuando el sujeto intenta hablar y cuando se produce lo suele. Utilizando los avances recientes en los modelos basados en la IA, los investigadores han desarrollado un método de transmisión que sintetiza señales cerebrales en voz audible casi en tiempo real. El equipo ha asegurado que esta tecnología representa un paso crítico para permitir la comunicación a las personas que han perdido la capacidad de hablar.

Una tecnología como Alexa y Siri

Investigadores del equipo como Gopala Anumanchipalli, Robert E. y Beverly A. Brooks han señalado que "este enfoque de streaming ofrece la misma capacidad de descodificación de voz rápida de dispositivos como Alexa y Siri en las neuroprótesis". "Utilizando una especie de algoritmo similar, descubrimos que podríamos descodificar datos neuronales y, por primera vez, habilitamos la transmisión de voz casi sincrónica. El resultado es una síntesis de habla más natural y fluida", han añadido.

Por su parte, el investigador principal del estudio, Edward Chang, ha indicado que "esta nueva tecnología tiene un enorme potencial para mejorar la calidad de vida de las personas que viven con una parálisis severa que afecta al habla". "Es emocionante que los últimos avances de la IA estén acelerando mucho el campo de las interfaces cerebro-ordenador para un uso práctico en el mundo real en un futuro próximo", ha dicho. Además, Kaylo Littlejohn, coautor principal de la investigación, ha remarcado que "esta técnica no se limita a un tipo específico de dispositivo": "El mismo algoritmo se puede utilizar en diferentes modalidades siempre que haya una buena señal".

Ann vuelve a hablar 20 años después

¿Cómo funciona la neuroprótesis? Cheol Jun Cho, también autor principal, ha explicado que funciona mediante el muestreo de datos neuronales de la corteza motriz (la parte del cerebro que controla la producción del habla) y que, después, se utiliza la IA para descodificar la función cerebral habla. "Esencialmente, interpretamos señales donde el pensamiento se traduce en articulación y en medio de este control motor. (...) Así que lo que descodificamos es después de haber pasado un pensamiento, después de haber decidido el cual decir, después de haber decidido qué palabras utilizar y cómo mover los músculos del trato vocal", ha intentado aclarar.

Para entrenar el algoritmo ha sido clave un sujeto de prueba: Ann, que sufrió un ictus hace veinte años (cuando tenía 30) que la dejó gravemente paralizada. Durante este entrenamiento, Ann tenía que mirar una pantalla donde había una frase simple ("Ey, ¿cómo estás?") e intentar pronunciarla en silencio. "Eso nos dio un mapa entre las ventanas fragmentadas de actividad neuronal que ella genera y la frase objetivo que está intentando decir, sin que tenga que vocalizar en ningún momento", ha apuntado Littlejohn.

Ann no tiene ninguna vocalización residual y, por lo tanto, los investigadores no tenían ni audio objetivo ni salida con las cuales pudieran cartografiar los datos neuronales. Un problema que resolvieron con la IA, para llenar los detalles que faltaban. "Hemos utilizado un modelo de texto a voz preentrenado para generar audio y simular un objetivo. (...) Y también utilizamos la voz del Ann antes de la lesión, así que cuando descodificamos la salida, suena más como ella", ha explicado Cho.

Los mismos investigadores ya presentaron un estudio en 2023 con la misma mujer, pero entonces había una larga latencia para la descodificación: un retraso de unos ocho segundos para una sola frase. Ahora, el nuevo enfoque de streaming permite generar una salida audible casi a tiempo real. "El dispositivo puede descodificar continuamente el habla, de manera que Ann puede seguir hablando sin interrupciones", ha celebrado Anumanchipalli. Además, el aumento de velocidad no se ha producido a costa de la precisión, que se ha mantenido igual que en el enfoque anterior. "Es prometedor. Antes no se sabía si se podía transmitir un discurso inteligible desde el cerebro en tiempo real", ha añadido Littlejohn.

Retos de futuro de la neuroprótesis

Anumanchipalli ha destacado que se trata de un modelo de aprendizaje, tal como comprobaron cuándo utilizaron 26 palabras raras extraídas del alfabeto fonético de la OTAN ("Alpha", "Bravo", "Charlie"...) que no formaban parte del vocabulario del entrenamiento. "Hemos descubierto que nuestro modelo lo hace bien, cosa que demuestra que realmente está aprendiendo los elementos básicos del sonido o la ve", ha asegurado. Respecto a Ann, el investigador ha considerado: "Escuchar su propia voz en tiempo casi real aumentó su sentido de encarnación".

Según Cho, en el equipo ahora son "optimistas" con hacer avances de este tipo a todos los ámbitos. "Con respecto a la ingeniería, por ejemplo, seguiremos impulsando el algoritmo para ver cómo podemos generar el habla mejor y más rápido", ha dicho. Además, los investigadores continúan centrados al crear expresividad a la voz de salida para reflejar los cambios de tono o sonoridad que se producen durante el habla. Al respecto, Littlejohn ha expresado: "Es un trabajo en curso, para intentar ver como de bien podemos descodificar estas características paralingüísticas de la actividad cerebral".
 

Imagen principal: los investigadores conectan la neuroprótesis de Ann al ordenador del sintetizador de voz / Noah Berger - UC Berkeley