Una mujer que sufrió un derrame cerebral hace casi 20 años ha conseguido traducir sus pensamientos a voz en un instante gracias a un implante cerebral que han desarrollado investigadores de la Universidad de California en San Francisco y de la Universidad de California en Berkeley (EEUU).
Los científicos, que han publicado el descubrimiento en ‘Nature Neuroscience’, consiguieron mejorar este dispositivo, conocido como interfaz cerebro-ordenador (BCI, por sus siglas inglés), con algoritmos de inteligencia artificial (IA) que descodificaban las frases a medida que la mujer las pensaba y luego las pronunciaba en voz alta utilizando una voz sintética.
Este dispositivo convierte las señales neuronales en palabras audibles, ofreciendo esperanza a quienes perdieron la capacidad de hablar.
Así, a diferencia de las iniciativas anteriores, que sólo producían sonidos cuando el usuario terminaba de pronunciar una frase, el método actual puede detectar palabras simultáneamente y convertirlas en voz en menos de tres segundos.
Ann, perdió la capacidad de habla hace 20 años
La participante en el estudio, Ann, perdió la capacidad de hablar tras sufrir un derrame cerebral en el tronco del encéfalo en 2005. Unos 18 años después, se sometió a una intervención quirúrgica para colocarle un rectángulo delgado como un papel con 253 electrodos en la superficie de la corteza cerebral. El implante puede registrar la actividad combinada de miles de neuronas al mismo tiempo. Los investigadores personalizaron la voz sintética para que sonara como la voz de Ann antes de lesionarse, entrenando algoritmos de inteligencia artificial con grabaciones del vídeo de su boda.
“Adoptamos técnicas de transductor de flujo continuo, similares a las utilizadas por métodos ASR populares como Siri o Alexa, y las reutilizamos para la síntesis personalizada cerebro-voz”, ha señalado Kaylo Littlejohn, coautor principal del estudio. “Este enfoque dio lugar a mejoras significativas en la velocidad de descodificación de la neuroprótesis cerebro-voz en comparación con enfoques anteriores con retardos más largos”, ha destacado Littlejohn.
Alivia sentimientos de aislamiento y frustración
En el estudio, los científicos explican que la comunicación oral natural es instantánea y que los retrasos en el habla superiores a unos segundos pueden interrumpir el flujo natural de la conversación. “Esto dificulta que las personas con parálisis participen en un diálogo significativo, lo que puede provocar sentimientos de aislamiento y frustración”, apuntan.
Por ello, diseñaron y utilizaron modelos transductores de redes neuronales recurrentes de aprendizaje profundo para lograr una síntesis del habla fluida inteligible de vocabulario amplio en línea personalizada según la voz de la participante.
“Nuestros hallazgos introducen un paradigma de habla-neuroprótesis para restaurar la comunicación hablada naturalista en personas con parálisis”, destacan los científicos. Los investigadores han diseñado una neuroprótesis de síntesis del habla que permite a Ann sintetizar el habla deseada a partir de señales neuronales adquiridas de una matriz de ECoG de 253 canales implantada sobre la superficie de su corteza córtex sensoriomotor y una pequeña porción del lóbulo temporal.
Así funciona el entrenamiento de Ann con el dispositivo
Para entrenar el sistema, registraron los datos neuronales mientras Ann intentaba pronunciar frases sueltas. Se le presentó un texto en un monitor y se le pidió que empezara a intentar hablar en silencio una vez que apareciera un ‘GO’ visual.
Además, el habla sintetizada se transmitía a través de un altavoz analógico cercano, y el texto descodificado se mostraba en el monitor. Los descodificadores neuronales del sistema eran bimodales, ya que se entrenaron conjuntamente no sólo para sintetizar el habla, sino también para descodificar el texto simultáneamente.
Asimismo, evaluaron el sistema utilizando un conjunto de frases de vocabulario reducido de 50 frases y un conjunto de frases de vocabulario extenso con 1.024 palabras generales. El conjunto de 50 frases se diseñó como un conjunto de frases predefinidas para expresar las necesidades primarias de los cuidadores.
Por el contrario, el conjunto de 1.024 palabras generales se diseñó como un conjunto de frases de gran vocabulario que contenía 12.379 frases únicas compuestas por 1.024 palabras únicas extraídas de la red social X y de transcripciones de películas.
Fuentes ADN40, Informativos Telecinco,