por Andrea Park
Entre desarrolladores comerciales como Synchron y Neuralink de Elon Musk, más la investigación en curso en todo el mundo, puede ser sólo cuestión de tiempo antes de que las personas con parálisis, esclerosis lateral amiotrófica y otras afecciones que limitan el habla recuperen sus capacidades de comunicación a través de la tecnología “lectura de la mente”.

Uno de los sistemas proviene del laboratorio de Edward Chang, MD, catedrático de cirugía neurológica de la Universidad de California en San Francisco. El equipo de Chang, que incluye investigadores de UCSF y UC Berkeley, se centró en recrear todo el proceso de hablar, en lugar de simplemente dar voz a las palabras en la cabeza del participante del estudio.
Con ese fin, el panel de electrodos implantado en el cerebro de la paciente fue diseñado para captar no sólo las señales cerebrales relacionadas con el habla, sino también aquellas que habrían movido su boca y mandíbula y creado expresiones faciales mientras hablaba.
El panel constaba de un total de 253 electrodos, que estaban conectados a un banco de computadoras mediante un cable conectado a un puerto en la cabeza del paciente. Para entrenar al software para que traduzca las señales que llegan a través de los electrodos, la participante, que sufre una parálisis grave causada por un derrame cerebral, primero pasó varias semanas repitiendo diferentes frases para que la IA pudiera aprender a reconocer cómo su actividad cerebral coincidía con 39 sonidos distintos en el idioma inglés hablado.
Mientras tanto, otra herramienta de inteligencia artificial de aprendizaje automático ayudó a traducir las señales asociadas con los movimientos faciales y combinarlas con el software de animación facial del desarrollador de software del Reino Unido Speech Graphics, lo que dio como resultado un avatar digital que podía mover su rostro y hablar como representante del participante.
Finalmente, los investigadores utilizaron otro algoritmo para capturar la voz de la paciente (utilizando una grabación de ella hablando en su boda) y personalizar el discurso sintetizado para que sonara más como ella.
El resultado fue un avatar digital que podía hablar y hacer expresiones faciales tal como las imaginaba el paciente. La tecnología puede realizar traducciones de lectura de mentes en tiempo real a una velocidad de casi 80 palabras por minuto, según el estudio, y su vocabulario fue entrenado inicialmente para abarcar poco más de 1.000 palabras.
“Nuestro objetivo es restaurar una forma de comunicación plena y encarnada, que es realmente la forma más natural para nosotros de hablar con los demás”, dijo Chang en un comunicado de la UCSF el miércoles. “Estos avances nos acercan mucho más a hacer de esta una solución real para los pacientes”.
En el futuro, el equipo de Chang espera crear una versión inalámbrica de la tecnología para que los usuarios tengan más libertad con su voz recientemente restaurada, en lugar de tener que permanecer físicamente conectados a una computadora en todo momento.
Mientras tanto, el otro estudio se llevó a cabo en Stanford Medicine y reclutó a una paciente que había perdido la capacidad de hablar debido a la ELA.
La interfaz intracortical cerebro-computadora de ese grupo de investigadores requirió que se colocaran un total de cuatro conjuntos de electrodos en regiones del cerebro relacionadas con el habla, y cada sensor comprendía 64 electrodos. Al igual que el sistema UCSF, la tecnología de Stanford también requiere una conexión por cable desde la cabeza del participante a una computadora, y también funciona analizando los 39 fonemas del inglés hablado a partir de sus señales cerebrales.
Sin embargo, a diferencia del modelo de la UCSF, la interfaz cerebro-computadora de Stanford comparte las palabras resultantes en una pantalla de computadora, en lugar de transmitirlas a través de un avatar digital realista.
Después de cuatro meses de sesiones de entrenamiento de cuatro horas dos veces por semana con la paciente, que comenzaron aproximadamente un mes después de la cirugía de implantación a fines de marzo de 2022, la IA pudo traducir sus pensamientos a una velocidad de 62 palabras por minuto. Desde entonces, ese ritmo se acerca a las 160 palabras por minuto, aproximadamente el ritmo de las conversaciones habladas naturales en inglés, según un comunicado de Stanford del miércoles.
Sin embargo, a medida que el sistema ha mejorado, también ha aumentado su tasa de error: del 9,1% cuando las oraciones de prueba de los participantes se limitaban a un vocabulario de 50 palabras, a casi el 24% con un vocabulario de 125.000 palabras. La tecnología aún se encuentra en la fase de prueba de concepto y aún no está lista para su debut comercial, según Frank Willett, Ph.D., autor principal del estudio, pero aún representa un “gran avance” hacia una restauración rápida. Comunicación acelerada con pacientes que han perdido la capacidad de hablar.
“Imagínese lo diferente que será realizar actividades cotidianas como comprar, asistir a citas, pedir comida, ir al banco, hablar por teléfono, expresar amor o aprecio (incluso discutir) cuando las personas no verbales puedan comunicar sus pensamientos en tiempo real”, dijo el participante. dijo en el comunicado por correo electrónico.