Una buena idea

Cómo Transcripción instantánea pasó de ayudar a un equipo a comunicarse a ayudar a millones de personas

Lectura de 3 minutos

El científico investigador Google Dimitri Kanevsky, sentado en un sofá azul conversando con sus colegas. Por encima de su hombro derecho, se ve su mano izquierda sosteniendo un teléfono con subtítulos de texto a voz visibles en la pantalla.

"Lo que dio inicio a Transcripción instantánea fue que una persona se preocupara por otra persona de la empresa e hiciera algo al respecto".

Eve Andersson, directora de Accesibilidad e Inclusión de Personas con Discapacidades

Escucha a Chet, Dimitri, Sagar y otros empleados de Google hablar sobre cómo el equipo se unió para lanzar Transcripción instantánea

Ver el video

3:16

Producido en asociación con ATTN:, una compañía de medios que crea historias con propósito

Después de décadas de crear soluciones innovadoras para comunicarse, Dimitri Kanevsky, quien perdió la audición a temprana edad, trabajó con sus compañeros de equipo de Google para crear Transcripción instantánea, una aplicación móvil de voz a texto que le ayuda a interactuar con palabras habladas y sonidos circundantes en tiempo real. Hoy, después de años de pruebas y refinamiento en colaboración con la comunidad de personas sordas y con problemas de audición, esta tecnología permite que millones de personas sean parte de toda conversación.

Dimitri Kanevsky sentado y sonriendo frente a cámara. Tiene el cabello cano y corto, y lleva una camisa morada.

Dimitri Kanevsky, científico investigador del habla en Google

Eliminación de las barreras de comunicación.

"Cuando Chet desarrolló el prototipo... le dije, '¡He soñado con esto toda mi vida!'"

Dimitri Kanevsky, científico investigador del habla

Como científico investigador dedicado a mejorar la precisión del reconocimiento de voz, Dimitri se unió a Google en 2014. En sus reuniones con colegas, utilizaba CART, un servicio profesional de interpretación que muestra subtítulos de voz a texto en tiempo real en un monitor especial. Aunque le fue útil, CART requería múltiples dispositivos y preparación previa. La comunicación con los miembros de su equipo, incluyendo al ingeniero Chet Gnegy y al gerente de producto Sagar Savla, también se llevaba a cabo mediante métodos más improvisados: usando aplicaciones para tomar notas, pasando notas adhesivas e incluso gestos con las manos.

Esta experiencia llevó a Chet a probar una idea. Sabía que la precisión de la transcripción de voz había avanzado significativamente, gracias en gran parte a las contribuciones de Dimitri al campo. Pero, ¿era la tecnología lo suficientemente buena como para capturar y mostrar conversaciones en la pantalla de un teléfono en tiempo real? Así que construyó un prototipo provisional y se lo dio a Dimitri para que lo probara. “Cuando Chet lo desarrolló, hubo muchos errores de transcripción”, recuerda Dimitri. “Él me preguntó, '¿Cómo puedes usar esto?' Y le dije, ‘¿Bromeas? ¡He soñado con esto toda mi vida!’”

Dimitri usando Transcripción instantánea durante una videollamada con su familia

Ampliando la conversación

“Hay millones de personas en el mundo que son sordas, la mayoría de las cuales no se comunican en inglés o no tienen los medios para utilizar costosos servicios de subtitulado. Teníamos que encontrar la manera no solo de que la tecnología estuviera disponible en muchos idiomas, sino también de hacerla gratuita".

Sagar Savla, gerente de producto para productos de reconocimiento de voz

En búsqueda de información adicional, Dimitri, Sagar y Chet llevaron el prototipo a un sprint de innovación sobre accesibilidad, donde los equipos de Google de todo el mundo presentan nuevas ideas e intercambian opiniones sobre productos de accesibilidad. Luego de recibir un enérgico apoyo interno, Sagar supo que la aplicación tenía el potencial de ayudar a millones de personas, incluyendo a su abuela, que tiene problemas de audición. Con la ayuda de la Universidad de Gallaudet, la institución más importante del mundo en educación de personas sordas y con problemas de audición, dirigió al equipo para convertir el prototipo en un producto accesible al público.

Sagar Savla hablando, con un letrero de la Universidad de Gallaudet detrás de él. De pie junto a él hay una intérprete de lenguaje de señas.

Sagar durante una visita a la Universidad Gallaudet en Washington, D.C.

Live Transcribe se lanzó en el 2019, transcribiendo voz en tiempo real en más de 70 idiomas en dispositivos Android y Chrome OS. Un año después, la aplicación se actualizó para incluir también notificaciones que alertan a los usuarios sobre sonidos críticos a su alrededor, una función que ayuda no solo a las personas sordas o con dificultades auditivas, sino también a quienes no pueden escuchar ruidos temporalmente, como cuando alguien usa audífonos.

Las ideas no se detienen ahí: las mejoras futuras incluyen agregar aún más idiomas, mayor precisión de transcripción y mejores experiencias para aquellos que se comunican en varios idiomas o en entornos grupales. Transcripción instantánea, descargada más de 100 millones de veces desde el 2021, demuestra el inmenso impacto que una sola idea puede tener para crear conexiones humanas más completas e inclusivas.

“Por primera vez, pude hablar con mis nietas. Fue increíble platicar con ellas, jugar al ajedrez, escuchar sus historias”.

Dimitri Kanevsky, científico investigador del habla