La misión inicial de Google era, y en parte sigue siendo, ordenar toda la información de Internet y hacerla accesible. Bajo esa premisa comenzaron a añadir descripciones a los vídeos. Lo hicieron primero con vídeos almacenados en Internet, desde 2006. Y tres años después comenzaron a hacerlo en YouTube. Desde entonces han alcanzado la cifra de 1.000 millones de vídeos con descripciones de texto. Ellos lo definen como “captions”, para unir tanto los subtítulos de los diálogos como descripciones de lo que sucede, informó el diario El País.
Lo relevante de esta cantidad es que detrás de la misma no están personas, que solía ser el método tradicional, sino tecnología. Han conseguido que el software consiga no solo reconocer el lenguaje humano, sino que aprenda sobre lo que sucede en la pantalla, que sepa si se encuentra ante una situación cotidiana como una clase, un coche o una cafetería.
Transcripción con errores memorables o cómicos.
Según los cálculos de YouTube, cada día se consumen 15 millones de vídeos con estos subtítulos enriquecidos. A la vez, saben que les queda mucho camino por recorrer. El inglés es el idioma que mejor comprenden. Consideran que en el último año han dado un salto de un 50% de acierto en su sistema automático, pero no tienen el mismo rango de éxito en el resto de idiomas.
Detrás de todo este impulso está Liat Kaver, una ingeniera de Costa Rica que, tras pasar por el MIT de Boston, se ha propuesto derribar barreras en la comprensión del contenido audiovisual: “Imagino un futuro en el que todo tenga una descripción. Así los más de 300 millones de personas que están sordas o tienen problemas de audición, como me sucede a mí también, puedan disfrutar de los vídeos”. Recuerda que en su infancia no encontraba películas subtituladas en español, su lengua materna: “Sentía que me estaba perdiendo algo. Muchas veces intuía, o me inventaba mi propia versión en mi cabeza. Soñaba con un sistema que automáticamente hiciera descripciones de alta calidad”. Y lo ha hecho. Ese ha sido su trabajo en los últimos tres años.
A pesar de los notables avances no se sienten satisfechos. En Google confían en que la inteligencia artificial ayude a hacer escalable su meta. Son conscientes de los errores, tanto que tienen una lista con algunos de los más cómicos, célebres o sonados. Una cura de humildad que les sirve de motivación para mejorar.
Uno de los vídeos favoritos de Liat Kaver.
“En inglés ya hemos conseguido una tasa de errores en la transcripción inferior a la que tienen los humanos que se dedican a hacerlo”, apunta la jefa de producto, “nuestra meta es mejorar y hacer que funcione igual a los 10 idiomas que estamos desarrollando”. Estos son holandés, francés, alemán, italiano, japonés, coreano, portugués, ruso y español. Dada la magnitud del reto, no se ponen una fecha concreta, pero sí piden la colaboración de los participantes: “Contamos con la comunidad de creadores y consumidores que pueden editar los errores”.
Source: Crealo