martes, 23 de febrero de 2010

Google, suficientemente bueno (III)

En la primera entrada de esta serie Eric Schmidt afirma que nos estamos acercando al punto en el que podremos hablar por teléfono con otra persona en distintos idiomas en tiempo real. Hace décadas que la TA promete eliminar la necesidad de traductores, así que podemos pensar que sólo es otro iluso que promete la luna.

He encontrado un vídeo que demuestra lo que ya es posible hoy día. No es en tiempo real, el reconocimiento de voz sólo funciona con unos pocos idiomas, la traducción deja mucho que desear, pero... Funciona.



Como traductor, no puedo esconder que esta gran revolución silenciosa me da miedito. Ya me olía que Google iba a revolucionar el sector cuando vi este vídeo hace más de un año, pero su progreso es apabullante.

Y aquí vuelvo a lo que comentaba al principio de la primera entrada de esta serie. La experiencia de traducción en Google es "suficientemente buena", pero ¿para qué? De momento, en ciertas combinaciones de idiomas, sirve para "gisting", es decir, para comprender un texto (ahora sin importar el soporte) y siempre para uso personal. No veo a empresas confiando la traducción de sus contenidos de marketing a Google, ni a profesionales, políticos o directivos olvidándose de los intérpretes, ni al usuario medio digitalizando sus documentos para pasarlos por Google. Pero sí veo a empresas automatizando procesos con sus Knowledge Bases (Microsoft ya lo hace), o su soporte vía chat. Incluso la traducción instantánea de software instalado en local sería técnicamente posible combinando el API de Google Translate con el archivo de recursos lingüísticos dinámicos que se utiliza en ciertos lenguajes de programación.

Los consultores, expertos y empresas de servicios lingüísticos que apoyan la TA afirman que un fácil acceso multilingüe a la información ampliará el mercado haciendo ver a los usuarios la necesidad de una traducción de calidad en ciertos contextos. Ésa es su excusa, su justificación o su esperanza. Porque si los traductores comenzamos a ser una especie en extinción, los siguientes son ellos.

lunes, 22 de febrero de 2010

Google, suficientemente bueno (II)

El vídeo siguiente muestra la tecnología de subtitulado automático (vía reconocimiento de voz) y la traducción automática de los subtítulos reconocidos en YouTube.


Obviamente, no siempre funciona igual de bien. El subtitulado de este último vídeo funciona perfectamente porque está subtitulado a mano, aunque la traducción sí que es automática. Para ver un resultado más real, probad con el vídeo anterior, que sí se subtitula al vuelo.

Como con cualquier tecnología basada en tuberías, el resultado final depende de que todo lo anterior sea de alta calidad. Por ruido se entiende cualquier obstáculo a la comunicación, sea escrita o hablada, sea tradicional o digital. Si el audio original tiene ruido acústico o de ambiente, habrá ruido en el reconocimiento de voz, y por lo tanto ruido en la traducción del texto reconocido. De igual manera, si el texto original tiene una calidad baja (y el registro hablado suele ser más imperfecto que el escrito), entonces la traducción también se resentirá. Obviamente, lo mismo se puede aplicar a un texto escrito origen de baja calidad.

Como se dice en el vídeo, es mejor tener subtítulos regulares que no tenerlos en absoluto. El problema es que si ciertos canales de YouTube antes se planteaban pagar una subtitulación profesional, ahora es posible que ya no se les pase por la cabeza. En teoría esta función sólo está disponible para canales educativos y de Google, pero sólo es cuestión de tiempo que se active en otros canales comerciales.

Actualización 05/03/2010: YouTube ha empezado a activar la subtitulación automática en todos los canales. La subtitulación automática sólo funciona desde el inglés (aunque otros idiomas se pueden subtitular a mano y entonces sí que se traduce automáticamente) y el dueño del canal tiene que habilitar la subtitulación para los vídeos antiguos.

domingo, 21 de febrero de 2010

Google, suficientemente bueno (I)

A menudo leo artículos que definen los netbooks como ordenadores "suficientemente buenos". Los netbooks son esos ultraportátiles con una pantalla más pequeña (digamos, entre 9 y 11 pulgadas), con menor capacidad de proceso, pero con mayor eficiencia energética (mayor autonomía) y mejor portabilidad (peso + tamaño). En su día, el diferenciador principal entre los netbooks y los portátiles "de toda la vida" era el precio, pero hoy día esa frontera está desapareciendo y lo que pide el mercado es estar "siempre conectado". Así, los netbooks no son la mejor opción para, digamos, la edición multimedia, pero son "suficientemente buenos" para casi todas las actividades diarias, es decir, Internet. Hemos vuelto a la caja tonta que eran los terminales conectados a un superordenador ("mainframe") que existieron hasta mediados de los 80.

Como demostró Google esta semana en el MWC de Barcelona, la ingeniería lingüística ha alcanzado cotas inimaginables hasta hace un par de años. Decenas de grandes avances se entrelazan para conseguir la caída de la cuarta pared.



La traducción automática (TA) antes se hacía por reglas lingüísticas que hacían que mejorar un motor de traducción fuera una tarea titánica en manos de humanos. Hoy en día, alimentando un motor con enormes corpora lingüísticos sin intervención humana se consiguen resultados mucho mejores y más escalables.

Antiguamente, la TA se ejecutaba en local, en el pobrecito ordenador del usuario, y era necesario ejecutar las mismas rutinas una y otra vez cada vez que se solicitaba la traducción de la misma frase, en el mismo contexto, con la misma combinación de idiomas. Hoy en día, los motores de TA están en la nube, en clústeres de servidores que ya han ejecutado previamente cualquier combinación que se nos ocurra. Cuando hacemos una petición, sólo tienen que recolectar los resultados y servirlos en bandeja. Obviamente, la capacidad de proceso de un clúster es mucho mayor que la de nuestro ordenador doméstico.

Por otra parte, el reconocimiento óptico de caracteres (OCR) permite transformar una serie de puntitos dispersos en caracteres con entidad propia que se pueden procesar digitalmente a posteriori.
De igual manera, la tecnología de reconocimiento de voz permite convertir unas ondas de sonido en caracteres con entidad propia que, una vez más, se pueden procesar digitalmente a posteriori. El proceso inverso permite convertir cadenas de texto digital en ondas de sonido, aunque me imagino que el proceso será menos fácil y escalable en este caso.

Obviamente, Google no se ha sacado de la manga todas estas tecnologías. Detrás de todos estos avances hay muchas universidades, organizaciones con y sin ánimo de lucro, gobiernos, etc. Lo que sí es cierto es que Google ha juntado todos los ingredientes y nos da el cóctel listo para consumir.

En el vídeo anterior se pueden ver algunas de las aplicaciones prácticas de todas estas tecnologías. La cámara del móvil captura una imagen, reconoce los caracteres del texto y presenta una traducción al idioma escogido. El micrófono del móvil permite hacer búsquedas en Internet mediante la voz, cada vez en más idiomas.