viernes, 25 de noviembre de 2011

La confidencialidad en la era de la nube

Mi bro Miguel Llorens ha publicado una entrada sobre la traducción automática y la calidad y los encarnizados debates de la última semana en este nuestro blog. Como sucede en los mejores blogs, los comentarios han complementado la entrada y en este caso ha participado un traductor abogado para dar su perspectiva jurídica sobre el delicado asunto de dar chivatazos a la máquina. Su tesis, además de la confianza y profesionalidad entre traductor y cliente, es que pedirle a una máquina controlada por terceros que te dé información en tal idioma sobre X puede considerarse, potencialmente, un chivatazo sobre que alguien está interesado en ese X en tal idioma, lo que en ciertos casos puede relacionarse con un país. No había considerado este punto y tiene cierta razón desde un punto de vista jurídico, aunque no probabilístico.


Hace unos días me pregunté si es grave que una máquina acceda a cierta información. Que yo sepa, los datos volcados en GTranslate se utilizan solo para mejorar su modelo lingüístico y, supongo, para analizar qué tipo de documentos (y combinaciones) quieren comprender los usuarios. Que yo sepa, esos datos no se reutilizan para extraer, digamos, información bursátil privilegiada y aprovecharla para jugar con ventaja en la bolsa. No digo que no pueda pasar, ya sea por minería de datos oculta o porque un humano acceda a la información (sería más difícil que encontrar una aguja en un pajar compuesto por toda la paja del mundo). Solo digo que es improbable que pase y hay otras desgracias más cercanas y probables, que ejemplifico más abajo.

Supongo que un jurista no estaría de acuerdo, pero creo que el sentido común y la paranoia pueden tener tanta importancia como un contrato firmado. No para dirimir responsabilidades, que para eso está la ley, sino para evitar un desastre.

  • Ejemplo 1: un traductor trabaja en su portátil. Portátil que le roban cuando lo deja un momento en el suelo para, yo que sé, llamar un taxi. El traductor maldice y maldice, pero no se preocupa de sus datos porque su Windows lleva contraseña (¡y complicada!). El ladrón accede a sus datos con un simple live CD Linux y ve el documento confidencial, que resulta ser una nota de prensa que puede tener graves implicaciones en bolsa si se actúa con rapidez.
  • Ejemplo 2: un traductor hace copias de seguridad de los encargos en curso en un lápiz USB. Se queda sin luz y decide llevarse el lápiz a casa de un amigo para acabar allí los encargos. Por el camino, saca el móvil para avisar a su amigo de que está en marcha y, al sacar la mano del bolsillo, se le cae al suelo el lápiz y no se da cuenta. Aquí no hace falta ni acceder a los datos con un live CD Linux, no es necesario imaginarse qué pasa después.
  • Ejemplo 3: un traductor trabaja directamente en su tableta (conozco casos) cuando está conmutando al trabajo / la universidad y guarda sus datos allí. Una app de esa tableta requiere permisos especiales de acceso a los datos del usuario y conexión a internet (no es tan raro, créeme) y resulta ser malware que roba datos. No es necesario imaginarse qué pasa después.
  • Ejemplo 4: un traductor decide estirar las piernas y se acerca a una cafetería a seguir trabajando con el WiFi gratuito. Total, si lo hacía J.K. Rowling (offline), ¿por qué no va a poder hacerlo él? Va a pedir la contraseña, pero resulta que la conexión está abierta, sin encriptar. Pide un café y se pone a trabajar. Toda conexión y transferencia a un servidor no seguro (http, por ejemplo) la puede ver cualquiera (¡gran vídeo!) conectado a la misma red. No es necesario imaginarse qué pasa después.

¿Cómo evitar las dos desgracias anteriores? Encriptando una partición o una carpeta del disco/memoria, sea interno o externo. ¿Hacemos una encuesta en Proz para ver cuántos profesionales tienen sus documentos de trabajo encriptados? ¿Alcanzaría el 1 %? Cada vez en menos sitios hay wifis abiertas, pero ahí están y pocos tienen suficiente autocontrol para evitarlas.

Muchas empresas de traducción saben que la única forma mínimamente segura de garantizar la confidencialidad de la información y controlar el flujo de datos es utilizar una plataforma online propia y segura. No se reciben ni envían documentos por correo ni por servidores de FTP. Te llega un aviso, te conectas a su servicio y trabajas ahí. Cuando acabas, le das a finalizar y te pones a otra cosa. De ahí no sale información (texto, TM, glosarios), solo entra. Si se quieren poner bordes, te pueden prohibir hasta copiar texto para buscar términos dudosos en ese demonio del nuevo siglo, Google.

Dicho todo lo cual, siempre hay que cumplir acuerdos de confidencialidad y, en ausencia de estos, proteger la información que nos confían como mejor sepamos. Tan fácil es que te roben (=copien) datos en una cafetería como que te los robe (=copie) un servicio web. Antes que la nube y la tecnología está el sentido común.

lunes, 21 de noviembre de 2011

Traducción automática: mitos y leyendas, luces y sombras


Parece que mi anterior entrada ha gustado y ha levantado polvareda. Eso es bueno, hay muchas cosas que aclarar y principios que debatir. El caso es que me he puesto a contestar el comentario de Aurora y al final me he dado cuenta de que daba para una entrada nueva, casualmente con temas que andaba desde hace tiempo con ganas de desarrollar. Agarraos, que vienen curvas.

Confidencialidad del profesional, inteligencia artificial y propiedad intelectual
Asumir que todo el material que se nos entrega para traducir es confidencial no es algo válido. El ejemplo que he dado en la entrada anterior es el de GlobalVoicesOnline, trabajo que hago pro bono publico o, como se dice hoy día, por crowdsourcing. Son artículos ya publicados en inglés en su web para cuando empiezo a leerlos. Claramente, si está publicado en su web y accesible vía buscadores, Google ya lo ha visto. ¿Qué importa que yo lo pase por Google Translate o por cualquier otro motor público de terceros?
Ahora supongamos que se trata de una patente y de un encargo remunerado. Si esta patente tiene, digamos, diez años (caso muy posible) y lleva tiempo publicada en internet, accesible tanto por humanos como por máquinas, ¿qué más dará que yo pase el texto por Google Translate o por cualquier otro motor de terceros?
Tercer y último ejemplo. No sé si recordáis el follón que se armó al lanzarse Gmail. Asociaciones de derechos civiles y de usuarios de internet pusieron el grito en el cielo porque Google "leía tu correspondencia". Primero, Google no es una persona y, por lo tanto, no puede leer nada. Los servidores de Google leen (=extraen los datos relevantes de) tus correos sin intervención humana. No leen los adjuntos (que se sepa), pero sí el correo per se. Y aun así, se sigue utilizando el servicio alegremente. ¿A qué viene este rollo del correo?
AsiaOnline se dedicó a comprar libros de segunda mano a montañas para alimentar sus motores de TA. Esto no es ningún secreto, lo han dicho públicamente. Obviamente, al igual que Google y Microsoft, además de los datos de modelos lingüísticos, se dedican a rastrear la web buscando documentos multilingües de "alta" calidad para alimentar sus motores. La legalidad de este proceso es muy, pero que muy discutible. ¿Se aplican las leyes de propiedad intelectual a las máquinas si ningún humano tiene acceso a su contenido? El lío de Google Books no vino tanto por la digitalización de libros sin más, sino por indexar su contenido y poner a disposición del público fragmentos o páginas sueltas. Eso es algo que legiones de abogados siguen y seguirán discutiendo unos años más. Personalmente, lo veo moralmente válido, pero eso no viene al caso.
Para resumir: si es información pública y accesible por máquinas en internet de forma legal (sin claroscuros, LEGAL en mayúsculas), no puede ser confidencial.

¿Lo que es bueno para nosotros, los traductores, es bueno para el público en general?
AsiaOnline proporciona tecnología gratuita para crowdsourcing de la Wikipedia a lenguas minorizadas del sudeste asiático y del subcontinente índico. Puede haber detrás una simple campaña de imagen pública y publicidad, además de mantener opiniones discutibles y tener una agenda oculta de promoción de la posedición, ahí no entro. A veces nos olvidamos de que lo que es bueno para la humanidad no es necesariamente bueno para un colectivo, como el nuestro, por ejemplo.

¿Cuál es el objetivo de la TA y cómo será el traductor como profesional en el futuro?
El objetivo de la TA no es reemplazar al traductor (al menos no a medio plazo), es poder dar salida a volúmenes mucho mayores de información mediante la posedición y, en el caso de la TA sin poseditar, de facilitar el acceso a la información. Un servidor lee blogs de electrónica en ruso sin despeinarse (tampoco es que tenga pelo), por ejemplo. Que la profesión del traductor se trivialice en un simple técnico y sus condiciones laborales y de prestigio empeoren es otra cosa.

¿Estamos dando de comer a la bestia Google?
A Google Translate, cuando le pedimos que traduzca un texto, solo le damos datos para su modelo monolingüístico, no bitextual, lo que significa que no le damos datos de traducción, sino de cómo funciona una lengua por dentro. Para los datos de traducción ya está Google Translator Toolkit y, de todas formas, se puede desactivar el envío de bitexto una vez completada la traducción. Que Google cumpla su palabra ya es otro tema. Lo mismo va para las voces de alarma que afirmaban que, por traducir con Google Translate (u otros motores) dentro de Trados estabas enviando tus traducciones a Google (o LanguageWeaver o lo que sea). Paparruchas. Insidias, como diría aquel.

¿Cuándo damos de comer a la máquina?
Una vez más, no estamos alimentando el motor de TA de Google por pedirle que nos traduzca texto. Si, en cambio, aceptamos un encargo de posedición de un cliente que cuenta con un motor propio, entonces sí lo alimentamos. Cada cierto tiempo, volcará memorias de traducción en su motor y este se hará algo más listo cada vez. Y nosotros cada vez menos necesarios. Con el tiempo, es posible que nos convirtamos en poseditores o en consultores.
(Actualización 25/11/2011 12.55: hay un pequeño error en el párrafo anterior. Lo aclaro en este comentario.)

¿Aceptar encargos de posedición es pan para hoy y hambre de mañana?
Solo tengo una cosa que decir: el mercado es libre, para bien y (sobre todo, para los que estamos abajo) para mal. Y que lo que es bueno para la sociedad en general no tiene por qué ser bueno para un colectivo específico. Dos cosas: el mercado, el bien común y cada uno verá lo que hace. ¡Tres cosas, no dos! Mejor vuelvo a entrar.


viernes, 18 de noviembre de 2011

La posedición: ¿zombificación del traductor?

Los signos de interrogación son esos grandes amigos del periodista que necesita un titular impactante sin tener que mojarse demasiado. Son primos de los verbos en condicional o del "supuesto"; se sueltan bombas y luego se dice "yo no he sido, señoría".

Ríos de tinta electrónica han corrido, corren y correrán sobre la traducción automática y lo nociva que es para la percepción del trabajo del traductor. A nadie le sorprende que un cliente utilice Google Translate (antes usaban Babelfish) para traducir su web, un cartel de un negocio, una señal de tráfico (12 y 3, en Gales son unos cachondos) o un menú de restaurante. Y ahora voy a soltar la primera bomba sensacionalista: no hay nada malo en utilizar Google Translate o similar de forma profesional. Lo que es una irresponsabilidad (tanto del traductor como del empresario) es confiar en las máquinas. Y si no, que se lo digan a John Connor.

¡Muere, Google Translate, muere!

La traducción automática (TA) puede ser un producto o un proceso. En el primer caso, sirve para entender por encima el sentido del texto (gisting), algo útil para usuarios particulares, pero no para difundir o publicar un texto. Este fin no nos interesa a los traductores profesionales, es algo más de webmasters, especialistas en SEO y demás gente de mal vivir.

Lo que nos interesa es la TA como proceso: una pretraducción para que luego el traductor (que en este caso actúa como poseditor) corrija todo lo necesario para que el texto alcance la calidad necesaria. ¿Qué función tiene en este caso la traducción automática? El ahorro de tiempo y dinero. ¿Cuándo es contraproducente emplear TA? Cuando se tarda más en poseditar (arreglar) que en traducir desde cero. ¿Es siempre útil la TA? Depende del texto y de lo personalizado (preparado) que esté el motor para ese tipo de textos. Se ha investigado incluso la TA de poesía (1, 2 y 3 —todos PDF), que es el ejemplo que se suele poner para decir "la máquina nunca podrá sustituir al hombre". Hoy día no hay límites claros sobre qué tipos de texto son viables para TA, pero sí hay factores que hacen del resultado algo más o menos válido.

Hípsters: "O sea, la TA nunca podrá con la poesía".

Hay muchos sentimientos encontrados sobre la TA y la posedición. Está la postura formal de los malos la industria, ejemplificada en los artículos de Jaap van der Meer, líder de TAUS y TDA, donde no hay riesgos, sino oportunidades. Y luego está la postura escéptica del líder rebelde, Miguel Llorens, del que soy fan confeso, tanto por lo que dice por cómo lo dice: es el azote de la industria junto a Kevin Lossner, otro superhéroe.

Supongamos que aceptamos los postulados de Jaap, al menos en que la posedición solo es un paso más allá de corregir las coincidencias parciales de las entradas de la memoria de traducción. No es lo mismo tu propia memoria de traducción que una en la que han metido mano ciento y la madre, que, al fin y al cabo es de lo que se trata la TA (estadística), pero bueno, va, aceptamos la posedición como oportunidad de negocio.

En mis colaboraciones con GlobalVoicesOnline (ver mi perfil a la derecha) no traduzco, suelo poseditar. Para ciertos clientes y ciertos textos, también posedito de forma profesional puntualmente. Soy maquiavélico: me importa el resultado final (la calidad), no cómo me lo monto para llegar ahí (ahorro de tiempo o esfuerzo). Para saber si vale la pena usar TA en el texto al que me enfrento, suelo probar a poseditar unas cuantas frases. Si ahorro tiempo, sigo. Si pierdo tiempo, desactivo la TA y traduzco a capella. Si la TA me viene impuesta vía tarifas más bajas, no vuelvo a aceptar encargos de ese cliente final.

Antes también traducían, ahora solo poseditan

Pero llevo más de quinientas palabras escritas y todavía no he llegado al quid de la cuestión, a la zombificación del traductor. Y aquí entra un artículo de Jost Zetzsche, otro grande de la traducción, aunque no le vaya tanto eso de fustigar. En ese artículo, habla del problema de volver a traducir a pelo después de completar un encargo de posedición. Cuesta cambiarle el chip al cerebro. A menudo, los encargos de posedición consisten en dejar el texto aceptable, no perfecto. También cuesta dejarlo perfecto porque te tienes que cuestionar toda elección que haya hecho la máquina. Te puede sonar bien, pero ¿está bien de verdad? ¿No será que la máquina quiere despistarte? Es como revisar un texto de alguien que clava una frase a la perfección y a la siguiente habla español de Shenzhén: desconfías hasta de tu sombra.

Una vez leí el testimonio de un excelente traductor que trabajaba a peso. Te hacía 6000 palabras al día sin pestañear, pero él mismo reconocía que no vendía calidad, sino eficiencia. ¿Recordáis la pirámide de los servicios? Rápido y barato = no puede ser bueno. Cuando un cliente se le quejaba con detalles sin importancia le dice: "si quieres virtuosismo, contrata a otro. No traduzco literatura". Con el tiempo, este traductor podría reconvertirse y traducir a Shakespeare, quién sabe. Pero tiene el chip programado para la cantidad, no para la calidad, con lo que no es fácil cambiar, ni le interesa. Lo mismo con la posedición. Hay formas de evitar este estancamiento: traducir mucho más que poseditar, dejar pasar un tiempo antes de pasar a la revisión, hacer una revisión final crítica, en voz alta, con una fuente rara (que te fuerza a leer cada letra) y solo del texto meta… La posedición es, a la vez, una oportunidad y un riesgo. Pero cuidado: una vez se te pudre el cerebro, es difícil recuperarlo.

Actualización 18/11/2011 a las 12.12: Se me olvidaba mencionar el excelente artículo de Eva Martínez sobre la posedición, que se centra en detallar cómo enfrentarse a una posedición y qué tener en cuenta.

Tú verás
Nota: el sábado 19 se celebra una mesa redonda en Barcelona con traductores blogueros. Sirva esta entrada como mi aporte remoto y humilde homenaje a esos cuatro grandes. Dicen que toda presentación zen debe tener al menos un gatito…