viernes, 10 de agosto de 2012

Exprimir el material de referencia (corpus) sin dolor

Un cliente te pasa un encargo de traducción: el manual de usuario de una tele. Digamos que te incluye una memoria de traducción (MT) y, además, los PDF bilingües del manual para la versión del año pasado de la misma tele. Te informa de que no ha tenido tiempo de alinear esos manuales antiguos, pero que el manual que te toca traducir se parece bastante a esos y que por favor los tengas muy presentes, tanto en lo que se refiere a terminología como a estilo. Ale, te toca andar buscando en el Adobe Reader cada dos por tres para mantener la coherencia. No solo eso, sino que te das cuenta de que hay frases enteras clavadas o casi clavadas entre tu encargo y esos PDF que no aparecen en la MT. ¿Qué haces? Tienes cuatro opciones.

1. Pasas de alinear porque no sabes, no te acuerdas o no tienes tiempo que «perder». Te toca buscar a mano en el manual antiguo cada término y cada expresión. No solo pierdes valioso tiempo, sino que te cansas de buscar a cada momento y la coherencia se ve perjudicada. El cliente, que además es japonés y no se le escapa una, se da cuenta de que tu traducción difiere demasiado del manual antiguo. Te toca pedir disculpas y/o preparar un informe justificando las desviaciones una por una. El cliente acaba mosca contigo y el encargo no te ha salido rentable por el tiempo extra invertido.

2. Decides alinear. No solo tienes que convertir los PDF a un formato de texto (digamos Word), asegurándote de que la conversión es suficientemente buena como para que el alineador de tu paquete TEnT / TAO no se líe vinculando frases, sino que encima tienes que corregir todos los fallos del alineador a mano. El cliente está contento porque has mantenido la coherencia debidamente, pero tú te has matado echando horas extra por una tarea no presupuestada ni en tiempo ni en dinero. ¿Cómo se alinea a mano? Paula nos lo cuenta en su blog Traducción + informática.

3. Decides que el ordenador alinee por ti.
3a. La conversión con Adobe Reader de PDF a TXT da muy malos resultados, porque divide los párrafos con los saltos de línea visuales en el PDF. Recomiendo usar ABBYY PDF Transformer y seguir los siguientes pasos. Este punto también es válido si decides alinear tú mismo: la opción 2.

Un programa de conversión de PDF a texto como ABBYY necesita reconocer las zonas de cada imagen en texto, imágenes o tablas. En nuestro caso, las zonas reconocidas como imágenes son inutilizadas. Primero seleccionamos todas las páginas (pinchamos a la derecha y Ctrl+A) y le damos al primer icono de la imagen siguiente («Mostrar áreas»), con lo que reconocerá todas las zonas del documento, solo que sin convertir el PDF a texto después.
Reconocimiento de zonas
A continuación, eliminamos las zonas de imagen que el programa ha reconocido como texto. En este caso, quiere extraer el texto de dentro de una imagen, algo que no nos interesa. Esta revisión página por página no tiene por qué ser perfecta, simplemente hay que revisar en la medida de lo posible la detección para obtener un archivo de texto suficientemente limpio y que no se líe el alineador.
Eliminación de zonas innecesarias
Finalmente, nos interesa escoger el idioma o idiomas del documento y quedarnos solo con el texto pelao.
Ajustes de la conversión
El resultado es un archivo de Word que usaremos para la alineación. Huelga decir que estos pasos deberemos hacerlos para tantos idiomas como necesitemos traducir.

3b. Usamos LF Aligner, como me descubrió José Carlos Gil hace unos meses (y con GUI, para los alérgicos a la línea de comandos). Este programa no tiene ningún misterio, pues cuenta con un asistente que te va orientando. Básicamente, se escoge el número de idiomas, el código ISO de los idiomas (en = inglés, es = español, pt = portugués, etc), los archivos de origen y destino, se acepta la segmentación nueva o se vuelve a la antigua (algo que se explica en su momento, tranquilos), se acepta la limpieza y, finalmente, se opta por confiar en el programa y no revisar los resultados. Las siguientes opciones normalmente se dejan como están dándole a Enter hasta que te proporcione un TMX (archivo de intercambio de MT para importar en tu paquete TEnT, como Trados).

Ahora toca explicar cómo funciona LF Aligner y otros alineadores automáticos (como el que se usa para Google Translate o Linguee, por ejemplo). Los alineadores tradicionales, como Trados WinAlign, se fijan principalmente en la puntuación. Si en la traducción se respeta la puntuación siempre, el alineador acertará sin revisión humana. Si una frase del original se divide en dos o dos frases se juntan en una, se elimina, se añade o se mueve texto, el programa se lía. Un alineador automático como LF Aligner es un poco más listo, porque tiene reglas distintas para varios idiomas (NO para todos). Por ejemplo, sabe cuánto más o menos ocupa una lengua respecto a otra. También puede tener nociones gramaticales (de estructura sintáctica) o detectar ciertas abreviaturas. Y otros detalles que se me escapan. El caso es que aciertan bastante para el escaso esfuerzo que suponen, con lo que vale la pena contar con ellos.

4. Eres el rey de los listos, usas MemoQ y aprovechas LiveDocs, que alinea lo que le eches él solito y casi sin preguntar, aunque de la conversión de PDF a texto no te libras. La ventaja de este flujo de trabajo, además de tenerlo todo integrado en un mismo paquete TEnT, está en que las sugerencias de LiveDocs aparecen separadas de las sugerencias de la TM, que son más fiables. Juraría que Déjà Vu X hace algo parecido con un corpus, pero hace tiempo que no lo toco.

Un detalle final y advertencia que se aplica tanto al método 3 como al 4. Las alineaciones automáticas no son perfectas. A veces buscarás un término o el programa te ofrecerá una sugerencia procedente de esta alineación automática y te darás cuenta de que el segmento origen no tiene nada que ver con el segmento destino. A veces pasa. Pero a veces también pasa que te sugiere frases enteritas que puedes aprovechar tal y como te vienen. Básicamente, alinear o no es algo que debes elegir tú, como profesional que eres, y decidir cuánto tiempo puedes invertir en la preparación de la traducción. Lo mismo pasa con la extracción terminológica automatizada desde un corpus. Si crees que vale la pena, que te ahorrará tiempo y aumentará la coherencia final, adelante. Si crees que mejor lo haces a mano, adelante también. Las herramientas están a tus órdenes, lo importante es conocer las posibilidades que te brindan y tenerlas en cuenta.

5 comentarios:

  1. Manuel Saavedra indica que él prefiere cargar el TMX del corpus en XBench, para no ensuciar la MT principal y distinguir siempre los resultados buenos de la MT de los no buenos del corpus. Recuerdo a los usuarios de Trados que en Workbench pueden cargar una MT secundaria de referencia y que en Studio pueden cargar múltiples MT.

    ResponderEliminar
  2. Hola Jordi, excelente información, como siempre.

    Un servidor ha utilizado Alignfactory vía agencia algunas veces y, no sé si no he tenido suerte o qué. Pero, en mi humilde opinión, no se merece la fama que tiene. Los textos que he alineado no eran en exceso complicados (inglés-español semitécnico), aunque si tenían textos «exactamente iguales» desplazados varios párrafos y el resultado, por decirlo eufemísticamente, fue «poco satisfactorio...». Con la versión anterior de Synchroterm, aunque tiene algoritmos de identificación similares a los que comentas, tampoco quedé muy satisfecho. Así que probaremos con LF Aligner.

    PD: siempre me asombro de como las soluciones más útiles en el mundillo de la traducción casi nunca proceden de las empresas con grandes recursos, sino de traductores con conocimientos informáticos y la buena voluntad de compartir sus soluciones. Así que aprovecho dsde aquí para darles las gracias por su tirmpo, dedicación y esfuerzo.

    ResponderEliminar
    Respuestas
    1. Si aparecen frases en distinto orden en TO y en TM, no hay alineador que acierte. La única forma de crear un alineador lo suficientemente inteligente como para darse cuenta de que han cambiado de sitio es enlazarlo con un traductor automático. Así compararía (al igual que una memoria cuando te devuelve un fuzzy) el TM real con el TO pasado por la máquina y sabría cómo enlazar TO con TM, siempre que la traducción no sea demasiado libre, claro. Pero para montar un sistema así haría falta más potencia de proceso, supongo.

      Las empresas con grandes recursos o bien no comparten sus soluciones o una solución así les parecería demasiado casera (léase "chapucera") como para tenerla en cuenta. Cuanto más grande eres, más difícil es moverte.

      Eliminar
    2. Hola Jordi: no creo que sea tan complicado. El comparador de archivos del MS-Word reconoce si los párrafos han sido modificados o movidos, siempre que no estén demasiado alejados entre sí.

      Desde el punto de vista informático, tampoco creo que sea excesivamente difícil indexar las frases (o segmentos) de un TO/TD para compararlo con la versión anterior del mismo. Para eso, ni siquiera se necesita una TM.

      Y sí, tienes toda la razón en que, cuanto más grande eres, más difícil es moverte. No me acuerdo quien dijo que la genialidad consistía, precisamente, en «buscar (y encontrar) soluciones sencillas a problemas complejos». El problema de ser grande quizás sea el buscar soluciones complejas a problemas sencillos...

      Eliminar
    3. No es lo mismo lo que hace Word para comparar archivos. Ahí solo tiene que buscar el mismo texto o un texto parecido. Los únicos indicadores de similitud entre TO y TM (meta, no memory) son los no traducibles, como números, códigos, acrónimos, etiquetas, símbolos. Y esos solo permanecen igual a veces, en la mayoría de caso hay localizaciones. Vamos, que no son versiones previas o posteriores, son versiones distintas lo que se debe comparar y contrastar.

      Eliminar