DICIEMBRE 12, 2019.- Aprender un idioma cuesta. Esfuerzo, tiempo y, en ocasiones, también dinero. Pero en pleno siglo XXI no siempre es necesario estudiar una lengua para poder comunicarse en cualquier parte del mundo. Basta con sacar el móvil del bolsillo, abrir un traductor y escribir o dictar una frase. Inmediatamente después, como por arte de magia, el smartphone la traduce a casi cualquier idioma. El traductor más popular es el de Google, que cada día es utilizado por millones de usuarios en todo el mundo y es capaz de traducir más de 100 idiomas. Pero detrás de esa magia que parece tener lugar dentro del terminal hay truco y se llama inteligencia artificial.
Para Macduff Hughes, director de ingeniería de Google Translate, el gran cambio en el modo en el que se realizan las traducciones se produjo en 2016. Fue entonces cuando Google incorporó un sistema de traducción automática neuronal: “El antiguo método de traducción funcionaba frase por frase y palabra por palabra mientras que el nuevo coge la oración completa”. “Este nuevo sistema es, paradójicamente, mucho más simple, ya que el anterior tenía en cuenta muchas reglas sobre cómo unir frases y reordenar las palabras”, explica Hughes, que no concreta el número de empleados que trabajan en su equipo.
Google Translate utiliza patrones de millones de traducciones existentes en la web para ayudar a decidir la mejor traducción. La cantidad de traducciones con la que ha sido entrenada la red neuronal condiciona la calidad de la traducción: “Cuantos más datos tenemos, mejor es la traducción”. Por lo tanto, cuando se decide añadir un idioma al traductor, el primer paso es asegurarse de que existe en la web un conjunto de datos fiables para entrenar al sistema.
“Nos tenemos que preguntar si hay suficientes datos para crear un modelo que cumpla con nuestros estándares de calidad. Si lo hay, normalmente podemos desarrollarlo en pocos meses”, explica. Cuando dos idiomas son muy diferentes entre sí, se precisa una cantidad mayor de datos. Por ejemplo, gramaticalmente el inglés es muy diferente del chino y el japonés, por lo que se necesita una mayor cantidad de información para obtener la misma calidad que al hacer una misma traducción del inglés al español.
Para garantizar que el conjunto de datos con el que se entrena el sistema sea de buena calidad, Google cuenta con lectores humanos. Aunque Hughes advierte: “La calidad es importante, pero la cantidad siempre gana a largo plazo”. Mientras que la Unión Europea “ha hecho un trabajo maravilloso al proporcionar al mundo traducciones porque muchos documentos tienen que ser traducidos por ley a otros idiomas”, no todas las lenguas cuentan con la misma suerte. Existe, según reconoce Hughes, “un desequilibrio entre los idiomas representados en el traductor y la cantidad de hablantes que hay en el mundo”.
“Nos tenemos que preguntar si hay suficientes datos para crear un modelo que cumpla con nuestros estándares de calidad. Si lo hay, normalmente podemos desarrollarlo en pocos meses”
Además de la calidad y la cantidad, también es importante que los sitios web traducidos traten de una amplia gama de temáticas. “Los sitios webs de viajes tienen muchas traducciones y nos volvemos muy buenos traduciendo cosas sobre viajes, pero no tanto cuando por ejemplo se trata de botánica”, explica Hughes en un evento en Zúrich sobre inteligencia artificial al que EL PAÍS ha sido invitado por Google. A esto se suma que la mayoría de traducciones disponibles en la web están realizadas en un contexto profesional. El registro utilizado, por lo tanto, difiere de la forma en la que los usuarios hablan realmente en su día a día.
Sesgos y errores de traducción
Cuando las traducciones no son precisas, algunos usuarios alertan a Google a través de mensajes o en redes sociales. Los trabajadores también pueden reportar rápidamente cualquier error. “No arreglamos cada traducción incorrecta porque nos gusta ser lo más estrictamente algorítmicos posible y dejar que el modelo haga su trabajo, pero a veces sí lo hacemos cuando una traducción es ofensiva o engañosa y puede causar algún tipo de daño”, explica.
Hughes recuerda un error de traducción en junio. En medio de las protestas de Hong Kong, el sistema tradujo la frase “estoy triste de ver a Hong Kong convertirse en parte de China” a “estoy feliz de ver a Hong Kong convertirse en parte de China”. Es decir, la traducción sugerida en chino simplificado y tradicional convirtió la palabra “triste” en “feliz”. El error, que causó revuelo entre diversos usuarios, se corrigió el mismo día.
Estos errores no son el único problema al que se tiene que enfrentar la compañía. El traductor es sexista. Por ejemplo, asume que “a doctor” es un médico hombre. Mientras tanto, “a nurse” es una enfermera mujer. Hughes reconoce que para solventarlo aún queda trabajo por hacer: “El diseño básico de los sistemas de aprendizaje automático es encontrar la respuesta más probable. Pero cuando haces esto millones de veces, estás reforzando algunos estereotipos sociales”.
Para combatir este tipo de sesgos, Google Translate trata de mostrar múltiples opciones de género cuando existen. El objetivo es que esta función, que a día de hoy solo está disponible para algunas palabras en idiomas como el español, el francés o el portugués, llegue a todas las lenguas en el futuro.
Otros desafíos
El director de ingeniería de Google Translate ve probable que en un futuro dos personas que hablen idiomas diferentes puedan tener una conversación totalmente natural en tiempo real: “Creo que todas las piezas necesarias están ahí. Solo necesitamos algunas mejoras en el reconocimiento de voz para que funcione en ambientes ruidosos, en la calidad de la traducción, en la comprensión del contexto y en el paso de texto a voz para que suene de forma más natural”.
¿Se convertirá el traductor de Google a una alternativa al aprendizaje de idiomas? Hughes, que sabe alemán y un poco de español y galés, considera que se trata de “una experiencia diferente”. “Viajar y usar el traductor es mucho más fácil que aprender un idioma, pero aprender un idioma es una experiencia muy gratificante y hay mucho que puedes hacer si realmente eres capaz de hablarlo”, añade.
Uno de los objetivos de su equipo es desarrollar modelos que puedan ser entrenados con una cantidad mucho menor de datos. Para aprender un idioma “no necesitas ver mil millones de oraciones”, sino que puede valer con “unos pocos miles de ejemplos y un diccionario”. Conseguir una traducción continua y totalmente instantánea —que el sistema empiece a traducir incluso antes de que el usuario termine las oraciones— y lograr la traducción de varios idiomas con una sola red neuronal son también algunos de los retos principales.
Los sistemas actuales sirven para hasta cinco u ocho idiomas. “En nuestros laboratorios estamos tratando de conseguir un modelo que sirva para los 103 idiomas”, cuenta. Pero en el mundo hay muchas más lenguas que las que actualmente soporta el traductor de Google —se estima que alrededor de 7.000—: “Nuestra gran esperanza es desarrollar modelos que puedan generalizar lo que significa entender y aprender un idioma y, con suerte, pasar de los cientos a los miles de idiomas”.
Inteligencia artificial para detectar ‘spam’
La inteligencia artificial no solo está detrás del traductor de Google. También está presente en los emails de los usuarios para detectar spam o en los teclados de sus móviles para realizar predicciones. Con esta tecnología, se persiguen además objetivos mucho más ambiciosos. La compañía de Mountain View impulsa diferentes proyectos para facilitar la vida a personas con discapacidad. Por ejemplo, Lookout es una app que asiste a personas ciegas o con problemas visuales y les proporciona información de lo que hay a su alrededor. También desarrolla aplicaciones y dispositivos que permiten a personas con dificultad en el habla comunicarse. Google, al igual que otras compañías como Microsoft, utiliza además la inteligencia artificial para buscar soluciones a los desafíos medioambientales del planeta. Por ejemplo, para monitorizar la vida marina, luchar contra la pesca ilegal, llevar un control de diferentes animales en peligro de extinción o predecir desastres naturales.