El sistema desarrollado en MIT CSAIL tiene como objetivo ayudar a los lingüistas a descifrar los idiomas que se han perdido en la historia.
Investigaciones recientes sugieren que la mayoría de los idiomas que han existido ya no se hablan.
También se considera que decenas de estos idiomas muertos están perdidos o “no descifrados”, es decir, no sabemos lo suficiente sobre su gramática, vocabulario o sintaxis para poder comprender realmente sus textos.
Los lenguajes perdidos son más que una mera curiosidad académica; sin ellos, perdemos todo un cuerpo de conocimiento sobre las personas que los hablaron.
Desafortunadamente, la mayoría de ellos tienen registros tan mínimos que los científicos no pueden descifrarlos usando algoritmos de traducción automática como Google Translate.
Algunos no tienen un lenguaje “relativo” bien investigado con el que comparar y, a menudo, carecen de separadores tradicionales como espacios en blanco y puntuación. (Para ilustrarlo, imagíneseintentandodescifrarunidiomaextranjeroescritocomoeste).
Sin embargo, investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT realizaron recientemente un importante desarrollo en esta área:
Un nuevo sistema que ha demostrado ser capaz de descifrar automáticamente un lenguaje perdido, sin necesidad de conocimientos avanzados de su relación con otros lenguajes.
También demostraron que su sistema puede determinar por sí mismo las relaciones entre lenguas, y lo utilizaron para corroborar estudios recientes que sugieren que la lengua ibérica no está realmente relacionada con el vasco.
El objetivo final del equipo es que el sistema pueda descifrar los idiomas perdidos que han eludido a los lingüistas durante décadas, utilizando solo unos pocos miles de palabras.
Encabezado por la profesora del MIT Regina Barzilay, el sistema se basa en varios principios basados en conocimientos de la lingüística histórica, como el hecho de que los idiomas generalmente solo evolucionan de ciertas formas predecibles.
Por ejemplo, si bien un idioma determinado rara vez agrega o elimina un sonido completo, es probable que se produzcan ciertas sustituciones de sonido.
Una palabra con una “p” en el idioma principal puede cambiar a una “b” en el idioma descendiente, pero es menos probable que se cambie a una “k” debido a la importante brecha de pronunciación.
Al incorporar estas y otras limitaciones lingüísticas, Barzilay y el estudiante de doctorado del MIT Jiaming Luo desarrollaron un algoritmo de descifrado que puede manejar el vasto espacio de posibles transformaciones y la escasez de una señal de guía en la entrada.
El algoritmo aprende a incrustar los sonidos del lenguaje en un espacio multidimensional donde las diferencias en la pronunciación se reflejan en la distancia entre los vectores correspondientes.
Este diseño les permite capturar patrones pertinentes de cambio de lenguaje y expresarlos como restricciones computacionales.
Irregularity in the female reproductive hormones is responsible for this, while this could also be a result of issues tadalafil from canada like decreases hormone levels, low testosterone, obesity and the adverse effect of some medicines. So, buy cialis pills Micheal was really touched by this that she was caring for so much. Why? So we can finally connect, hear, and EXPERIENCE that shame again and again. viagra canadian Erectile dysfunction can also affect the men suffering from diabetes Mellitus.2) Plan B should be used cautiously buy viagra without prescriptions in patients having Coagulopathy and the ones receiving anticoagulants.3) Women using Mirena should get their Blood test done regularly.4) Mirena is not meant to be used in children as safety of the product has not been established in them.5) It should be ed cautiously in elderly women as it may.El modelo resultante puede segmentar palabras en un idioma antiguo y asignarlas a sus contrapartes en un idioma relacionado.
El proyecto se basa en un documento que Barzilay y Luo escribieron el año pasado que descifró los idiomas muertos del ugarítico y el lineal B, el último de los cuales había tardado décadas en ser decodificado por los humanos.
Sin embargo, una diferencia clave con ese proyecto era que el equipo sabía que estos idiomas estaban relacionados con las primeras formas del hebreo y el griego, respectivamente.
Con el nuevo sistema, el algoritmo infiere la relación entre los idiomas.
Esta pregunta es uno de los mayores desafíos del desciframiento.
En el caso de Linear B, se necesitaron varias décadas para descubrir el descendiente conocido correcto.
Para el ibérico, los estudiosos aún no pueden ponerse de acuerdo sobre el idioma relacionado: algunos defienden el vasco, mientras que otros refutan esta hipótesis y afirman que el ibérico no se relaciona con ningún idioma conocido.
El algoritmo propuesto puede evaluar la proximidad entre dos idiomas; de hecho, cuando se prueba en idiomas conocidos, incluso puede identificar con precisión familias de idiomas.
El equipo aplicó su algoritmo al ibérico considerando al vasco, así como a los candidatos menos probables de familias romance, germánica, turca y urálica.
Si bien el vasco y el latín estaban más cerca del ibérico que otros idiomas, todavía eran demasiado diferentes para considerarlos relacionados.
En el trabajo futuro, el equipo espera expandir su trabajo más allá del acto de conectar textos con palabras relacionadas en un idioma conocido, un enfoque conocido como “desciframiento basado en afines”.
Este paradigma asume que existe una lengua tan conocida, pero el ejemplo del ibérico muestra que no siempre es así.
El nuevo enfoque del equipo implicaría identificar el significado semántico de las palabras, incluso si no saben cómo leerlas.
“Por ejemplo, podemos identificar todas las referencias a personas o lugares en el documento que luego se pueden investigar más a la luz de la evidencia histórica conocida”, dice Barzilay.
“Estos métodos de ‘reconocimiento de entidades’ se utilizan comúnmente en varias aplicaciones de procesamiento de texto en la actualidad y son muy precisos, pero la pregunta clave de la investigación es si la tarea es factible sin ningún dato de entrenamiento en el idioma antiguo”.