domingo, 17 de abril de 2011

Rastreando lenguas minoritarias

Kevin Scannell es profesor de Matemáticas y Computación en la Universidad de San Luis (Estados Unidos). Da clases de álgebra, pero luego emplea los algoritmos para buscar lenguas en Internet. Su pasión son las minoritarias, algunas en peligro de extinción. Sabe de qué habla. Es y practica el irlandés. Nació en Cheathrú Rua.

Hace un mes, Scannell creó Indigenous Tweets, un lugar que rastrea los mensajes escritos en lenguas minoritarias y que, además, al identificar a sus autores, pone en contacto a los escritores en esas lenguas, del euskera al asturiano, del lombardo al pulaar.

"Twitter proporciona a los programadores una aplicación para acceder a las bases de datos de los tuits y permite agruparlos. Después, con métodos estadísticos mi buscador determina el lenguaje de esos tuits", explica Scannell. Así ha registrado los 378.000 tuits en euskera de 3.788 personas; y que los asturianos que escriben en bable son 626, que han enviado una media de dos mensajes; que hay 13 maorís y 82 occitanos tuiteando en su idioma nativo.

Así hasta el rastreo de 76 lenguas, algunas tan minoritarias como el ugandés, con un practicante en Twitter, aunque tan prolífico que ha enviado un millar de mensajes. En esos casos, casi siempre se trata de un medio informativo. Es lo que ocurre con los mensajes en euskera; para encontrar una cuenta personal hay que bajar hasta el noveno lugar, la de Maite Goñi, que tuitea tanto en euskera como en inglés y castellano.

El motor de búsqueda no es tan listo como para distinguir por sí solo si un mensaje es sardo (31 cuentas) o cibemba (una, de Zambia). "Tengo que darle al buscador palabras que son únicas en esos idiomas. Por ejemplo, para encontrar tuits en asturiano buscará llingua (lengua) o xixon (Gijón); para el euskera izan (ser) o berria (nuevo). Intento incluir palabras que en otros idiomas no aparecerían. Después el sistema verifica que cada tuit va en la lengua elegida. El sistema se basa en la frecuencia de diferentes palabras y letras".

Indigenous es un trabajo personal de Scannel. "Lingüistas de diferentes comunidades me aportan material de lenguas que aún no he rastreado, y la gente, a medida que conoce el sitio, envía direcciones de otros tuiteros no captados por mi buscador". Indigenous nació hace solo dos meses. "Yo estaba desarrollando recursos para el creol haitiano cuando un amigo me sugirió si era posible saber cuantos tuits se escribían en esa lengua". Indigenous comenzó con 36 idiomas minoritarios, ahora son 76 y pronto llegarán al centenar.

"Mi meta es facilitar a la gente que escriba, en Internet, en su lengua materna. Llevo rastreando el uso de las lenguas en Internet durante muchos años y soy optimista". En 2003 Scannell creó el motor de búsqueda An Crúbadán (rastreador, en irlandés), y con él ha conseguido detectar 487 lenguas o dialectos (en eso, no se inmiscuye), entre ellos el aragonés (cinco documentos). "En la web hay textos en unas 500 lenguas, de las 7.000 que existen en el mundo. En los dos últimos años, mucha gente se ha animado a escribir blogs en idiomas minoritarios y las redes sociales también los han extendido", dice.

Scannell lleva menos tiempo rastreando Twitter, pero echa sus cálculos. "Debe haber unas 65 lenguas mayoritarias en Twitter y yo he registrado 76 minoritarias, luego al menos hay 141 lenguas. Son bastante menos que las 500 de Internet, pero espero que la gente se anime y tuitee en sus lenguas maternas".

No resulta fácil. En ocasiones el primer obstáculo es el teclado. "Para ello creé Accentuate.us, que ayuda, especialmente a lenguas africanas con caracteres singulares, a la correcta ortografía", explica el profesor irlandés. "En Internet sólo el 5% de los documentos del hausa nigeriano están bien. Usan b, k, d sin sus cuernos. Accentuate.us los escribe correctamente, sin un teclado especial o una complicada combinación de teclas".


No hay comentarios:

Publicar un comentario