Análisis estadístico de textos tesis

DIEGO LEONARDO ESPITIA CABREJO

Resumen En el presente trabajo presentamos los resultados del análisis estadístico de alrededor de 120 textos escritos en 14 idiomas distintos: Español, Inglés, Alemán, Francés, Turco, Ruso, Islandés, Checo, Danés, Finlandés, Hebreo, Húngaro, Italiano y Latín; al igual que de secuencias aleatorias de caracteres que usamos como hipótesis nula. Para dicho análisis usamos diferentes herramientas. La primera de ellas es la teoría de redes. Específicamente construimos redes de co ocurrencia de palabras y calculamos, entre otras propiedades de la red, el Clustering Coefficient. Este nos permite proponer un método para la identificación automática de lenguas, a la vez que permite establecer una medida que puede ayudar definir una "distancia" entre idiomas. Por otro lado, encontrando la posición de las palabras en el texto y haciendo estadística sobre la distancia (dada en número de palabras) entre dos repeticiones de un término, proponemos un método que permite encontrar de manera automática las palabras clave del texto. Si usamos dicho método en un mismo documento, pero escrito en diferentes idiomas, podemos correlacionar de manera precisa las mismas palabras claves en los diferentes lenguajes, estableciendo así que las palabras claves identificadas por éste método, parecen ser invariantes ante la traducción.

Tipo de documento: Tesis de doctorado

Formato: Adobe PDF

Audiencia: Investigadores

Idioma: Español

Área de conocimiento: INGENIERÍA Y TECNOLOGÍA

Campo disciplinar: CIENCIAS TECNOLÓGICAS

Nivel de acceso: Acceso Abierto