Diseño e implementación de un algoritmo para determinar la mejor agrupación utilizando k – means y los índices de validación

ANA KAREN CASTAÑEDA ESCOBAR

La técnica del análisis de clúster o el análisis de agrupamiento, tiene como objetivo clasificar objetos en grupos llamados clúster, de tal manera que los objetos de cada grupo sean similares entre sí y a la vez sean diferentes a los objetos de otros clúster, esto con el fin de lograr la máxima homogeneidad en cada clúster y la mayor diferencia entre los clústeres. El agrupamiento de datos es un tema vigente debido a la alta generación de datos provenientes de diferentes dominios del conocimiento. Uno de los algoritmos más utilizados es el algoritmo de agrupamiento k-means, esto debido a su eficiencia computacional. El agrupamiento final del algoritmo depende del criterio utilizado en el proceso. Por lo tanto, es necesario realizar una evaluación del resultado obtenido. El objetivo de las técnicas de validación de clustering, es evaluar los resultados obtenidos después de aplicar un algoritmo de agrupamiento. Los índices de validación interna, se utilizan para determinar el número correcto de agrupaciones dentro de un conjunto de datos. En esta investigación se analiza de manera experimental la mejor agrupación por medio de los índices de validación interna. De acuerdo a los experimentos realizados y a las instancias probadas en esta investigación se determina que el mejor índice para evaluar la calidad de los resultados al aplicar el algoritmo de partición k-means, corresponde al índice Davies Bouldin. Este índice es utilizado en el algoritmo “searching the best k”, el cual, tiene como propósito encontrar el mejor número de agrupamientos, así como la mejor distribución de los datos al ser agrupados. Después de un análisis del algoritmo SK (searching the best k) se concluye que es posible determinar la mejor agrupación utilizando el índice de validación interna Davies Bouldin. El algoritmo SK cumple con su propósito al encontrar la mejor partición en las instancias probadas en este trabajo de investigación.

Tipo de documento: Tesis de maestría

Formato: Adobe PDF

Audiencia: Investigadores

Idioma: Español

Área de conocimiento: CIENCIAS SOCIALES

Campo disciplinar: SOCIOLOGÍA

Nivel de acceso: En Embargo