Determinación de la mejor partición de DB con K-Means y los índice de validación interna

URIAS GARCIA LOPEZ

El agrupamiento de datos (clustering) es la técnica mediante la cual se segmentan conjuntos de datos en grupos específicos. Esta división parte de criterios concretos, por ejemplo, se busca que los datos estén lo más compacto posible entre los elementos que pertenecen a ese grupo (mayor compacidad) y que los grupos estén lo más separados posible entre ellos (mayor separabilidad. Los métodos de agrupamiento generalmente se limitan a crear las particiones que se les indique, pero prescinden de algún método que valide la calidad de la agrupación creada. La calidad de una agrupación puede medirse por diferentes criterios que generalmente son métricas que miden la cohesión entre los elementos de un mismo grupo (se busca una mayor cohesión entre los elementos del grupo) y la separación entre los grupos que conforman todo el conjunto de datos (se busca que estén lo más separados posible). Para ello existen diferentes métodos de los cuales destacan los índices de validación. Los índices de validación son algoritmos que evalúan una agrupación de acuerdo a ciertos criterios, según quien lo propone, se clasifican en dos grandes grupos, los externos (requieren información externa al conjunto de datos evaluado) y los internos (utilizan sólo información propia del conjunto de datos evaluado). En esta tesis se analizan 9 índices de validación interna aplicados junto con k-means como método de agrupamiento en bases de datos sintéticos y reales y se espera que con ellos se pueda determinar la selección de la mejor partición.

Tipo de documento: Tesis de maestría

Formato: Adobe PDF

Audiencia: Investigadores

Idioma: Español

Área de conocimiento: CIENCIAS SOCIALES

Campo disciplinar: SOCIOLOGÍA

Nivel de acceso: En Embargo