Implementación de pruebas para una hipótesis sobre la aplicación de distancia Euclidiana para realizar agrupamientos en espacios multidimensionales

Los algoritmos de agrupamiento permiten agrupar un conjunto de datos en un conjunto de subclases, denominados clusters. El objetivo principal de los mismos es agrupar, en dichos clusters, instancias de datos similares entre sí. Cada instancia de datos suele ser representada en un espacio de carac...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Román y Zubeldia, Alfonso
Formato: Artículo revista
Lenguaje:Español
Publicado: Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas 2017
Materias:
Acceso en línea:http://www.ridaa.unicen.edu.ar/xmlui/handle/123456789/1564
Aporte de:
Descripción
Sumario:Los algoritmos de agrupamiento permiten agrupar un conjunto de datos en un conjunto de subclases, denominados clusters. El objetivo principal de los mismos es agrupar, en dichos clusters, instancias de datos similares entre sí. Cada instancia de datos suele ser representada en un espacio de características en donde cada característica queda presentada como una dimensión de dicho espacio. Es común, entonces, el uso de espacios de muchas dimensiones en esta representación. Una de las medidas de similitud más usadas para realizar el agrupamiento es la distancia euclidiana. La motivación principal de éste trabajo es brindar asistencia en la implementación y prueba de una hipótesis sobre el uso de la métrica de distancia euclidiana como medida de similitud en los algoritmos de agrupamiento. En la hipótesis se plantea la posibilidad de que, en espacios multidimensionales, la distancia euclidiana puede conducir a un agrupamiento erróneo en ciertas ocasiones. Es decir, puede ocurrir que se agrupen instancias en una clase cuando en realidad pertenecen a otra. Numerosos estudios han determinado que las métricas de distancia suelen tener comportamientos erráticos en altas dimensiones. Sin embargo no existen muchos trabajos que profundicen demasiado en ésta temática debido a que el problema es naturalmente complejo. Los espacios n-dimensionales grandes (con n > 3) no pueden ser gra cados en su totalidad, y nuestra intuición falla en ellos. Se ha mostrado que, en algoritmos de agrupamiento particionales como K- Means, el uso de diferentes métricas de distancia puede impactar fuertemente en los resultados. Por lo tanto, la elección de la métrica debe hacerse con cuidado.