Métodos de clustering robustos

Se tienen p variables medidas sobre n objetos. El problema de clustering, que se presenta en varias áreas del conocimiento, consiste en dividir el conjunto de n objetos en K grupos homogéneos, es decir de modo que en cada grupo las p variables tomen valores parecidos. Hay varios enfoques para este p...

Descripción completa

Detalles Bibliográficos
Autor principal: González, Juan Domingo
Otros Autores: Yohai, Víctor J.
Formato: Tesis doctoral publishedVersion
Lenguaje:Español
Publicado: Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales 2019
Acceso en línea:https://hdl.handle.net/20.500.12110/tesis_n6652_Gonzalez
https://repositoriouba.sisbi.uba.ar/gsdl/cgi-bin/library.cgi?a=d&c=aextesis&d=tesis_n6652_Gonzalez_oai
Aporte de:
id I28-R145-tesis_n6652_Gonzalez_oai
record_format dspace
spelling I28-R145-tesis_n6652_Gonzalez_oai2024-09-02 Yohai, Víctor J. González, Juan Domingo 2019-03-15 Se tienen p variables medidas sobre n objetos. El problema de clustering, que se presenta en varias áreas del conocimiento, consiste en dividir el conjunto de n objetos en K grupos homogéneos, es decir de modo que en cada grupo las p variables tomen valores parecidos. Hay varios enfoques para este problema, uno de los más populares es "K-means", que consiste en minimizar la media de las distancias de los objetos a los centros de los grupos a los que pertenecen. Este procedimiento tiene la ventaja de ser conceptualmente y computacionalmente simple. Sin embargo, es muy sensible a la presencia de puntos atípicos. Se propone una alternativa robusta basada en minimizar una escala robusta de tipo tau de las distancias entre los puntos y los centros de los grupos a los que pertenecen. Simulaciones por el método de Monte Carlo muestran que este procedimiento no es mayormente afectado por puntos atípicos. Se muestra además que los centros de los grupos están bien definidos, y que son fuertemente consistentes. Otro enfoque para clustering es utilizar un modelo de mezcla de K distribuciones, donde cada distribución depende de varios parámetros. En este caso, el método usuales estimar los parámetros por máxima verosimilitud. En el caso de que las distribuciones son normales multivariadas, este estimador se calcula utilizando un algoritmo EM. Sin embargo, este procedimiento tampoco es robusto. En esta tesis se modifica el algoritmo EM de modo que la estimación de los parámetros sea robusta y consistente. Asímismo, se implementa el algoritmo y se realizan simulaciones de Monte Carlo, en donde se muestran las ventajas de la presente propuesta frente a otros estimadores clásicos y robustos de la literatura. Suppose that p variables are measured on n objects. The clustering problem, which occurs in several areas of knowledge, consists in dividing the set of n objects into K homogeneous groups, so that in each group the p variables take similar values. There are several procedures to solve this problem, one of the most popular one is "K-means", which is based on minimizing the average distances between the objects and the centers of the groups to which they belong. This procedure has the advantage of being conceptually and computationally simple. However, it is very sensitive to the presence of outliers. In this work, a robust alternative based on minimizing a robust tau-type scale of the distances is proposed. Monte Carlo simulations show that this procedure is not mainly affected by outliers. It is also shown that the centers of groups are well defined and they are strongly consistent. Another approach to clustering is to use a mixture model of K distributions, where each distribution depends on several parameters. In this case, the usual method is to estimate the parameters by maximum likelihood. In the case that the distributions are normal multivariate, this estimator is traditionally computed using an EM algorithm. However, this procedure is not robust either. In this thesis the EM algorithm is modified in order to obtain robust and consistent parameters estimations. Likewise, the algorithm is implemented and Monte Carlo simulations are carried out, showing the advantages of the present proposal over other classic and robust estimators shown in the literature. Fil: González, Juan Domingo. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. application/pdf https://hdl.handle.net/20.500.12110/tesis_n6652_Gonzalez spa Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar Métodos de clustering robustos Robust clustering methods info:eu-repo/semantics/doctoralThesis info:ar-repo/semantics/tesis doctoral info:eu-repo/semantics/publishedVersion https://repositoriouba.sisbi.uba.ar/gsdl/cgi-bin/library.cgi?a=d&c=aextesis&d=tesis_n6652_Gonzalez_oai
institution Universidad de Buenos Aires
institution_str I-28
repository_str R-145
collection Repositorio Digital de la Universidad de Buenos Aires (UBA)
language Español
orig_language_str_mv spa
description Se tienen p variables medidas sobre n objetos. El problema de clustering, que se presenta en varias áreas del conocimiento, consiste en dividir el conjunto de n objetos en K grupos homogéneos, es decir de modo que en cada grupo las p variables tomen valores parecidos. Hay varios enfoques para este problema, uno de los más populares es "K-means", que consiste en minimizar la media de las distancias de los objetos a los centros de los grupos a los que pertenecen. Este procedimiento tiene la ventaja de ser conceptualmente y computacionalmente simple. Sin embargo, es muy sensible a la presencia de puntos atípicos. Se propone una alternativa robusta basada en minimizar una escala robusta de tipo tau de las distancias entre los puntos y los centros de los grupos a los que pertenecen. Simulaciones por el método de Monte Carlo muestran que este procedimiento no es mayormente afectado por puntos atípicos. Se muestra además que los centros de los grupos están bien definidos, y que son fuertemente consistentes. Otro enfoque para clustering es utilizar un modelo de mezcla de K distribuciones, donde cada distribución depende de varios parámetros. En este caso, el método usuales estimar los parámetros por máxima verosimilitud. En el caso de que las distribuciones son normales multivariadas, este estimador se calcula utilizando un algoritmo EM. Sin embargo, este procedimiento tampoco es robusto. En esta tesis se modifica el algoritmo EM de modo que la estimación de los parámetros sea robusta y consistente. Asímismo, se implementa el algoritmo y se realizan simulaciones de Monte Carlo, en donde se muestran las ventajas de la presente propuesta frente a otros estimadores clásicos y robustos de la literatura.
author2 Yohai, Víctor J.
author_facet Yohai, Víctor J.
González, Juan Domingo
format Tesis doctoral
Tesis doctoral
publishedVersion
author González, Juan Domingo
spellingShingle González, Juan Domingo
Métodos de clustering robustos
author_sort González, Juan Domingo
title Métodos de clustering robustos
title_short Métodos de clustering robustos
title_full Métodos de clustering robustos
title_fullStr Métodos de clustering robustos
title_full_unstemmed Métodos de clustering robustos
title_sort métodos de clustering robustos
publisher Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publishDate 2019
url https://hdl.handle.net/20.500.12110/tesis_n6652_Gonzalez
https://repositoriouba.sisbi.uba.ar/gsdl/cgi-bin/library.cgi?a=d&c=aextesis&d=tesis_n6652_Gonzalez_oai
work_keys_str_mv AT gonzalezjuandomingo metodosdeclusteringrobustos
AT gonzalezjuandomingo robustclusteringmethods
_version_ 1824355030023536640