Métodos de clustering robustos
Se tienen p variables medidas sobre n objetos. El problema de clustering, que se presenta en varias áreas del conocimiento, consiste en dividir el conjunto de n objetos en K grupos homogéneos, es decir de modo que en cada grupo las p variables tomen valores parecidos. Hay varios enfoques para este p...
Autor principal: | |
---|---|
Otros Autores: | |
Formato: | Tesis doctoral publishedVersion |
Lenguaje: | Español |
Publicado: |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
2019
|
Acceso en línea: | https://hdl.handle.net/20.500.12110/tesis_n6652_Gonzalez https://repositoriouba.sisbi.uba.ar/gsdl/cgi-bin/library.cgi?a=d&c=aextesis&d=tesis_n6652_Gonzalez_oai |
Aporte de: |
id |
I28-R145-tesis_n6652_Gonzalez_oai |
---|---|
record_format |
dspace |
spelling |
I28-R145-tesis_n6652_Gonzalez_oai2024-09-02 Yohai, Víctor J. González, Juan Domingo 2019-03-15 Se tienen p variables medidas sobre n objetos. El problema de clustering, que se presenta en varias áreas del conocimiento, consiste en dividir el conjunto de n objetos en K grupos homogéneos, es decir de modo que en cada grupo las p variables tomen valores parecidos. Hay varios enfoques para este problema, uno de los más populares es "K-means", que consiste en minimizar la media de las distancias de los objetos a los centros de los grupos a los que pertenecen. Este procedimiento tiene la ventaja de ser conceptualmente y computacionalmente simple. Sin embargo, es muy sensible a la presencia de puntos atípicos. Se propone una alternativa robusta basada en minimizar una escala robusta de tipo tau de las distancias entre los puntos y los centros de los grupos a los que pertenecen. Simulaciones por el método de Monte Carlo muestran que este procedimiento no es mayormente afectado por puntos atípicos. Se muestra además que los centros de los grupos están bien definidos, y que son fuertemente consistentes. Otro enfoque para clustering es utilizar un modelo de mezcla de K distribuciones, donde cada distribución depende de varios parámetros. En este caso, el método usuales estimar los parámetros por máxima verosimilitud. En el caso de que las distribuciones son normales multivariadas, este estimador se calcula utilizando un algoritmo EM. Sin embargo, este procedimiento tampoco es robusto. En esta tesis se modifica el algoritmo EM de modo que la estimación de los parámetros sea robusta y consistente. Asímismo, se implementa el algoritmo y se realizan simulaciones de Monte Carlo, en donde se muestran las ventajas de la presente propuesta frente a otros estimadores clásicos y robustos de la literatura. Suppose that p variables are measured on n objects. The clustering problem, which occurs in several areas of knowledge, consists in dividing the set of n objects into K homogeneous groups, so that in each group the p variables take similar values. There are several procedures to solve this problem, one of the most popular one is "K-means", which is based on minimizing the average distances between the objects and the centers of the groups to which they belong. This procedure has the advantage of being conceptually and computationally simple. However, it is very sensitive to the presence of outliers. In this work, a robust alternative based on minimizing a robust tau-type scale of the distances is proposed. Monte Carlo simulations show that this procedure is not mainly affected by outliers. It is also shown that the centers of groups are well defined and they are strongly consistent. Another approach to clustering is to use a mixture model of K distributions, where each distribution depends on several parameters. In this case, the usual method is to estimate the parameters by maximum likelihood. In the case that the distributions are normal multivariate, this estimator is traditionally computed using an EM algorithm. However, this procedure is not robust either. In this thesis the EM algorithm is modified in order to obtain robust and consistent parameters estimations. Likewise, the algorithm is implemented and Monte Carlo simulations are carried out, showing the advantages of the present proposal over other classic and robust estimators shown in the literature. Fil: González, Juan Domingo. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. application/pdf https://hdl.handle.net/20.500.12110/tesis_n6652_Gonzalez spa Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar Métodos de clustering robustos Robust clustering methods info:eu-repo/semantics/doctoralThesis info:ar-repo/semantics/tesis doctoral info:eu-repo/semantics/publishedVersion https://repositoriouba.sisbi.uba.ar/gsdl/cgi-bin/library.cgi?a=d&c=aextesis&d=tesis_n6652_Gonzalez_oai |
institution |
Universidad de Buenos Aires |
institution_str |
I-28 |
repository_str |
R-145 |
collection |
Repositorio Digital de la Universidad de Buenos Aires (UBA) |
language |
Español |
orig_language_str_mv |
spa |
description |
Se tienen p variables medidas sobre n objetos. El problema de clustering, que se presenta en varias áreas del conocimiento, consiste en dividir el conjunto de n objetos en K grupos homogéneos, es decir de modo que en cada grupo las p variables tomen valores parecidos. Hay varios enfoques para este problema, uno de los más populares es "K-means", que consiste en minimizar la media de las distancias de los objetos a los centros de los grupos a los que pertenecen. Este procedimiento tiene la ventaja de ser conceptualmente y computacionalmente simple. Sin embargo, es muy sensible a la presencia de puntos atípicos. Se propone una alternativa robusta basada en minimizar una escala robusta de tipo tau de las distancias entre los puntos y los centros de los grupos a los que pertenecen. Simulaciones por el método de Monte Carlo muestran que este procedimiento no es mayormente afectado por puntos atípicos. Se muestra además que los centros de los grupos están bien definidos, y que son fuertemente consistentes. Otro enfoque para clustering es utilizar un modelo de mezcla de K distribuciones, donde cada distribución depende de varios parámetros. En este caso, el método usuales estimar los parámetros por máxima verosimilitud. En el caso de que las distribuciones son normales multivariadas, este estimador se calcula utilizando un algoritmo EM. Sin embargo, este procedimiento tampoco es robusto. En esta tesis se modifica el algoritmo EM de modo que la estimación de los parámetros sea robusta y consistente. Asímismo, se implementa el algoritmo y se realizan simulaciones de Monte Carlo, en donde se muestran las ventajas de la presente propuesta frente a otros estimadores clásicos y robustos de la literatura. |
author2 |
Yohai, Víctor J. |
author_facet |
Yohai, Víctor J. González, Juan Domingo |
format |
Tesis doctoral Tesis doctoral publishedVersion |
author |
González, Juan Domingo |
spellingShingle |
González, Juan Domingo Métodos de clustering robustos |
author_sort |
González, Juan Domingo |
title |
Métodos de clustering robustos |
title_short |
Métodos de clustering robustos |
title_full |
Métodos de clustering robustos |
title_fullStr |
Métodos de clustering robustos |
title_full_unstemmed |
Métodos de clustering robustos |
title_sort |
métodos de clustering robustos |
publisher |
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales |
publishDate |
2019 |
url |
https://hdl.handle.net/20.500.12110/tesis_n6652_Gonzalez https://repositoriouba.sisbi.uba.ar/gsdl/cgi-bin/library.cgi?a=d&c=aextesis&d=tesis_n6652_Gonzalez_oai |
work_keys_str_mv |
AT gonzalezjuandomingo metodosdeclusteringrobustos AT gonzalezjuandomingo robustclusteringmethods |
_version_ |
1824355030023536640 |