Estimación de proporción de clases en muestras no etiquetadas mediante modelos de cuantificación

La cuantificación consiste en proporcionar predicciones agregadas para conjuntos de datos, en lugar de predicciones individuales para cada dato. En el contexto de la clasificación, esto se traduce en predecir la proporción de cada clase dentro de un conjunto de instancias, en lugar de la clase parti...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Silva, Maximiliano Marufo da
Otros Autores: Farall, Rodolfo Andrés, Statti, María Florencia, Chan, Débora, Parada, Daniela Laura
Formato: Tesis Libro
Lenguaje:Español
Publicado: 13 de octubre de 2025
Materias:
Aporte de:Registro referencial: Solicitar el recurso aquí
LEADER 05558nam a22004217a 4500
003 AR-BaUEN
005 20251125194703.0
008 251119s2025 ag ad||f m||| 000 0|spa|d
040 |a AR-BaUEN  |b spa  |c AR-BaUEN 
041 0 |b spa  |b eng 
044 |a ag 
084 |a EST 007835 
100 1 |a Silva, Maximiliano Marufo da 
245 1 0 |a Estimación de proporción de clases en muestras no etiquetadas mediante modelos de cuantificación 
246 3 1 |a Estimating class proportions in unlabeled samples using quantification models 
260 |c 13 de octubre de 2025 
300 |a vi, 58 p. :   |b il., gráfs. color, tablas color 
502 |b Magíster de la Universidad de Buenos Aires en el área de Estadística Matemática  |c Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales  |d 2025-10-13 
506 |2 openaire 
518 |o Fecha de publicación en la Biblioteca Digital FCEN-UBA 
520 3 |a La cuantificación consiste en proporcionar predicciones agregadas para conjuntos de datos, en lugar de predicciones individuales para cada dato. En el contexto de la clasificación, esto se traduce en predecir la proporción de cada clase dentro de un conjunto de instancias, en lugar de la clase particular de cada instancia individualmente. Un ejemplo práctico es la predicción de la proporción de comentarios positivos y negativos sobre un producto, servicio o candidato en redes sociales. Si bien se podría utilizar un clasificador para predecir el sentimiento de cada comentario y, posteriormente, derivar las proporciones de clase, esta estrategia es subóptima y a menudo produce estimaciones sesgadas de la prevalencia, lo que resulta en una baja precisión en la cuantificación. Por consiguiente, se han desarrollado métodos específicos para abordar la cuantificación como una tarea independiente. Los modelos de cuantificación se entrenan con datos cuya distribución puede diferir de la de los datos de prueba. En el contexto de la cuantificación binaria, para cada instancia i ∈ {1, . . . , n}, consideramos un vector de variables aleatorias (Xi, Yi, Si), donde Xi ∈ Rᵈ representa las características de la instancia, Yi ∈ {0, 1} denota su etiqueta de clase, y Si ∈ {0, 1} indica si la instancia está etiquetada (y, por lo tanto, pertenece al conjunto de entrenamiento). Cuando Si = 0, la etiqueta Yi no es observable. El objetivo es estimar p := P(Y = 1|S = 0), es decir, la prevalencia de etiquetas positivas entre las instancias no etiquetadas. No se asume que esta prevalencia sea igual a la de las instancias etiquetadas, P(Y = 1|S = 1). Además, el estimador de p debe depender únicamente de los datos disponibles: las características de todas las instancias y las etiquetas observadas. El objetivo de este trabajo es describir el problema de la cuantificación, justificando la necesidad de utilizar modelos optimizados para estos casos, y presentar una revisión del estado del arte en este campo, evaluando mediante simulaciones los principales modelos propuestos.  |l spa 
520 3 |a Quantification aims to provide aggregate predictions for datasets, rather than indi- vidual predictions for each data point. In the context of classification, this translates to predicting the proportion of each class within a set of instances, rather than the specific class of each instance individually. A practical example is predicting the proportion of positive and negative comments regarding a product, service, or candidate on social media. While a classifier could be used to predict the sentiment of each comment and subsequently derive class proportions, this strategy is suboptimal and often yields biased prevalence estimates, resulting in poor quantification accuracy. Consequently, dedicated methods have been developed to address quantification as an independent task. Quantification models are trained on data whose distribution may differ from that of the test data. In the context of binary quantification, for each instance i ∈ {1, . . . , n}, we consider a vector of random variables (Xi , Yi , Si), where Xi ∈ Rᵈ represents the instance’s features, Yi ∈ {0, 1} denotes its class label, and Si ∈ {0, 1} indicates whether the instance is labeled (and therefore belongs to the training set). When Si = 0, the label Yi is unobserved. The objective is to estimate p := P(Y = 1|S = 0), i.e., the prevalence of positive labels among unlabeled instances. This prevalence is not assumed to be equal to that of the labeled instances, P(Y = 1|S = 1). Furthermore, the estimator of p must depend solely on the available data: the features of all instances and the observed labels. This work aims to describe the quantification problem, justifying the need for optimized models in these cases, and to present a review of the state of the art in this field, evaluating the main proposed models through simulations.  |l eng 
540 |2 cc  |f https://creativecommons.org/licenses/by-nc-sa/2.5/ar 
653 1 0 |a CUANTIFICACION 
653 1 0 |a ESTIMACION DE PROPORCION DE CLASES 
653 1 0 |a CAMBIO DE DISTRIBUCION 
690 1 0 |a QUANTIFICATION 
690 1 0 |a CLASS PROPORTION ESTIMATION 
690 1 0 |a DISTRIBUTION SHIFT 
700 1 |a Farall, Rodolfo Andrés 
700 1 |a Statti, María Florencia 
700 1 |a Chan, Débora 
700 1 |a Parada, Daniela Laura 
856 4 |q application/pdf 
931 |a DM 
961 |b tesis  |c PR  |e ND 
962 |a info:eu-repo/semantics/masterThesis  |a info:ar-repo/semantics/tesis de maestría  |b info:eu-repo/semantics/publishedVersion 
999 |c 108748