Plataforma de Indexación Distribuida para Motores de Búsqueda

Fil: Etchart, Juan Martín. Universidad Nacional de Luján, Argentina.

Detalles Bibliográficos
Autor principal: Etchart, Juan Martín
Otros Autores: Tolosa, Gabriel
Formato: Tesis Tesis de grado acceptedVersion
Lenguaje:Español
Español
Publicado: Universidad Nacional de Luján 2022
Materias:
Acceso en línea:http://ri.unlu.edu.ar/xmlui/handle/rediunlu/1170
Aporte de:
id I62-R168-rediunlu-1170
record_format dspace
spelling I62-R168-rediunlu-11702024-05-22T21:09:47Z Plataforma de Indexación Distribuida para Motores de Búsqueda Etchart, Juan Martín Tolosa, Gabriel Índices Indexación Plataformas Datos Recuperación de información Fil: Etchart, Juan Martín. Universidad Nacional de Luján, Argentina. El objetivo principal de este trabajo es desarrollar una Plataforma de Indexación Distribuida que permita configurar varios aspectos a fin de adaptarse a cada situación particular. Algunas de las posibles configuraciones que debe ofrecer la plataforma son, elegir la cantidad de nodos que intervienen en el proceso de indexación, indicar un método para particionar la colección y unir los índices. En la actualidad se cuenta con un gran volumen de datos a procesar, esto se presenta como un escenario ideal para pensar en una división del trabajo. La idea principal de la indexación distribuida es balancear las cargas de procesamiento trabajando de forma paralela. La distribución de cargas no es un proceso que se comporte de manera lineal, esto significa que, no necesariamente si un trabajo que es realizado por una sola computadora insume cierto tiempo, al dividirlo entre dos se llevará acabo en la mitad del tiempo. El objetivo principal de este trabajo es desarrollar una Plataforma de Indexación Distribuida que permita configurar varios aspectos a fin de adaptarse a cada situación particular. Algunas de las posibles configuraciones que debe ofrecer la plataforma son, elegir la cantidad de nodos que intervienen en el proceso de indexación, indicar un método para particionar la colección y unir los índices. Para la Plataforma de Indexación Distribuida se pretende codificar un módulo de particionamiento de la colección. Este módulo debe ofrecer dos tipos de estrategias, particionado por documentos y por términos. El proceso de distribución de los documentos entre los nodos puede realizarse de distintas maneras. Una de ellas consiste en dividir la cantidad de documentos entre los nodos de manera equitativa (Cant. Documentos / Cant. Nodos). Otra, se basa en repartir los documentos eligiendo el nodo que menos carga tiene. Esta diferencia entre la distribución de los documentos afectará de manera directa sobre los tiempos de indexación, y es un aspecto importante que se desea evaluar. Por otro lado, es posible hacer una división por términos y no por documentos. Esto significa que, a cada nodo se le asigna una cierta cantidad de términos que solo él tendrá. De igual manera que la partición por documentos, se ofrecen dos métodos. El primero consiste en dividir la cantidad de palabras entre los nodos de manera igualitaria (Cant. Términos / Cant. Nodos), y el otro, reparte los términos eligiendo el nodo que tiene menos carga. Si bien el particionamiento por términos es un aspecto que mejora notablemente la recuperación, se pretende realizar un análisis sobre su influencia en el proceso de indexación. Realizar pruebas utilizando las distintas configuraciones que ofrece la plataforma y analizar utilizando distintas métricas sobre los tiempos del proceso de indexación es otro de los objetivos principales de este trabajo. Además, se analiza qué configuración presenta la mejor eficiencia al indexar la colección de mayor tamaño sobre la arquitectura disponible, ya que hoy en día la indexación de grandes cantidades de datos es el escenario mas cotidiano. Finalmente, la plataforma desarrollada resulta una herramienta con fines educativos para asignaturas de recuperación de información y motores de búsqueda. Y dado que genera índices con Terrier, puede ser utilizada para pruebas en trabajos de investigación. 2022-06-14T18:27:46Z 2022-06-14T18:27:46Z 2017 Thesis info:eu-repo/semantics/bachelorThesis info:ar-repo/semantics/tesis de grado info:eu-repo/semantics/acceptedVersion http://ri.unlu.edu.ar/xmlui/handle/rediunlu/1170 spa es info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-nd/2.5/ar/ application/pdf application/pdf Universidad Nacional de Luján
institution Universidad Nacional de Luján (UNLu)
institution_str I-62
repository_str R-168
collection REDIUNLu - Repositorio Digital Institucional de Acceso Abierto - Universidad Nacional de Luján (UNLu)
language Español
Español
topic Índices
Indexación
Plataformas
Datos
Recuperación de información
spellingShingle Índices
Indexación
Plataformas
Datos
Recuperación de información
Etchart, Juan Martín
Plataforma de Indexación Distribuida para Motores de Búsqueda
topic_facet Índices
Indexación
Plataformas
Datos
Recuperación de información
description Fil: Etchart, Juan Martín. Universidad Nacional de Luján, Argentina.
author2 Tolosa, Gabriel
author_facet Tolosa, Gabriel
Etchart, Juan Martín
format Thesis
Tesis de grado
Tesis de grado
acceptedVersion
author Etchart, Juan Martín
author_sort Etchart, Juan Martín
title Plataforma de Indexación Distribuida para Motores de Búsqueda
title_short Plataforma de Indexación Distribuida para Motores de Búsqueda
title_full Plataforma de Indexación Distribuida para Motores de Búsqueda
title_fullStr Plataforma de Indexación Distribuida para Motores de Búsqueda
title_full_unstemmed Plataforma de Indexación Distribuida para Motores de Búsqueda
title_sort plataforma de indexación distribuida para motores de búsqueda
publisher Universidad Nacional de Luján
publishDate 2022
url http://ri.unlu.edu.ar/xmlui/handle/rediunlu/1170
work_keys_str_mv AT etchartjuanmartin plataformadeindexaciondistribuidaparamotoresdebusqueda
_version_ 1809230970183745536