Búsquedas selectivas sobre flujos de documentos

La cantidad de información digital que se genera día a día impone restricciones a los usuarios en cuanto a la facilidad de acceso. Considerando la necesidad de acceder a información relevante, la alta tasa de aparición de nuevo contenido genera la necesidad de contar con herramientas de búsqueda que...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autores principales: Ricci, Santiago, Lavallen, Pablo J., Tolosa, Gabriel Hernán
Formato: Objeto de conferencia
Lenguaje:Español
Publicado: 2020
Materias:
Acceso en línea:http://sedici.unlp.edu.ar/handle/10915/103631
Aporte de:
id I19-R120-10915-103631
record_format dspace
institution Universidad Nacional de La Plata
institution_str I-19
repository_str R-120
collection SEDICI (UNLP)
language Español
topic Ciencias Informáticas
Algoritmos de búsqueda
Estructuras de datos
Búsquedas selectivas
spellingShingle Ciencias Informáticas
Algoritmos de búsqueda
Estructuras de datos
Búsquedas selectivas
Ricci, Santiago
Lavallen, Pablo J.
Tolosa, Gabriel Hernán
Búsquedas selectivas sobre flujos de documentos
topic_facet Ciencias Informáticas
Algoritmos de búsqueda
Estructuras de datos
Búsquedas selectivas
description La cantidad de información digital que se genera día a día impone restricciones a los usuarios en cuanto a la facilidad de acceso. Considerando la necesidad de acceder a información relevante, la alta tasa de aparición de nuevo contenido genera la necesidad de contar con herramientas de búsqueda que puedan manejar el tamaño, complejidad y dinamismo de las fuentes de información digital actuales. Este problema no puede ser resuelto en el ámbito de un solo equipo de cómputo por lo que requiere de una arquitectura que involucra procesamiento paralelo y distribuido, la cual incluye diseñar y optimizar estructuras de datos y algoritmos eficientes que las gestionen. Esta arquitectura es desafiada cuando los documentos aparecen en flujos en tiempo real como, por ejemplo, las publicaciones en las redes sociales. Un caso paradigmático son las publicaciones en Twitter, en la cual millones de usuarios alrededor del mundo publican “documentos cortos” (tweets) desde diferentes tipos de dispositivos (generalmente, móviles), los cuales deben estar disponibles casi de inmediato (segundos) por lo que las estructuras de datos deben soportar un alto dinamismo. Esto contrasta con la búsquedas web clásicas, donde el índice invertido se actualiza en modo batch ya que existe un tiempo entre actualizaciones debido a la necesidad de recolectar los nuevos documentos a indexar. Un abordaje actual a este problema es la partición de la colección en porciones (shards) de acuerdo a algún criterio (por ejemplo, temático) de manera tal de enviar las consultas solamente a un número reducido n de nodos (n C P) que contengan particiones de la colección que potencialmente pueden satisfacer la consulta. Este problema se lo conoce como “búsquedas selectivas” (selective search) e incluye métodos que permiten seleccionar los recursos adecuados, algoritmos de fusión de resultados parciales y estrategias adaptadas de caching. Este trabajo presenta las líneas de investigación en el contexto de las búsquedas en tiempo real utilizando una arquitectura basada en búsquedas selectivas. Las propuestas abarcan el estudio, diseño y evaluación de los criterios de actualización del índice invertidos por partición, las estrategias de cache a implementar y el algoritmo de búsqueda final y cómo estos impactan en la performance que se pretende optimizar (eficiencia y/o efectividad).
format Objeto de conferencia
Objeto de conferencia
author Ricci, Santiago
Lavallen, Pablo J.
Tolosa, Gabriel Hernán
author_facet Ricci, Santiago
Lavallen, Pablo J.
Tolosa, Gabriel Hernán
author_sort Ricci, Santiago
title Búsquedas selectivas sobre flujos de documentos
title_short Búsquedas selectivas sobre flujos de documentos
title_full Búsquedas selectivas sobre flujos de documentos
title_fullStr Búsquedas selectivas sobre flujos de documentos
title_full_unstemmed Búsquedas selectivas sobre flujos de documentos
title_sort búsquedas selectivas sobre flujos de documentos
publishDate 2020
url http://sedici.unlp.edu.ar/handle/10915/103631
work_keys_str_mv AT riccisantiago busquedasselectivassobreflujosdedocumentos
AT lavallenpabloj busquedasselectivassobreflujosdedocumentos
AT tolosagabrielhernan busquedasselectivassobreflujosdedocumentos
bdutipo_str Repositorios
_version_ 1764820440942903296