Búsquedas selectivas sobre flujos de documentos
La cantidad de información digital que se genera día a día impone restricciones a los usuarios en cuanto a la facilidad de acceso. Considerando la necesidad de acceder a información relevante, la alta tasa de aparición de nuevo contenido genera la necesidad de contar con herramientas de búsqueda que...
Guardado en:
Autores principales: | , , |
---|---|
Formato: | Objeto de conferencia |
Lenguaje: | Español |
Publicado: |
2020
|
Materias: | |
Acceso en línea: | http://sedici.unlp.edu.ar/handle/10915/103631 |
Aporte de: |
id |
I19-R120-10915-103631 |
---|---|
record_format |
dspace |
institution |
Universidad Nacional de La Plata |
institution_str |
I-19 |
repository_str |
R-120 |
collection |
SEDICI (UNLP) |
language |
Español |
topic |
Ciencias Informáticas Algoritmos de búsqueda Estructuras de datos Búsquedas selectivas |
spellingShingle |
Ciencias Informáticas Algoritmos de búsqueda Estructuras de datos Búsquedas selectivas Ricci, Santiago Lavallen, Pablo J. Tolosa, Gabriel Hernán Búsquedas selectivas sobre flujos de documentos |
topic_facet |
Ciencias Informáticas Algoritmos de búsqueda Estructuras de datos Búsquedas selectivas |
description |
La cantidad de información digital que se genera día a día impone restricciones a los usuarios en cuanto a la facilidad de acceso. Considerando la necesidad de acceder a información relevante, la alta tasa de aparición de nuevo contenido genera la necesidad de contar con herramientas de búsqueda que puedan manejar el tamaño, complejidad y dinamismo de las fuentes de información digital actuales. Este problema no puede ser resuelto en el ámbito de un solo equipo de cómputo por lo que requiere de una arquitectura que involucra procesamiento paralelo y distribuido, la cual incluye diseñar y optimizar estructuras de datos y algoritmos eficientes que las gestionen.
Esta arquitectura es desafiada cuando los documentos aparecen en flujos en tiempo real como, por ejemplo, las publicaciones en las redes sociales. Un caso paradigmático son las publicaciones en Twitter, en la cual millones de usuarios alrededor del mundo publican “documentos cortos” (tweets) desde diferentes tipos de dispositivos (generalmente, móviles), los cuales deben estar disponibles casi de inmediato (segundos) por lo que las estructuras de datos deben soportar un alto dinamismo. Esto contrasta con la búsquedas web clásicas, donde el índice invertido se actualiza en modo batch ya que existe un tiempo entre actualizaciones debido a la necesidad de recolectar los nuevos documentos a indexar.
Un abordaje actual a este problema es la partición de la colección en porciones (shards) de acuerdo a algún criterio (por ejemplo, temático) de manera tal de enviar las consultas solamente a un número reducido n de nodos (n C P) que contengan particiones de la colección que potencialmente pueden satisfacer la consulta. Este problema se lo conoce como “búsquedas selectivas” (selective search) e incluye métodos que permiten seleccionar los recursos adecuados, algoritmos de fusión de resultados parciales y estrategias adaptadas de caching.
Este trabajo presenta las líneas de investigación en el contexto de las búsquedas en tiempo real utilizando una arquitectura basada en búsquedas selectivas. Las propuestas abarcan el estudio, diseño y evaluación de los criterios de actualización del índice invertidos por partición, las estrategias de cache a implementar y el algoritmo de búsqueda final y cómo estos impactan en la performance que se pretende optimizar (eficiencia y/o efectividad). |
format |
Objeto de conferencia Objeto de conferencia |
author |
Ricci, Santiago Lavallen, Pablo J. Tolosa, Gabriel Hernán |
author_facet |
Ricci, Santiago Lavallen, Pablo J. Tolosa, Gabriel Hernán |
author_sort |
Ricci, Santiago |
title |
Búsquedas selectivas sobre flujos de documentos |
title_short |
Búsquedas selectivas sobre flujos de documentos |
title_full |
Búsquedas selectivas sobre flujos de documentos |
title_fullStr |
Búsquedas selectivas sobre flujos de documentos |
title_full_unstemmed |
Búsquedas selectivas sobre flujos de documentos |
title_sort |
búsquedas selectivas sobre flujos de documentos |
publishDate |
2020 |
url |
http://sedici.unlp.edu.ar/handle/10915/103631 |
work_keys_str_mv |
AT riccisantiago busquedasselectivassobreflujosdedocumentos AT lavallenpabloj busquedasselectivassobreflujosdedocumentos AT tolosagabrielhernan busquedasselectivassobreflujosdedocumentos |
bdutipo_str |
Repositorios |
_version_ |
1764820440942903296 |