Un prototipo de buscador vertical sobre cine documental asistido por aprendizaje supervisado

En este trabajo se estudian y aplican distintas técnicas de web mining e information retrieval con el objetivo de explorar el espacio de sitios web y desarrollar un prototipo de buscador sobre cine, particularmente bajo la categoría de documentales. Se comenzó partiendo de algunas semillas considera...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Badgen, Iván Matías
Otros Autores: Castaño, José Daniel
Formato: Tesis de grado publishedVersion
Lenguaje:Español
Publicado: Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales 2015
Materias:
Acceso en línea:https://hdl.handle.net/20.500.12110/seminario_nCOM000433_Badgen
Aporte de:
Descripción
Sumario:En este trabajo se estudian y aplican distintas técnicas de web mining e information retrieval con el objetivo de explorar el espacio de sitios web y desarrollar un prototipo de buscador sobre cine, particularmente bajo la categoría de documentales. Se comenzó partiendo de algunas semillas consideradas de interés y luego se amplió a resultados de algunos buscadores tradicionales. La idea no fue solo quedarse con ellos, sino intentar descubrir nuevos sitios que se pudieran clasificar también dentro del interés planteado. Por otra parte, utilizando crawling e indexando los resultados, se estudió el espacio obtenido en términos de grafos, para determinar qué sitios podrían ser más relevantes que otros dentro del dominio. En este caso, no necesariamente relevantes en cuanto a contenido, pero sí como potenciales semillas para encontrar otros sitios relacionados. El trabajo en buscadores verticales es usualmente complementado con técnicas de aprendizaje automático para mejorar tanto la búsqueda como la presentación de resultados. En el caso de este trabajo, se utilizaron algoritmos de clasificación para el descubrimiento de nuevas páginas relevantes y algoritmos de clustering para el análisis de los resultados obtenidos. Como resultado, se implementó un prototipo de buscador para el cine documental cuyo contenido esté restringido a documentales del cine hispano-americano.