Normalización e identificación de objetos duplicados sobre contenido extraído de la web

La web es la principal fuente de información disponible, aunque los datos carecen de estructura y significado para las maquinas. La web semántica emerge para solucionar esto, pero su adopción es lenta, y la construcción de aplicaciones que utilicen los datos de la web implica extraerlos de manera ma...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Mastronardi, Gonzalo
Otros Autores: Fernández, Alejandro
Formato: Tesis Tesis de grado
Lenguaje:Español
Publicado: 2024
Materias:
Acceso en línea:http://sedici.unlp.edu.ar/handle/10915/165308
Aporte de:
Descripción
Sumario:La web es la principal fuente de información disponible, aunque los datos carecen de estructura y significado para las maquinas. La web semántica emerge para solucionar esto, pero su adopción es lenta, y la construcción de aplicaciones que utilicen los datos de la web implica extraerlos de manera manual. Dada la imprecisión de estas herramientas, se propuso, en primera instancia, la construcción un framework de normalización, y luego, un segundo framework de identificación de duplicados, con el objetivo de recolectar, estructurar y normalizar información dispersa, otorgándole sentido para las maquinas.