Implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos

En este paper se presenta la implementación y optimización de un sistema de scraping masivo para recolectar información de todas las páginas web activas en Argentina. El objetivo del sistema es obtener información relevante para análisis, estadísticas y clasificación de páginas web activas. Para log...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autores principales: Balich, Néstor A., Balich, Franco
Formato: Objeto de conferencia
Lenguaje:Español
Publicado: 2024
Materias:
Acceso en línea:http://sedici.unlp.edu.ar/handle/10915/176196
Aporte de:
Descripción
Sumario:En este paper se presenta la implementación y optimización de un sistema de scraping masivo para recolectar información de todas las páginas web activas en Argentina. El objetivo del sistema es obtener información relevante para análisis, estadísticas y clasificación de páginas web activas. Para lograrlo, se utiliza una combinación de técnicas de scraping, automatización, procesamiento distribuido y concurrente, lo que permite procesar grandes volúmenes de datos de manera eficiente y escalable. Todo ello enmarcado dentro de las principales consideraciones técnicas, legales y de anonimato para llevar a cabo esta tarea de manera ética y responsable. De esta forma vamos sentando las bases para generar un set de datos semánticos con el objetivo a futuro de realizar un entrenamiento por machine learning para identificación y clasificación de las páginas web.