Implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos

En este paper se presenta la implementación y optimización de un sistema de scraping masivo para recolectar información de todas las páginas web activas en Argentina. El objetivo del sistema es obtener información relevante para análisis, estadísticas y clasificación de páginas web activas. Para log...

Descripción completa

Guardado en:

Detalles Bibliográficos
Autores principales:	Balich, Néstor A., Balich, Franco
Formato:	Objeto de conferencia
Lenguaje:	Español
Publicado:	2024
Materias:	Ciencias Informáticas scraping Python virtualización Docker multithreading concurrency procesamiento distribuido Softbot
Acceso en línea:	http://sedici.unlp.edu.ar/handle/10915/176196
Aporte de:	SEDICI (UNLP) de Universidad Nacional de La Plata

Descripción
Sumario:	En este paper se presenta la implementación y optimización de un sistema de scraping masivo para recolectar información de todas las páginas web activas en Argentina. El objetivo del sistema es obtener información relevante para análisis, estadísticas y clasificación de páginas web activas. Para lograrlo, se utiliza una combinación de técnicas de scraping, automatización, procesamiento distribuido y concurrente, lo que permite procesar grandes volúmenes de datos de manera eficiente y escalable. Todo ello enmarcado dentro de las principales consideraciones técnicas, legales y de anonimato para llevar a cabo esta tarea de manera ética y responsable. De esta forma vamos sentando las bases para generar un set de datos semánticos con el objetivo a futuro de realizar un entrenamiento por machine learning para identificación y clasificación de las páginas web.

Implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos

Ejemplares similares