Implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos

En este paper se presenta la implementación y optimización de un sistema de scraping masivo para recolectar información de todas las páginas web activas en Argentina. El objetivo del sistema es obtener información relevante para análisis, estadísticas y clasificación de páginas web activas. Para log...

Descripción completa

Guardado en:

Detalles Bibliográficos
Autores principales:	Balich, Néstor A., Balich, Franco
Formato:	Objeto de conferencia
Lenguaje:	Español
Publicado:	2024
Materias:	Ciencias Informáticas scraping Python virtualización Docker multithreading concurrency procesamiento distribuido Softbot
Acceso en línea:	http://sedici.unlp.edu.ar/handle/10915/176196
Aporte de:	SEDICI (UNLP) de Universidad Nacional de La Plata

id	I19-R120-10915-176196
record_format	dspace
spelling	I19-R120-10915-1761962025-02-06T20:05:38Z http://sedici.unlp.edu.ar/handle/10915/176196 Implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos Balich, Néstor A. Balich, Franco 2024-10 2024 2025-02-06T13:11:04Z es Ciencias Informáticas scraping Python virtualización Docker multithreading concurrency procesamiento distribuido Softbot En este paper se presenta la implementación y optimización de un sistema de scraping masivo para recolectar información de todas las páginas web activas en Argentina. El objetivo del sistema es obtener información relevante para análisis, estadísticas y clasificación de páginas web activas. Para lograrlo, se utiliza una combinación de técnicas de scraping, automatización, procesamiento distribuido y concurrente, lo que permite procesar grandes volúmenes de datos de manera eficiente y escalable. Todo ello enmarcado dentro de las principales consideraciones técnicas, legales y de anonimato para llevar a cabo esta tarea de manera ética y responsable. De esta forma vamos sentando las bases para generar un set de datos semánticos con el objetivo a futuro de realizar un entrenamiento por machine learning para identificación y clasificación de las páginas web. Red de Universidades con Carreras en Informática Objeto de conferencia Objeto de conferencia http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) application/pdf 250-257
institution	Universidad Nacional de La Plata
institution_str	I-19
repository_str	R-120
collection	SEDICI (UNLP)
language	Español
topic	Ciencias Informáticas scraping Python virtualización Docker multithreading concurrency procesamiento distribuido Softbot
spellingShingle	Ciencias Informáticas scraping Python virtualización Docker multithreading concurrency procesamiento distribuido Softbot Balich, Néstor A. Balich, Franco Implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos
topic_facet	Ciencias Informáticas scraping Python virtualización Docker multithreading concurrency procesamiento distribuido Softbot
description	En este paper se presenta la implementación y optimización de un sistema de scraping masivo para recolectar información de todas las páginas web activas en Argentina. El objetivo del sistema es obtener información relevante para análisis, estadísticas y clasificación de páginas web activas. Para lograrlo, se utiliza una combinación de técnicas de scraping, automatización, procesamiento distribuido y concurrente, lo que permite procesar grandes volúmenes de datos de manera eficiente y escalable. Todo ello enmarcado dentro de las principales consideraciones técnicas, legales y de anonimato para llevar a cabo esta tarea de manera ética y responsable. De esta forma vamos sentando las bases para generar un set de datos semánticos con el objetivo a futuro de realizar un entrenamiento por machine learning para identificación y clasificación de las páginas web.
format	Objeto de conferencia Objeto de conferencia
author	Balich, Néstor A. Balich, Franco
author_facet	Balich, Néstor A. Balich, Franco
author_sort	Balich, Néstor A.
title	Implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos
title_short	Implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos
title_full	Implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos
title_fullStr	Implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos
title_full_unstemmed	Implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos
title_sort	implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos
publishDate	2024
url	http://sedici.unlp.edu.ar/handle/10915/176196
work_keys_str_mv	AT balichnestora implementacionyoptimizaciondeunsistemamasivodescrapingbasadoentecnicasdeprocesamientoparaleloparadominiosargentinos AT balichfranco implementacionyoptimizaciondeunsistemamasivodescrapingbasadoentecnicasdeprocesamientoparaleloparadominiosargentinos
_version_	1845116772998447104

Implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos

Ejemplares similares