Implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos

En este paper se presenta la implementación y optimización de un sistema de scraping masivo para recolectar información de todas las páginas web activas en Argentina. El objetivo del sistema es obtener información relevante para análisis, estadísticas y clasificación de páginas web activas. Para log...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autores principales: Balich, Néstor A., Balich, Franco
Formato: Objeto de conferencia
Lenguaje:Español
Publicado: 2024
Materias:
Acceso en línea:http://sedici.unlp.edu.ar/handle/10915/176196
Aporte de:
id I19-R120-10915-176196
record_format dspace
spelling I19-R120-10915-1761962025-02-06T20:05:38Z http://sedici.unlp.edu.ar/handle/10915/176196 Implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos Balich, Néstor A. Balich, Franco 2024-10 2024 2025-02-06T13:11:04Z es Ciencias Informáticas scraping Python virtualización Docker multithreading concurrency procesamiento distribuido Softbot En este paper se presenta la implementación y optimización de un sistema de scraping masivo para recolectar información de todas las páginas web activas en Argentina. El objetivo del sistema es obtener información relevante para análisis, estadísticas y clasificación de páginas web activas. Para lograrlo, se utiliza una combinación de técnicas de scraping, automatización, procesamiento distribuido y concurrente, lo que permite procesar grandes volúmenes de datos de manera eficiente y escalable. Todo ello enmarcado dentro de las principales consideraciones técnicas, legales y de anonimato para llevar a cabo esta tarea de manera ética y responsable. De esta forma vamos sentando las bases para generar un set de datos semánticos con el objetivo a futuro de realizar un entrenamiento por machine learning para identificación y clasificación de las páginas web. Red de Universidades con Carreras en Informática Objeto de conferencia Objeto de conferencia http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) application/pdf 250-257
institution Universidad Nacional de La Plata
institution_str I-19
repository_str R-120
collection SEDICI (UNLP)
language Español
topic Ciencias Informáticas
scraping
Python
virtualización
Docker
multithreading
concurrency
procesamiento distribuido
Softbot
spellingShingle Ciencias Informáticas
scraping
Python
virtualización
Docker
multithreading
concurrency
procesamiento distribuido
Softbot
Balich, Néstor A.
Balich, Franco
Implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos
topic_facet Ciencias Informáticas
scraping
Python
virtualización
Docker
multithreading
concurrency
procesamiento distribuido
Softbot
description En este paper se presenta la implementación y optimización de un sistema de scraping masivo para recolectar información de todas las páginas web activas en Argentina. El objetivo del sistema es obtener información relevante para análisis, estadísticas y clasificación de páginas web activas. Para lograrlo, se utiliza una combinación de técnicas de scraping, automatización, procesamiento distribuido y concurrente, lo que permite procesar grandes volúmenes de datos de manera eficiente y escalable. Todo ello enmarcado dentro de las principales consideraciones técnicas, legales y de anonimato para llevar a cabo esta tarea de manera ética y responsable. De esta forma vamos sentando las bases para generar un set de datos semánticos con el objetivo a futuro de realizar un entrenamiento por machine learning para identificación y clasificación de las páginas web.
format Objeto de conferencia
Objeto de conferencia
author Balich, Néstor A.
Balich, Franco
author_facet Balich, Néstor A.
Balich, Franco
author_sort Balich, Néstor A.
title Implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos
title_short Implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos
title_full Implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos
title_fullStr Implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos
title_full_unstemmed Implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos
title_sort implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos
publishDate 2024
url http://sedici.unlp.edu.ar/handle/10915/176196
work_keys_str_mv AT balichnestora implementacionyoptimizaciondeunsistemamasivodescrapingbasadoentecnicasdeprocesamientoparaleloparadominiosargentinos
AT balichfranco implementacionyoptimizaciondeunsistemamasivodescrapingbasadoentecnicasdeprocesamientoparaleloparadominiosargentinos
_version_ 1845116772998447104