Implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos
En este paper se presenta la implementación y optimización de un sistema de scraping masivo para recolectar información de todas las páginas web activas en Argentina. El objetivo del sistema es obtener información relevante para análisis, estadísticas y clasificación de páginas web activas. Para log...
Guardado en:
| Autores principales: | , |
|---|---|
| Formato: | Objeto de conferencia |
| Lenguaje: | Español |
| Publicado: |
2024
|
| Materias: | |
| Acceso en línea: | http://sedici.unlp.edu.ar/handle/10915/176196 |
| Aporte de: |
| id |
I19-R120-10915-176196 |
|---|---|
| record_format |
dspace |
| spelling |
I19-R120-10915-1761962025-02-06T20:05:38Z http://sedici.unlp.edu.ar/handle/10915/176196 Implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos Balich, Néstor A. Balich, Franco 2024-10 2024 2025-02-06T13:11:04Z es Ciencias Informáticas scraping Python virtualización Docker multithreading concurrency procesamiento distribuido Softbot En este paper se presenta la implementación y optimización de un sistema de scraping masivo para recolectar información de todas las páginas web activas en Argentina. El objetivo del sistema es obtener información relevante para análisis, estadísticas y clasificación de páginas web activas. Para lograrlo, se utiliza una combinación de técnicas de scraping, automatización, procesamiento distribuido y concurrente, lo que permite procesar grandes volúmenes de datos de manera eficiente y escalable. Todo ello enmarcado dentro de las principales consideraciones técnicas, legales y de anonimato para llevar a cabo esta tarea de manera ética y responsable. De esta forma vamos sentando las bases para generar un set de datos semánticos con el objetivo a futuro de realizar un entrenamiento por machine learning para identificación y clasificación de las páginas web. Red de Universidades con Carreras en Informática Objeto de conferencia Objeto de conferencia http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) application/pdf 250-257 |
| institution |
Universidad Nacional de La Plata |
| institution_str |
I-19 |
| repository_str |
R-120 |
| collection |
SEDICI (UNLP) |
| language |
Español |
| topic |
Ciencias Informáticas scraping Python virtualización Docker multithreading concurrency procesamiento distribuido Softbot |
| spellingShingle |
Ciencias Informáticas scraping Python virtualización Docker multithreading concurrency procesamiento distribuido Softbot Balich, Néstor A. Balich, Franco Implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos |
| topic_facet |
Ciencias Informáticas scraping Python virtualización Docker multithreading concurrency procesamiento distribuido Softbot |
| description |
En este paper se presenta la implementación y optimización de un sistema de scraping masivo para recolectar información de todas las páginas web activas en Argentina. El objetivo del sistema es obtener información relevante para análisis, estadísticas y clasificación de páginas web activas. Para lograrlo, se utiliza una combinación de técnicas de scraping, automatización, procesamiento distribuido y concurrente, lo que permite procesar grandes volúmenes de datos de manera eficiente y escalable. Todo ello enmarcado dentro de las principales consideraciones técnicas, legales y de anonimato para llevar a cabo esta tarea de manera ética y responsable. De esta forma vamos sentando las bases para generar un set de datos semánticos con el objetivo a futuro de realizar un entrenamiento por machine learning para identificación y clasificación de las páginas web. |
| format |
Objeto de conferencia Objeto de conferencia |
| author |
Balich, Néstor A. Balich, Franco |
| author_facet |
Balich, Néstor A. Balich, Franco |
| author_sort |
Balich, Néstor A. |
| title |
Implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos |
| title_short |
Implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos |
| title_full |
Implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos |
| title_fullStr |
Implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos |
| title_full_unstemmed |
Implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos |
| title_sort |
implementación y optimización de un sistema masivo de scraping basado en técnicas de procesamiento paralelo para dominios argentinos |
| publishDate |
2024 |
| url |
http://sedici.unlp.edu.ar/handle/10915/176196 |
| work_keys_str_mv |
AT balichnestora implementacionyoptimizaciondeunsistemamasivodescrapingbasadoentecnicasdeprocesamientoparaleloparadominiosargentinos AT balichfranco implementacionyoptimizaciondeunsistemamasivodescrapingbasadoentecnicasdeprocesamientoparaleloparadominiosargentinos |
| _version_ |
1845116772998447104 |