Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico

Este trabajo muestra el desarrollo e implementación de un algoritmo para extraer datos de perfiles y publicaciones de Google Académico (GA) utilizando Web Scraping, técnica no estructurada de minería de datos que escanea los datos de una página web. El código del algoritmo se crea utilizando el leng...

Descripción completa

Detalles Bibliográficos
Autores principales: Murillo, Danny, Saavedra, Dalys, Calderón, Huriviades
Formato: Objeto de conferencia
Lenguaje:Español
Publicado: 2018
Materias:
Acceso en línea:http://sedici.unlp.edu.ar/handle/10915/71442
http://repositorio.pucp.edu.pe/index/handle/123456789/133795
Aporte de:
id I19-R120-10915-71442
record_format dspace
institution Universidad Nacional de La Plata
institution_str I-19
repository_str R-120
collection SEDICI (UNLP)
language Español
topic Ciencias Informáticas
Bibliotecología
Google Académico
Análisis de Datos
escaneado web
minería web
lenguaje R
Google Scholar
Web Scraping
Web Mining
R Lenguage
data analysis
spellingShingle Ciencias Informáticas
Bibliotecología
Google Académico
Análisis de Datos
escaneado web
minería web
lenguaje R
Google Scholar
Web Scraping
Web Mining
R Lenguage
data analysis
Murillo, Danny
Saavedra, Dalys
Calderón, Huriviades
Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico
topic_facet Ciencias Informáticas
Bibliotecología
Google Académico
Análisis de Datos
escaneado web
minería web
lenguaje R
Google Scholar
Web Scraping
Web Mining
R Lenguage
data analysis
description Este trabajo muestra el desarrollo e implementación de un algoritmo para extraer datos de perfiles y publicaciones de Google Académico (GA) utilizando Web Scraping, técnica no estructurada de minería de datos que escanea los datos de una página web. El código del algoritmo se crea utilizando el lenguaje R el cual nos permite personalizar la extracción de datos implementando funciones de extracción de perfiles y publicaciones de una universidad. En las pruebas de extracción de datos realizadas con las herramientas web y online se logró un promedio de 2 a 8 horas para extraer un promedio de 55 perfiles y 1400 publicaciones, mientras que con el algoritmo se logra extraer la misma cantidad de perfiles y publicaciones en 4 minutos con datos estructurados en formato de tabla que pueden ser exportadas para su posterior uso. Estas pruebas fueron realizadas en un periodo de 1 año, depurando errores y mejorando tanto el tiempo de extracción de los datos de salida. Una de las limitantes del algoritmo es que en universidades con más de 2,000 perfiles, este, es bloqueado por GA debido a que el tiempo de extracción aumenta y considera que es un robot o araña quien escanea los datos, es por ello que se trabaja en mejorar el proceso de extracción. El trabajo realizado permite que este algoritmo sea una herramienta para quienes realizan análisis de datos de indicadores científicos o para quienes realizan análisis bibliométricos de revistas académicas y científicas con perfiles en GA.
format Objeto de conferencia
Objeto de conferencia
author Murillo, Danny
Saavedra, Dalys
Calderón, Huriviades
author_facet Murillo, Danny
Saavedra, Dalys
Calderón, Huriviades
author_sort Murillo, Danny
title Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico
title_short Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico
title_full Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico
title_fullStr Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico
title_full_unstemmed Implementación de algoritmo para la extracción de datos estructurados de perfiles en Google Académico
title_sort implementación de algoritmo para la extracción de datos estructurados de perfiles en google académico
publishDate 2018
url http://sedici.unlp.edu.ar/handle/10915/71442
http://repositorio.pucp.edu.pe/index/handle/123456789/133795
work_keys_str_mv AT murillodanny implementaciondealgoritmoparalaextracciondedatosestructuradosdeperfilesengoogleacademico
AT saavedradalys implementaciondealgoritmoparalaextracciondedatosestructuradosdeperfilesengoogleacademico
AT calderonhuriviades implementaciondealgoritmoparalaextracciondedatosestructuradosdeperfilesengoogleacademico
bdutipo_str Repositorios
_version_ 1764820482663645185