Técnicas de aprendizaje de características y extracción de información para mejorar el descubrimiento de servicios RESTful
Computación orientada a servicios (SOC) es un paradigma informático que promueve la reutilización del software al hacer que los componentes estén disponibles y sean accesibles a través de Internet. Por lo tanto, las aplicaciones se crean utilizando componentes básicos llamados servicios, lo que di...
Autor principal: | |
---|---|
Formato: | Artículo revista |
Lenguaje: | Español |
Publicado: |
Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas
2018
|
Materias: | |
Acceso en línea: | https://www.ridaa.unicen.edu.ar/xmlui/handle/123456789/2085 |
Aporte de: | Aportado por :
Repositorio Institucional de Acceso Abierto (RIDAA) de
Universidad Nacional del Centro .
|
id |
I21-R190-123456789-2085 |
---|---|
record_format |
ojs |
institution |
Universidad Nacional del Centro |
institution_str |
I-21 |
repository_str |
R-190 |
container_title_str |
Repositorio Institucional de Acceso Abierto (RIDAA) |
language |
Español |
format |
Artículo revista |
topic |
Servicios orientados a SOAP y REST WordNet Word Embeddings Vectores de descripciones Mashape Computación orientada a servicios SOC Ciencias de la computación Técnicas de Procesamiento de Lenguaje Natural PNL Software |
spellingShingle |
Servicios orientados a SOAP y REST WordNet Word Embeddings Vectores de descripciones Mashape Computación orientada a servicios SOC Ciencias de la computación Técnicas de Procesamiento de Lenguaje Natural PNL Software Lizarralde, Ignacio Técnicas de aprendizaje de características y extracción de información para mejorar el descubrimiento de servicios RESTful |
topic_facet |
Servicios orientados a SOAP y REST WordNet Word Embeddings Vectores de descripciones Mashape Computación orientada a servicios SOC Ciencias de la computación Técnicas de Procesamiento de Lenguaje Natural PNL Software |
author |
Lizarralde, Ignacio |
author_facet |
Lizarralde, Ignacio |
author_sort |
Lizarralde, Ignacio |
title |
Técnicas de aprendizaje de características y extracción de información para mejorar el descubrimiento de servicios RESTful |
title_short |
Técnicas de aprendizaje de características y extracción de información para mejorar el descubrimiento de servicios RESTful |
title_full |
Técnicas de aprendizaje de características y extracción de información para mejorar el descubrimiento de servicios RESTful |
title_fullStr |
Técnicas de aprendizaje de características y extracción de información para mejorar el descubrimiento de servicios RESTful |
title_full_unstemmed |
Técnicas de aprendizaje de características y extracción de información para mejorar el descubrimiento de servicios RESTful |
title_sort |
técnicas de aprendizaje de características y extracción de información para mejorar el descubrimiento de servicios restful |
description |
Computación orientada a servicios (SOC) es un paradigma informático que promueve
la reutilización del software al hacer que los componentes estén disponibles y sean
accesibles a través de Internet. Por lo tanto, las aplicaciones se crean utilizando componentes básicos llamados servicios, lo que disminuye los costos y el mantenimiento
en el proceso de desarrollo de las aplicaciones del lado del cliente. Los servicios web,
la materialización más común de SOC, especifican las interfaces (también conocidas
como descripciones de servicios web) que describen los parámetros, la funcionalidad
y los protocolos para consumir estos servicios.
Los proveedores de servicios crean y publican descripciones de servicios web para que
sus servicios estén disponibles, para lo cual deben ser descubiertos. Además, como
las descripciones semánticas deben ser anotadas (es decir, tipos de datos, operaciones,
mensajes, etc.) con conceptos semánticos de ontologías, que a su vez se ha reconocido
como una tarea bastante difícil [Corbellini et al., 2017], los investigadores se han
concentrado en los llamados enfoques sintácticos para el descubrimiento de servicios.
De esta manera, los trabajos anteriores han abordado el descubrimiento de servicios
basados en el marcado para los servicios orientados a SOAP [Wu, 2012, Crasso et al.,
2011b] y REST [Rodriguez et al., 2015b, Lizarralde et al., 2017].
La mayoría de los enfoques de descubrimiento sintácticos aprovechan las técnicas tradicionales de recuperación de información (IR) para hacer coincidir las consultas basadas en palabras clave con una colección almacenada de descripciones (documentos) de servicios web basados en marcado, que potencialmente contienen dichas palabras clave. Cuando la consulta de un usuario contiene varias palabras clave específicas del tema que se aproximan al servicio necesario, es probable que el registro del servicio web devuelva coincidencias correctas. Sin embargo, los usuarios a menudo introducen oraciones ambiguas y cortas en lenguaje natural. Esto dificulta la recuperación de documentos relevantes porque solo se consideran las palabras dentro de la consulta
para la búsqueda, lo que lleva a la falta de coincidencia de términos. Este problema se
conoce como el problema del vocabulario [Furnas et al., 1987].
Se han realizado varios esfuerzos en la comunidad de IR para hacer frente al problema
del vocabulario más allá del descubrimiento de servicios web. Por un lado, las técnicas
de expansión orientadas a la consulta intentan resolver este problema agregando
términos que no están incluidos inicialmente en una consulta y se pueden derivar de
los otros términos contenidos en esta (por ejemplo, sinónimos). Las técnicas de expansión orientadas a documentos, por otro lado, operan sobre la misma base, pero en su lugar utilizan documentos como fuente. Si bien la operación en un documento puede
generar ruido, ya que la cantidad de términos para expandirse es mayor, también
allana el camino para nuevas técnicas de PNL (Procesamiento de Lenguaje Natural)
conscientes del contexto que pueden llevar a expandir indirectamente el documento
al enriquecer el contenido original con información subyacente. semántica [Mikolov
et al., 2013, Pennington et al., 2014]. Tradicionalmente, la expansión de consultas se ha
realizado utilizando diferentes cuerpos, más comúnmente WordNet, que es una estrategia
muy común para mejorar el descubrimiento de documentos [Vechtomova and
Karamuftuoglu, 2007, Carpineto and Romano, 2012].
Esta tesis plantea abordar el problema del vocabulario aprovechando la información
contenida en las descripciones de servicios web. En particular, esta tesis propone dos
enfoques principales para mejorar el descubrimiento del servicio: la expansión explícita
e implícita. Por un lado, la expansión explícita consiste en agregar términos al
documento con la esperanza de reducir la falta de correspondencia de términos entre
las consultas y las descripciones de los servicios. Más específicamente, se explorarán
técnicas de extracción de información para derivar relaciones y definiciones no directas
de las entidades nombradas en las descripciones de servicio. Por otro lado, la expansión
implícita se enfoca en agregar conocimiento a las descripciones del servicio sin
agregar explícitamente los términos. Como las descripciones de los servicios web están
compuestas por palabras, este trabajo propone aprovechar las características de las
palabras mediante el uso deWord Embeddings para crear vectores de descripciones más
precisos y semánticos. Esto tiene como objetivo categorizar y cuantificar las palabras
para que las relaciones semánticas se puedan poner en primer plano.
Para validar todos los enfoques presentados en esta tesis, utilizamos 29 consultas creadas manualmente y dos versiones de Mashape.com que contienen 1274 y 2344 servicios respectivamente. |
publisher |
Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas |
publishDate |
2018 |
url |
https://www.ridaa.unicen.edu.ar/xmlui/handle/123456789/2085 |
work_keys_str_mv |
AT lizarraldeignacio tecnicasdeaprendizajedecaracteristicasyextracciondeinformacionparamejorareldescubrimientodeserviciosrestful |
first_indexed |
2022-07-04T14:35:17Z |
last_indexed |
2022-07-04T14:35:17Z |
_version_ |
1737433093381292032 |
spelling |
I21-R190-123456789-20852021-04-15T16:30:50Z Técnicas de aprendizaje de características y extracción de información para mejorar el descubrimiento de servicios RESTful Lizarralde, Ignacio Zunino, Alejandro Diaz, Cristian Mateos Servicios orientados a SOAP y REST WordNet Word Embeddings Vectores de descripciones Mashape Computación orientada a servicios SOC Ciencias de la computación Técnicas de Procesamiento de Lenguaje Natural PNL Software Computación orientada a servicios (SOC) es un paradigma informático que promueve la reutilización del software al hacer que los componentes estén disponibles y sean accesibles a través de Internet. Por lo tanto, las aplicaciones se crean utilizando componentes básicos llamados servicios, lo que disminuye los costos y el mantenimiento en el proceso de desarrollo de las aplicaciones del lado del cliente. Los servicios web, la materialización más común de SOC, especifican las interfaces (también conocidas como descripciones de servicios web) que describen los parámetros, la funcionalidad y los protocolos para consumir estos servicios. Los proveedores de servicios crean y publican descripciones de servicios web para que sus servicios estén disponibles, para lo cual deben ser descubiertos. Además, como las descripciones semánticas deben ser anotadas (es decir, tipos de datos, operaciones, mensajes, etc.) con conceptos semánticos de ontologías, que a su vez se ha reconocido como una tarea bastante difícil [Corbellini et al., 2017], los investigadores se han concentrado en los llamados enfoques sintácticos para el descubrimiento de servicios. De esta manera, los trabajos anteriores han abordado el descubrimiento de servicios basados en el marcado para los servicios orientados a SOAP [Wu, 2012, Crasso et al., 2011b] y REST [Rodriguez et al., 2015b, Lizarralde et al., 2017]. La mayoría de los enfoques de descubrimiento sintácticos aprovechan las técnicas tradicionales de recuperación de información (IR) para hacer coincidir las consultas basadas en palabras clave con una colección almacenada de descripciones (documentos) de servicios web basados en marcado, que potencialmente contienen dichas palabras clave. Cuando la consulta de un usuario contiene varias palabras clave específicas del tema que se aproximan al servicio necesario, es probable que el registro del servicio web devuelva coincidencias correctas. Sin embargo, los usuarios a menudo introducen oraciones ambiguas y cortas en lenguaje natural. Esto dificulta la recuperación de documentos relevantes porque solo se consideran las palabras dentro de la consulta para la búsqueda, lo que lleva a la falta de coincidencia de términos. Este problema se conoce como el problema del vocabulario [Furnas et al., 1987]. Se han realizado varios esfuerzos en la comunidad de IR para hacer frente al problema del vocabulario más allá del descubrimiento de servicios web. Por un lado, las técnicas de expansión orientadas a la consulta intentan resolver este problema agregando términos que no están incluidos inicialmente en una consulta y se pueden derivar de los otros términos contenidos en esta (por ejemplo, sinónimos). Las técnicas de expansión orientadas a documentos, por otro lado, operan sobre la misma base, pero en su lugar utilizan documentos como fuente. Si bien la operación en un documento puede generar ruido, ya que la cantidad de términos para expandirse es mayor, también allana el camino para nuevas técnicas de PNL (Procesamiento de Lenguaje Natural) conscientes del contexto que pueden llevar a expandir indirectamente el documento al enriquecer el contenido original con información subyacente. semántica [Mikolov et al., 2013, Pennington et al., 2014]. Tradicionalmente, la expansión de consultas se ha realizado utilizando diferentes cuerpos, más comúnmente WordNet, que es una estrategia muy común para mejorar el descubrimiento de documentos [Vechtomova and Karamuftuoglu, 2007, Carpineto and Romano, 2012]. Esta tesis plantea abordar el problema del vocabulario aprovechando la información contenida en las descripciones de servicios web. En particular, esta tesis propone dos enfoques principales para mejorar el descubrimiento del servicio: la expansión explícita e implícita. Por un lado, la expansión explícita consiste en agregar términos al documento con la esperanza de reducir la falta de correspondencia de términos entre las consultas y las descripciones de los servicios. Más específicamente, se explorarán técnicas de extracción de información para derivar relaciones y definiciones no directas de las entidades nombradas en las descripciones de servicio. Por otro lado, la expansión implícita se enfoca en agregar conocimiento a las descripciones del servicio sin agregar explícitamente los términos. Como las descripciones de los servicios web están compuestas por palabras, este trabajo propone aprovechar las características de las palabras mediante el uso deWord Embeddings para crear vectores de descripciones más precisos y semánticos. Esto tiene como objetivo categorizar y cuantificar las palabras para que las relaciones semánticas se puedan poner en primer plano. Para validar todos los enfoques presentados en esta tesis, utilizamos 29 consultas creadas manualmente y dos versiones de Mashape.com que contienen 1274 y 2344 servicios respectivamente. Fil: Lizarralde, Ignacio. Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas; Argentina. Fil: Zunino, Alejandro. Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas; Argentina. Fil: Mateos Diaz, Cristian. Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas; Argentina. 2018-07 2019-08-16T13:41:22Z 2019-08-16T13:41:22Z info:ar-repo/semantics/tesis doctoral info:eu-repo/semantics/doctoralThesis info:eu-repo/semantics/acceptedVersion https://www.ridaa.unicen.edu.ar/xmlui/handle/123456789/2085 spa http://creativecommons.org/licenses/by/2.5/ar/ info:eu-repo/semantics/openAccess application/pdf application/pdf Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas |