%0 Artículo revista %A Lizarralde, Ignacio %I Universidad Nacional del Centro de la Provincia de Buenos Aires. Facultad de Ciencias Exactas %D 2018 %G Español %T Técnicas de aprendizaje de características y extracción de información para mejorar el descubrimiento de servicios RESTful %U https://www.ridaa.unicen.edu.ar/xmlui/handle/123456789/2085 %X Computación orientada a servicios (SOC) es un paradigma informático que promueve la reutilización del software al hacer que los componentes estén disponibles y sean accesibles a través de Internet. Por lo tanto, las aplicaciones se crean utilizando componentes básicos llamados servicios, lo que disminuye los costos y el mantenimiento en el proceso de desarrollo de las aplicaciones del lado del cliente. Los servicios web, la materialización más común de SOC, especifican las interfaces (también conocidas como descripciones de servicios web) que describen los parámetros, la funcionalidad y los protocolos para consumir estos servicios. Los proveedores de servicios crean y publican descripciones de servicios web para que sus servicios estén disponibles, para lo cual deben ser descubiertos. Además, como las descripciones semánticas deben ser anotadas (es decir, tipos de datos, operaciones, mensajes, etc.) con conceptos semánticos de ontologías, que a su vez se ha reconocido como una tarea bastante difícil [Corbellini et al., 2017], los investigadores se han concentrado en los llamados enfoques sintácticos para el descubrimiento de servicios. De esta manera, los trabajos anteriores han abordado el descubrimiento de servicios basados en el marcado para los servicios orientados a SOAP [Wu, 2012, Crasso et al., 2011b] y REST [Rodriguez et al., 2015b, Lizarralde et al., 2017]. La mayoría de los enfoques de descubrimiento sintácticos aprovechan las técnicas tradicionales de recuperación de información (IR) para hacer coincidir las consultas basadas en palabras clave con una colección almacenada de descripciones (documentos) de servicios web basados en marcado, que potencialmente contienen dichas palabras clave. Cuando la consulta de un usuario contiene varias palabras clave específicas del tema que se aproximan al servicio necesario, es probable que el registro del servicio web devuelva coincidencias correctas. Sin embargo, los usuarios a menudo introducen oraciones ambiguas y cortas en lenguaje natural. Esto dificulta la recuperación de documentos relevantes porque solo se consideran las palabras dentro de la consulta para la búsqueda, lo que lleva a la falta de coincidencia de términos. Este problema se conoce como el problema del vocabulario [Furnas et al., 1987]. Se han realizado varios esfuerzos en la comunidad de IR para hacer frente al problema del vocabulario más allá del descubrimiento de servicios web. Por un lado, las técnicas de expansión orientadas a la consulta intentan resolver este problema agregando términos que no están incluidos inicialmente en una consulta y se pueden derivar de los otros términos contenidos en esta (por ejemplo, sinónimos). Las técnicas de expansión orientadas a documentos, por otro lado, operan sobre la misma base, pero en su lugar utilizan documentos como fuente. Si bien la operación en un documento puede generar ruido, ya que la cantidad de términos para expandirse es mayor, también allana el camino para nuevas técnicas de PNL (Procesamiento de Lenguaje Natural) conscientes del contexto que pueden llevar a expandir indirectamente el documento al enriquecer el contenido original con información subyacente. semántica [Mikolov et al., 2013, Pennington et al., 2014]. Tradicionalmente, la expansión de consultas se ha realizado utilizando diferentes cuerpos, más comúnmente WordNet, que es una estrategia muy común para mejorar el descubrimiento de documentos [Vechtomova and Karamuftuoglu, 2007, Carpineto and Romano, 2012]. Esta tesis plantea abordar el problema del vocabulario aprovechando la información contenida en las descripciones de servicios web. En particular, esta tesis propone dos enfoques principales para mejorar el descubrimiento del servicio: la expansión explícita e implícita. Por un lado, la expansión explícita consiste en agregar términos al documento con la esperanza de reducir la falta de correspondencia de términos entre las consultas y las descripciones de los servicios. Más específicamente, se explorarán técnicas de extracción de información para derivar relaciones y definiciones no directas de las entidades nombradas en las descripciones de servicio. Por otro lado, la expansión implícita se enfoca en agregar conocimiento a las descripciones del servicio sin agregar explícitamente los términos. Como las descripciones de los servicios web están compuestas por palabras, este trabajo propone aprovechar las características de las palabras mediante el uso deWord Embeddings para crear vectores de descripciones más precisos y semánticos. Esto tiene como objetivo categorizar y cuantificar las palabras para que las relaciones semánticas se puedan poner en primer plano. Para validar todos los enfoques presentados en esta tesis, utilizamos 29 consultas creadas manualmente y dos versiones de Mashape.com que contienen 1274 y 2344 servicios respectivamente.