Meta-Buscador para Ciencias de la Computación
Estado a septiembre/2016
Objetivo
El proyecto fue pensado para generar un SRI (un meta-buscador) para la recuperación de documentos científicos del área de Ciencias de la Computación. Incorporando técnicas o soluciones que permitan optimizar la recuperación y obtener resultados de mayor relevancia.
Componentes desarrollados
[2013 - 2014]
- Recuperación de datos de diversas fuentes (Artículos - Google Scholar, ACM DL, IEEE Xplore DL)
- Módulo para expansión de consultas (Ontología de IA)
- Evaluación de resultados en base a métricas del ambiente (Algoritmo de ranking)
Arquitectura del SRI
Expansión de Consultas
- Objetivo: integrar términos relacionados con la consulta generando expansiones de la misma que permitan focalizar la búsqueda para obtener mejores resultados.

- Resultados:
- Se generó una onología de dominio para el área de Inteligencia Artificial [spa]
- Se generó un método que usa la ontología para generar las expansiones de la consulta del usuario
- Se integró el método al SRI
Trabajo pendiente
- Integrar reconocimiento de idioma para búsquedas en inglés + castellano. Cambiando según la fuente a consultar.
- Incorporar métodos de procesamiento del lenguaje para mejorar la precisión del método.
- Evaluar el desarrollo de otras ontologías u otros métodos de expansión de consultas.
Recuperación de Documentos
- Objetivo: recuperar datos de artículos [+autores + fuentes de publicación] desde diferentes fuentes.
- Resultados:
- Fuentes actuales: Google Scholar, ACM DL, Microsoft Academic Search
- Se dispone de un middleware (no propio) para la recuperación.
- Se unificó la estructura de los datos a recuperar.


Trabajo pendiente
- Desarrollar procesos de ETL para los datos correspondientes a autores y fuentes de publicación [en proceso]
- Integrar otras fuentes de datos [ej: dblp, aminer, IEEE, etc.]
- Definir el método de persistencia a emplear [NoSQL "puro" - MongoDB / PostgreSQL + JSON]
Algoritmo de Ranking
- Objetivo: disponer de un método para ordenar los resultados obtenidos en base a la relevancia que puedan tener para el usuario. En este caso, utilizando métricas de impacto de cada publicación científica.

- Resultados:
- Modelo conceptual desarrollado.
- Implementación parcial del método de aplicación del algoritmo.
- Relevamiento [inicial] de métricas a emplear.
- Versiones 1 y 2.
Trabajo pendiente
- Completar la definición de cómo se integrarían las métricas en los objetos almacenados en la BD para su utilización en el algoritmo [ej: junto con el autor / particular a una fuente]
- Definir métodos que se puedan integrar al algoritmo para mejorar los resultados a presentar al usuario [*]
- Definir nuevamente al algoritmo, interpretando de otras maneras los datos [ej: agregando campos de especialidad de un autor / fuente de publicación y relacionarlo con la consulta]
Ideas para seguir
- Perfiles de usuario para orientar búsquedas [~historial]
- [*] Adaptación del listado de resultados en base a la selección del área temática que hace el usuario, filtrando los que más relación tengan con la misma usando técnicas de topic modeling.
- Generar soluciones para aprovechar los datos almacenados:
- Vista previa de resultados
- Expansión de consultas
Programa de Investigación en Computación
2016
Avances Meta-buscador - Septiembre 2016
By Martin Rey
Avances Meta-buscador - Septiembre 2016
Avances Meta-buscador - Septiembre 2016
- 336