Meta-Buscador para Ciencias de la Computación

Estado a septiembre/2016

Objetivo

El proyecto fue pensado para generar un SRI (un meta-buscador) para la recuperación de documentos científicos del área de Ciencias de la Computación. Incorporando técnicas o soluciones que permitan optimizar la recuperación y obtener resultados de mayor relevancia.

Componentes desarrollados

[2013 - 2014]

Recuperación de datos de diversas fuentes (Artículos - Google Scholar, ACM DL, IEEE Xplore DL)
Módulo para expansión de consultas (Ontología de IA)
Evaluación de resultados en base a métricas del ambiente (Algoritmo de ranking)

Arquitectura del SRI

Expansión de Consultas

Objetivo: integrar términos relacionados con la consulta generando expansiones de la misma que permitan focalizar la búsqueda para obtener mejores resultados.

Resultados:
- Se generó una onología de dominio para el área de Inteligencia Artificial [spa]
- Se generó un método que usa la ontología para generar las expansiones de la consulta del usuario
- Se integró el método al SRI

Trabajo pendiente

Integrar reconocimiento de idioma para búsquedas en inglés + castellano. Cambiando según la fuente a consultar.
Incorporar métodos de procesamiento del lenguaje para mejorar la precisión del método.
Evaluar el desarrollo de otras ontologías u otros métodos de expansión de consultas.

Recuperación de Documentos

Objetivo: recuperar datos de artículos [+autores + fuentes de publicación] desde diferentes fuentes.

Resultados:
- Fuentes actuales: Google Scholar, ACM DL, Microsoft Academic Search
- Se dispone de un middleware (no propio) para la recuperación.
- Se unificó la estructura de los datos a recuperar.

Trabajo pendiente

Desarrollar procesos de ETL para los datos correspondientes a autores y fuentes de publicación [en proceso]
Integrar otras fuentes de datos [ej: dblp, aminer, IEEE, etc.]
Definir el método de persistencia a emplear [NoSQL "puro" - MongoDB / PostgreSQL + JSON]

Algoritmo de Ranking

Objetivo: disponer de un método para ordenar los resultados obtenidos en base a la relevancia que puedan tener para el usuario. En este caso, utilizando métricas de impacto de cada publicación científica.

Resultados:
- Modelo conceptual desarrollado.
- Implementación parcial del método de aplicación del algoritmo.
- Relevamiento [inicial] de métricas a emplear.
- Versiones 1 y 2.

Trabajo pendiente

Completar la definición de cómo se integrarían las métricas en los objetos almacenados en la BD para su utilización en el algoritmo [ej: junto con el autor / particular a una fuente]
Definir métodos que se puedan integrar al algoritmo para mejorar los resultados a presentar al usuario [*]
Definir nuevamente al algoritmo, interpretando de otras maneras los datos [ej: agregando campos de especialidad de un autor / fuente de publicación y relacionarlo con la consulta]

Ideas para seguir

Perfiles de usuario para orientar búsquedas [~historial]
[*] Adaptación del listado de resultados en base a la selección del área temática que hace el usuario, filtrando los que más relación tengan con la misma usando técnicas de topic modeling.
Generar soluciones para aprovechar los datos almacenados:
- Vista previa de resultados
- Expansión de consultas

Programa de Investigación en Computación

2016

Avances Meta-buscador - Septiembre 2016

By Martin Rey

Avances Meta-buscador - Septiembre 2016

Martin Rey

tinxo

Meta-Buscador para Ciencias de la Computación

Objetivo

Componentes desarrollados

Arquitectura del SRI

Expansión de Consultas

Trabajo pendiente

Recuperación de Documentos

Trabajo pendiente

Algoritmo de Ranking

Trabajo pendiente

Ideas para seguir

Programa de Investigación en Computación

Avances Meta-buscador - Septiembre 2016

More from Martin Rey