Herramientas para la gestión de datos sobre internet

7ma JoInEA - Septiembre de 2015

Equipo de trabajo: H. Kuna, E. Martini, A. Canteros, A. Cantero, A. Rambo, C. Biale, N. Corrales, E. Zamudio, M. Rey

Programa de Investigación en Computación

FCEQyN - UNaM

Situación actual [2015]

Además se definieron los componentes principales para su funcionamiento:

Se generó un meta-buscador para la búsqueda de documentos científicos en el área de Ciencias de la Computación.

  • Módulo de gestión de consultas > Expansión de consultas a través de ontologías de dominio específico
  • Módulo de gestión de búsquedas > Búsqueda de resultados en Google Scholar, IEEE, ACM (...)
  • Módulo de gestión de resultados > Algoritmo de ranking para evaluación de documentos científicos

Arquitecura del meta-buscador

Inconvenientes del desarrollo

  • Dificultad para acceder a datos para el algoritmo de ranking
  • Constante actualización de las páginas (HTML) de los motores de búsqueda para artículos científicos
  • Enfoque centrado en documentos, limitando el alcance de las búsquedas y la información presentada
  • Falta de métodos de actualización constante para los valores de las métricas del algoritmo de ranking
  • Imposibilidad de contar con cálculos propios de métricas

Un problema común a todos los inconvenientes > acceso a datos ad-hoc y por fuerza bruta

Solución (?)

[re]evolucionar el meta-buscador

Alternativas:

  • Dejar de buscar sólo documentos, tener un enfoque más general. Resolver la consulta con datos de TODAS las dimensiones = [documentoss + autores + fuentes de publicaciones]
  • Relacionar todos estos datos, para que el algoritmo de ranking sea más global y que los resultados sean más relevantes

Cómo llegar a la solución?

  • Acceder, recuperar y guardar más datos, tanto en las búsquedas como para el cálculo del algoritmo de ranking.
  • Generar perfiles para cada elemento de información a analizar >> documentos + autores + fuentes de publicación + métricas
  • Documentos: citas - estadísticas de uso/impacto
  • Autores: publicaciones históricas - relaciones de co-autoría - áreas de trabajo - índices H / G [+]
  • Fuentes de Publicación: publicaciones históricas - autores históricos - categorías - áreas temáticas
  • Métricas: valores - fuentes [+] - variantes

Dónde están los datos?

[Big Data]

Cómo empezar a generar a la solución?

Optimizar la recuperación de datos

ad-hoc >> un proceso unificado, componentes generalizables trabajando en conjunto

fuerza bruta >> acceso indirecto, automatizado, prolijo, adaptable

Una herramienta, una posible solución:

import.io

Características:

  • Extracción de datos de sitios web sin plugins, sin programar, entrenando un conjunto de componentes desde una UI simple
  • Capacidad para obtener datos desde listados de resultados (conector) y resúmenes de datos (extractor)
  • Capacidad para agregar contenido semántico a los datos extraídos, dar un significado
  • Generación de APIs para el uso de los componentes desarrollados desde otras soluciones [como nuestro meta-buscador]

Ejemplos en vivo

Arquitectura posible:

Trabajos futuros:

  • Definir formalmente la nueva arquitectura del meta-buscador
  • Definir desde dónde y qué datos se van a extraer y cómo se van a almacenar y relacionar
  • Generar los elementos desde import.io para hacer las extracciones + evaluar los límites
  • Refactorizar / Desarrollar los componentes que sean necesarios en el meta-buscador
  • Resolver los nuevos problemas que se van a generar, por ejemplo: desambiguación en todo sentido, nuevos métodos para evaluación de impacto / relevancia, nuevos métodos para expandir consultas, etc...

Muchas gracias!

Preguntas?

Programa de Investigación en Computación

FCEQyN - UNaM

presentacion-JoInEA2015

By Martin Rey

presentacion-JoInEA2015

Herramientas para la gestión de datos sobre internet JoInEA 2015 PIC-FCEQyN-UNaM

  • 347