Minería Web y XML

Deiber Mora

Olger Pérez

Ignacio Valerio

Agenda

Vídeo Introductorio

Presentación

Vídeo Resumen

Preguntas

Actividad

Video Introductorio

¿Que es minería web?

 Es la aplicación de técnicas de minería de datos para descubrir los patrones de la Web

Extrae información tanto del contenido de las páginas, de su estructura de relaciones (enlaces) y de los registro de navegación de los usuarios.

Particularidades

  • Poca Estructura
  • Volúmenes de datos muy altos
  • Relacionados mediante links
  • Formatos muy variados
  • Mezcla de datos

Buenas Practicas

1. Selección de Datos

3. Transformación de los datos

2. Limpieza de Datos

4. Razonamiento

Campos de Aplicación

Tipos de Minería WEB

Minería de contenido de la web

La minería web de contenido se utiliza para obtener datos acerca de la forma de escribir que es más atractiva para el usuario, de si la catalogación que usamos sirve para mejorar un ranking, si los temas que se tratan interesan o no.

Minería de la estructura de la WEB

Consiste en estudiar cómo están situados los enlaces dentro de la web para generar un informe estructural sobre la página y el sitio web

Minería de uso de navegación en la WEB

Consiste en extraer información de los usuarios por medio de patrones de navegación, tales como pautas de conductas a la hora de utilizar alguna página web.

Resumen

Tecnicas Empleadas en la Minería WEB

Agrupamiento y Clasificacion

Reglas de asociación.

Secuencias Frencuentes

Ventajas

  • Esta tecnología ha permitido que muchas empresas utilicen el comercio electrónico para hacer marketing personalizado.

  • Las agencias gubernamentales utilizan esta tecnología para clasificar las amenazas y la lucha contra el terrorismo.

  • Las compañías pueden brindar una mejor atención al cliente, dándoles exactamente lo que necesitan.

Desventajas

  • En sí misma ésta tecnología no crea problemas, pero cuando los datos es utilizada de carácter personal puede causar problemas. El punto más criticado sobre el uso de Web Mining es la invasión de la privacidad.

XML

¿Que es XML?

XML, siglas en inglés de eXtensible Markup Language ('lenguaje de marcas extensible'), utilizado para almacenar datos en forma legible y permite definir la gramática de lenguajes específicos para estructurar documentos grandes.

Usos

XML no ha nacido sólo para su aplicación para Internet, sino que se propone como un estándar para el intercambio de información estructurada entre diferentes plataformas. Se puede usar en:

  • Bases de datos.
  • Editores de texto.
  • Hojas de cálculo.  
  • Casi cualquier cosa imaginable.

Caracteristicas

  • Es una arquitectura más abierta y extensible. 
  • Mayor consistencia, homogeneidad y amplitud de los identificadores descriptivos del documento con XML 
  • Integración de los datos de las fuentes más dispares.
  • Datos compuestos de múltiples aplicaciones
  • Gestión y manipulación de los datos desde el propio cliente web.

Ventajas

  • Es extensible.
  • El analizador es un componente estándar.
  • Si un tercero decide usar un documento creado en XML, es sencillo entender su estructura y procesarla.
  • Transformamos datos en información.

Desventajas

  • La posibilidad de construir sistemas acordes a nuestras necesidades para el intercambio de datos podría llevarnos a la proliferación de versiones incompatibles y si esto llegase a suceder, entonces la solución que plantea el XML ante la búsqueda de intercambio universal de información, lo llevaría a su opuesto; en vez de unificar todo un lenguaje, nos encontraríamos con lenguajes muy específicos y cada vez más alejados de la “universalidad”.

Estructura

<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE Edit_Mensaje SYSTEM "Edit_Mensaje.dtd">

<Edit_Mensaje>
     <Mensaje>
          <Remitente>
               <Nombre>Nombre del remitente</Nombre>
               <Mail> Correo del remitente </Mail>
          </Remitente>
          <Destinatario>
               <Nombre>Nombre del destinatario</Nombre>
               <Mail>Correo del destinatario</Mail>
          </Destinatario>
          <Texto>
               <Asunto>
                    Este es mi documento con una estructura muy sencilla 
                    no contiene atributos ni entidades...
               </Asunto>
               <Parrafo>
                    Este es mi documento con una estructura muy sencilla 
                    no contiene atributos ni entidades...
               </Parrafo>
          </Texto>
     </Mensaje>
</Edit_Mensaje>

XML en la Minería

En la actualidad existen muchos sitios web que están construidas con HTML, y eso hace sea dificil minería web de forma efectiva, real y precisa. La aparición de XML ha traído comodidad para él. ya que XML se utiliza para transformar datos semiestructuradas a datos bien estructurados, y un modelo de sistema de minería web que tiene

la función de minería de datos básicos y se

enfrenta a múltiples datos sobre la base de

la Web

Video Resumen

¿Preguntas?

Actividad

Muchas Gracias..

Web Mining and XML

By Olger Pérez Villalobos

Web Mining and XML

  • 735