Minería Web y XML

Deiber Mora
Olger Pérez
Ignacio Valerio
Agenda
Vídeo Introductorio
Presentación
Vídeo Resumen
Preguntas
Actividad

Video Introductorio
¿Que es minería web?
Es la aplicación de técnicas de minería de datos para descubrir los patrones de la Web.

Extrae información tanto del contenido de las páginas, de su estructura de relaciones (enlaces) y de los registro de navegación de los usuarios.
Particularidades
- Poca Estructura
- Volúmenes de datos muy altos
- Relacionados mediante links
- Formatos muy variados
- Mezcla de datos

Buenas Practicas
1. Selección de Datos
3. Transformación de los datos
2. Limpieza de Datos
4. Razonamiento




Campos de Aplicación




Tipos de Minería WEB

Minería de contenido de la web
La minería web de contenido se utiliza para obtener datos acerca de la forma de escribir que es más atractiva para el usuario, de si la catalogación que usamos sirve para mejorar un ranking, si los temas que se tratan interesan o no.

Minería de la estructura de la WEB
Consiste en estudiar cómo están situados los enlaces dentro de la web para generar un informe estructural sobre la página y el sitio web

Minería de uso de navegación en la WEB
Consiste en extraer información de los usuarios por medio de patrones de navegación, tales como pautas de conductas a la hora de utilizar alguna página web.




Resumen
Tecnicas Empleadas en la Minería WEB
Agrupamiento y Clasificacion

Reglas de asociación.

Secuencias Frencuentes

Ventajas
-
Esta tecnología ha permitido que muchas empresas utilicen el comercio electrónico para hacer marketing personalizado.
-
Las agencias gubernamentales utilizan esta tecnología para clasificar las amenazas y la lucha contra el terrorismo.
-
Las compañías pueden brindar una mejor atención al cliente, dándoles exactamente lo que necesitan.



Desventajas
-
En sí misma ésta tecnología no crea problemas, pero cuando los datos es utilizada de carácter personal puede causar problemas. El punto más criticado sobre el uso de Web Mining es la invasión de la privacidad.

XML

¿Que es XML?
XML, siglas en inglés de eXtensible Markup Language ('lenguaje de marcas extensible'), utilizado para almacenar datos en forma legible y permite definir la gramática de lenguajes específicos para estructurar documentos grandes.

Usos
XML no ha nacido sólo para su aplicación para Internet, sino que se propone como un estándar para el intercambio de información estructurada entre diferentes plataformas. Se puede usar en:
- Bases de datos.
- Editores de texto.
- Hojas de cálculo.
- Casi cualquier cosa imaginable.


Caracteristicas
- Es una arquitectura más abierta y extensible.
- Mayor consistencia, homogeneidad y amplitud de los identificadores descriptivos del documento con XML
- Integración de los datos de las fuentes más dispares.
- Datos compuestos de múltiples aplicaciones
- Gestión y manipulación de los datos desde el propio cliente web.

Ventajas
- Es extensible.
- El analizador es un componente estándar.
- Si un tercero decide usar un documento creado en XML, es sencillo entender su estructura y procesarla.
- Transformamos datos en información.

Desventajas
- La posibilidad de construir sistemas acordes a nuestras necesidades para el intercambio de datos podría llevarnos a la proliferación de versiones incompatibles y si esto llegase a suceder, entonces la solución que plantea el XML ante la búsqueda de intercambio universal de información, lo llevaría a su opuesto; en vez de unificar todo un lenguaje, nos encontraríamos con lenguajes muy específicos y cada vez más alejados de la “universalidad”.

Estructura
<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE Edit_Mensaje SYSTEM "Edit_Mensaje.dtd">
<Edit_Mensaje>
<Mensaje>
<Remitente>
<Nombre>Nombre del remitente</Nombre>
<Mail> Correo del remitente </Mail>
</Remitente>
<Destinatario>
<Nombre>Nombre del destinatario</Nombre>
<Mail>Correo del destinatario</Mail>
</Destinatario>
<Texto>
<Asunto>
Este es mi documento con una estructura muy sencilla
no contiene atributos ni entidades...
</Asunto>
<Parrafo>
Este es mi documento con una estructura muy sencilla
no contiene atributos ni entidades...
</Parrafo>
</Texto>
</Mensaje>
</Edit_Mensaje>
XML en la Minería
En la actualidad existen muchos sitios web que están construidas con HTML, y eso hace sea dificil minería web de forma efectiva, real y precisa. La aparición de XML ha traído comodidad para él. ya que XML se utiliza para transformar datos semiestructuradas a datos bien estructurados, y un modelo de sistema de minería web que tiene
la función de minería de datos básicos y se
enfrenta a múltiples datos sobre la base de
la Web


Video Resumen
¿Preguntas?

Actividad

Muchas Gracias..
Web Mining and XML
By Olger Pérez Villalobos
Web Mining and XML
- 735