INSTITUTO TECNOLÓGICO DE MÉRIDA

TEMA:
"Estructura de un Datawarehouse"

CARRERA:
ING. EN SISTEMAS COMPUTACIONALES

PRESENTA:
  •     CARLOS JESÚS  CANTO GONZÁLEZ
  •     SAUDITH MENDOZA CAPITAINE 
  •     MARIO HERNANDEZ JUSTINIANO
  •     FERNANDO MENDOZA GÁLVEZ
  •     luis angel sulu arcique
  •     jose luis villamil barrera
  •     ramírez ruíz


¿Que es Datawarehouse?

En el contexto de la informática, es un almacén de datos; es una colección de datos orientada a un determinado ámbito (empresa,       organización, etc.), integrado, no volátil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza.

¿Porque datawarehouse?

Mayor poder de procesamiento y sofisticación de herramientas

Demanda de mejora del acceso a datos

Necesidad de información para la toma de 
decisiones

Recopilación de información ---> Alto Coste 

datawarehouse el centro de grandes instituciones



¡Si!, porque el datawarehouse provee un ambiente para que las organizaciones hagan un mejor uso de la información que esta siendo administrada por diversas aplicaciones operacionales.



v e n t a j a s




Facilitan el acceso a los datos



Facilitan el funcionamiento de las aplicaciones de los sistemas de apoyo a la decisión tales como informes de tendencia.



Los almacenes de datos pueden trabajar en conjunto y, por lo tanto, aumentar el valor operacional de las aplicaciones empresariales, en especial la gestión de relaciones con clientes.


estructura de un datawarehouse

COMPONENTES DEL DATAWAREHOUSE:

  1. Detalle de datos actuales
  2. Detalle de datos antiguos
  3. Datos ligeramente resumidos
  4. Datos completamente resumidos
  5. Meta data

estructura datawarehouse  

1. DETALLE DE DATOS ACTUALES

En gran parte, el interés más importante radica en el detalle de los datos actuales, debido a que:
  • Refleja las ocurrencias más recientes, las cuales son de gran interés
  • Es voluminoso, ya que se almacena al más bajo nivel de granularidad.
  • Casi siempre se almacena en disco, el cual es de fácil acceso, aunque su administración sea costosa y compleja.


2. detalle de datos antiguos

  • La data antigua es aquella que se almacena sobre alguna forma de almacenamiento masivo. 

  • No es frecuentemente accesada y se almacena a un nivel de detalle, consistente con los datos detallados actuales. 

  • Mientras no sea prioritario el almacenamiento en un medio de almacenaje alterno, a causa del gran volumen de datos unido al acceso no frecuente de los mismos, es poco usual utilizar el disco como medio de almacenamiento.



3. datos ligeramente resumidos

La data ligeramente resumida es aquella que proviene desde un bajo nivel de detalle encontrado al nivel de detalle actual. Este nivel del datawarehouse casi siempre se almacena en disco. 

3. datos ligeramente resumidos

Los puntos en los que se basa el diseñador para construirlo son:


  • Que la unidad de tiempo se encuentre sobre la esquematización hecha.


  • Qué contenidos (atributos) tendrá la data ligeramente resumida.



4. datos completamente resumidos

El siguiente nivel de datos encontrado en el datawarehouse es el de los datos completamente resumidos. Estos datos son compactos y fácilmente accesibles.


5. metadata

El componente final del datawarehouse es el de la metadata. De muchas maneras la metadata se sitúa en una dimensión diferente al de otros datos del datawarehouse, debido a que su contenido no es tomado directamente desde el ambiente operacional.

cubos de INFORMACIÓN


cubos de INFORMACIÓN

Los cubos de información o cubos OLAP en el datawarehouse se trata de organizar los datos por tablas o relaciones.

Ejemplo:
 Funcionan como los cubos de rompecabezas en los juegos (como el rubik cube) solo que en este juego son colores.
 

cubos de INFORMACIÓN

Los cubos OLAP tienen un número indefinido de dimensiones, razón por la cual también reciben el nombre de hipercubos.



cubos de INFORMACIÓN


Un cubo OLAP contendrá datos de una determinada variable que se desea analizar, proporcionando una vista lógica de los datos provistos por el sistema de información hacia el datawarehouse, esta vista estará dispuesta según unas dimensiones y podrá contener información calculada.

cubos de INFORMACIÓN

El análisis de los datos está basado en las dimensiones del hipercubo, por lo tanto, se trata de un análisis multidimensional.




como accedo a la INFORMACIÓN de un cubo

Ejemplo:
  • A la información de un cubo puede acceder el ejecutivo mediante "tablas dinámicas" en una hoja de cálculo o a través de programas personalizados.


Llevando estos conceptos a un datawarehouse, éste es una colección de datos que está formada por dimensiones y variables, entendiendo como dimensiones a aquellos elementos que participan en el análisis y variables a los valores que se desean analizar.


conclusión

Un cubo OLAP  es una base de datos multidimensional, en la cual el almacenamiento físico de los datos se realiza en un vector multidimensional. Los cubos OLAP se pueden considerar como una ampliación de las dos dimensiones de una hoja de cálculo.

datamarts


datamarts

Los Datamarts son subconjuntos de datos de un datawarehouse para áreas específicas. Es decir  es una versión especial de almacén de datos (datawarehouse). Son subconjuntos de datos con el propósito de ayudar a que un área específica dentro del negocio pueda tomar mejores decisiones.

datamarts

Los datos existentes en este contexto pueden ser agrupados, explorados y propagados de múltiples formas para que diversos grupos de usuarios realicen la explotación de los mismos de la forma más conveniente según sus necesidades.


datamarts

Entre las características de un datamart destacan:

  • Usuarios limitados. 
  • Área específica. 
  • Tiene un propósito específico. 
  • Tiene una función de apoyo. 

    conceptos ERRÓNEOS de los datamarts

    Al hablar de los datamarts, es inevitable la comparación con los datawarehouse y al final se acaba diciendo o entendiendo que son como estos, pero en pequeño, y en cierto modo esto es así, pero esta idea suele hacer caer en los siguientes errores sobre la implementación y funcionamiento de los datamarts:


    Son más simples de implementar que un Datawarehouse: 


    FALSO, la implementación es muy similar, ya que debe proporcionar las mismas funcionalidades.


    Son pequeños conjuntos de datos y, en consecuencia, tienen menor necesidad de recursos: 



    FALSO, una aplicación corriendo sobre un datamart necesita los mismos recursos que si corriera sobre un datawarehouse.


    Las consultas son más rápidas, dado el menor volumen de datos: 



    FALSO, el menor volumen de datos se debe a que no se tienen todos los datos de toda la empresa, pero sí se tienen todos los datos de un determinado sector de la empresa, por lo que una consulta sobre dicho sector tarda lo mismo si se hace sobre el data mart que si se hace sobre el data warehouse.


    En algunos casos añade tiempo al proceso de actualización: 


    FALSO, actualizar el datamart desde el datawarehouse cuesta menos ya que los formatos de los datos son o suelen ser idénticos que actualizar el datawarehouse desde sus fuentes de datos primarias, donde es necesario realizar operaciones de transformación.

    dimensiones



    dimensiones

    Las dimensiones de un cubo son atributos relativos a las variables, son las perspectivas de análisis de las variables forman parte de la tabla de dimensiones. Son catálogos de información complementaria necesaria para la presentación de los datos a los usuarios. 

    DIMENSIONES


    Como por ejemplo: descripciones, nombres, zonas, rangos de tiempo, etc. Es decir, la información general complementaria a cada uno de los registros de la tabla de hechos.



    variables


    variables

    También llamadas “indicadores de gestión”, son los datos que están siendo analizados. Forman parte de la tabla de hechos. Más formalmente, las variables representan algún aspecto cuantificable o medible de los objetos o eventos a analizar. 

    variables

     Normalmente, las variables son representadas por valores detallados y numéricos para cada instancia del objeto o evento medido. En forma contraria, las dimensiones son atributos relativos a las variables, y son utilizadas para indexar, ordenar, agrupar o abreviar los valores de las mismas. 

    variables

    Ejemplos de dimensiones:
    •  “productos”
    • “localidades” (o zonas)
    •  “el tiempo” (medido en días, horas, semanas, etc.)

    Ejemplos de dimensiones:

    • Beneficios
    • Gastos
    • Ventas
    • etc.

    estructura de un datawarehouse

    By cardinho

    estructura de un datawarehouse

    • 8,692