Análisis de métodos de construcción de data warehouse.
Con la aplicación a gran escala de diferentes sistemas de información de gestión (MIS) en diferentes departamentos de las empresas y los nuevos requisitos de las empresas para la gestión de datos, no solo el procesamiento tradicional de transacciones en línea Se requiere, pero también Cada vez más aplicaciones requieren el uso de estos recursos de información dispersos, inconsistentes y desordenados basados en los ricos recursos de información acumulados por la empresa y obtenidos de empresas externas, es decir, más participación en el análisis de datos y el apoyo a las decisiones, por lo que la aparición de una especie de análisis de datos y apoyo a las decisiones.
1. ¿Qué es un almacén de datos?
Un almacén de datos es una recopilación de datos estable, integrada, caracterizada en el tiempo y orientada a temas que se utiliza para respaldar el proceso de toma de decisiones en la empresa. gestión. Los almacenes de datos brindan a los usuarios datos actuales e históricos para respaldar las decisiones que son difíciles o imposibles de obtener en las bases de datos operativas tradicionales.
Orientado a temas significa que los datos en el almacén de datos están organizados según ciertas áreas temáticas. Un tema es un concepto abstracto que hace referencia a aspectos clave que interesan a los usuarios a la hora de tomar decisiones utilizando un almacén de datos. Un tema suele ser relevante para más de un sistema de información operativa. La integración se refiere al procesamiento, resumen y clasificación sistemáticos de los datos en el almacén de datos sobre la base de la extracción y limpieza de los datos originales dispersos de la base de datos. Las inconsistencias en los datos de origen deben eliminarse para garantizar que la información en el almacén de datos sea consistente. es información global sobre toda la empresa.
La arquitectura del data warehouse se divide en fuentes de datos, transformaciones de datos, data warehouses, data marts y usuarios. Las fuentes de datos incluyen datos comerciales internos, datos heredados, otros datos del sistema comercial y datos WEB relacionados. La conversión es una parte importante de la construcción del almacén de datos, que implica principalmente la extracción, conversión, carga y otros procesamientos de varias fuentes de datos complejas. Al mismo tiempo, es necesario implementar el seguimiento y monitoreo de la calidad de los datos, así como la extracción y creación de metadatos. El almacén de datos se da cuenta principalmente de la organización, el almacenamiento y la gestión de diversos datos; el data mart es un sistema de almacenamiento de datos diseñado por separado para diferentes empresas, es decir, los desarrolladores personalizan subsistemas de almacenamiento de datos especializados para diferentes grupos de usuarios dentro de la empresa. La parte del usuario, es decir, la parte de la aplicación orientada al usuario, se refiere principalmente a la función de acceso y recuperación del almacén de datos que proporciona a los usuarios acceso al almacén de datos o al centro de datos. Entre ellos, el análisis y los informes brindan a los usuarios un conjunto de herramientas para utilizar los almacenes de datos para ayudarlos a realizar análisis en línea o extracción de datos de almacenes de datos o mercados de datos.
2. Método de construcción del data warehouse
2.1 Método general de construcción del data warehouse. Para la construcción de un almacén de datos general, las empresas implementarán todo el proyecto en etapas y pasos basados en factores integrales en la construcción de todo el sistema. Sobre la base de cada etapa de construcción, pueden incorporar diferentes sistemas comerciales en etapas, establecer gradualmente un sistema de almacenamiento de datos integral y completo adecuado para departamentos y subunidades y obtener retornos de la inversión lo antes posible.
En el proceso de construcción de un almacén de datos, las matemáticas difusas pueden realizar la representación semántica de los datos en el almacén de datos, enriquecer los métodos de procesamiento de datos y mejorar las capacidades de análisis y procesamiento. La construcción de un almacén de datos generalmente adopta el modelo progresivo de establecer primero un mercado de datos y finalmente integrar todos los mercados de datos para formar un almacén de datos mediante el modelado de la capa conceptual, la capa lógica y la capa física, y se determinan los mercados de datos en áreas temáticas relacionadas; y analizado en línea. Los siguientes tipos se utilizan generalmente para construir modelos de almacén de datos:
2.1.1 Modelo en estrella: el modelo en estrella es el método de implementación más comúnmente utilizado para la estructura de diseño del almacén de datos. El almacén de datos forma un sistema integrado para proporcionar a los usuarios objetos de servicios analíticos. El núcleo del modelo es la tabla de hechos y las tablas de dimensiones rodean la tabla de hechos. Las diversas tablas de dimensiones están conectadas por tablas de hechos, y cada tabla de dimensiones está conectada a una tabla de hechos central. [página] 2.1.2 Modelo de galaxia (también llamado modelo de copo de nieve): el modelo de copo de nieve estandariza aún más la tabla de dimensiones del modelo de estrella y estandariza la tabla de dimensiones en el modelo de estrella. Al mismo tiempo, es una extensión del esquema en estrella y cada dimensión puede conectar múltiples tablas de categorías detalladas. En aplicaciones prácticas, las necesidades de los usuarios son diversas y la fuente de datos puede ser múltiples tablas de hechos. Por lo tanto, se puede usar un modelo de galaxia, también llamado constelación de hechos, que se almacena en múltiples tablas de hechos y se relaciona a través de tablas de dimensiones comunes.
2.1.3 Coexistencia de modelos de datos a nivel atómico y modelos de datos a nivel de resumen: adherirse a la coexistencia de modelos de datos a nivel atómico y modelos de datos a nivel de resumen, y perfeccionar los datos a nivel atómico tanto como sea posible. posible.
2.1.4 Establecer clave sustituta: la clave sustituta es un campo en la tabla de dimensiones que no tiene importancia comercial. Es solo un número creado cuando el almacén de datos carga el programa.
2.2 Método de construcción de un almacén de datos espaciales. Con la aplicación generalizada de SIG (Sistema de Información Geográfica) en diversas industrias, el sistema de información de bases de datos espaciales originalmente orientado al procesamiento de transacciones ya no puede satisfacer las necesidades, y el sistema de información ha comenzado a pasar de la gestión al procesamiento de toma de decisiones. El almacén de datos espaciales es un sistema de integración de información espacial propuesto para satisfacer esta nueva demanda. Especialmente en los sistemas de apoyo a la toma de decisiones sobre información geográfica, los sistemas de almacenamiento de datos espaciales son particularmente importantes.
El almacén de datos espaciales tiene las características generales del almacén de datos ordinario, pero también tiene algunas particularidades. Un almacén de datos espaciales no es una simple colección de bases de datos espaciales. En comparación con las bases de datos espaciales, los almacenes de datos espaciales no solo admiten bases de datos, sino que también admiten múltiples fuentes de datos, como archivos de datos, archivos de texto y aplicaciones. Además, los datos del almacén de datos espaciales incluyen datos de tiempo, datos espaciales, datos de atributos y datos heterogéneos. En segundo lugar, el almacén de datos espaciales también incluye reglas y algoritmos de procesamiento de datos. En tercer lugar, los datos en el almacén de datos espaciales son el procesamiento, el procesamiento, la integración y otras transformaciones de los datos originales, que es el valor agregado y la unificación de los datos. La base de datos espacial también introduce el concepto de verticalidad temporal y gestiona los datos en base; a tiempo y puede interceptar datos en diferentes escalas de tiempo, desde el tiempo transitorio hasta el transversal y el total. El almacén de datos espaciales es una estructura de datos que se basa en la dimensión temporal. Puede dividirse en diferentes niveles de granularidad temporal según las diferentes necesidades y utilizarse para diversos análisis de tendencias complejos. Por supuesto, también contiene datos de orientación en la dimensión espacial. Debido a la diferencia entre el almacén de datos espaciales y el almacén de datos ordinario, y al concepto completamente diferente de almacén de datos espaciales, el almacén de datos espaciales ordinario se divide en cuatro módulos funcionales con la siguiente arquitectura, a saber, datos de origen, herramienta de conversión de datos, almacén de datos espaciales y Herramientas de análisis de clientes. Los datos de origen no solo se refieren a esas bases de datos espaciales comunes, sino que también incluyen archivos, páginas web, bases de conocimiento, sistemas heredados y otras fuentes de datos. Las herramientas de transformación de datos tienen las mismas capacidades de extracción y transformación que las transformaciones de datos ordinarias del almacén de datos, pero también incluyen transformaciones espaciales únicas. Los almacenes de datos espaciales organizan y muestran datos de forma tridimensional y multidimensional. Las dimensiones espaciales y temporales más básicas son la base para reflejar los cambios dinámicos en el mundo objetivo. El punto más crítico de la tecnología de almacenamiento de datos espaciales es la organización de las dimensiones temporal y espacial. En la actualidad, el almacén de datos espaciales se ha convertido en un punto importante en la investigación de SIG (sistemas de información geográfica) en el país y en el extranjero, y ha logrado grandes avances. Para integrar la información espacial en el almacén de datos existente de la empresa, sin cambiar significativamente el sistema original, generalmente se utilizan tres modos para construir el almacén de datos espaciales de la empresa: (1) introducir información espacial como una dimensión espacial en el modelo multidimensional (2; ) La información espacial se introduce como tema de investigación; (3) La información espacial se incluye en dimensiones y medidas. Por lo tanto, no resulta práctico calcular y almacenar todas las métricas espaciales. Normalmente, los árboles de índice espacial (como los árboles R) se utilizan para crear jerarquías de agrupación con la granularidad espacial más fina. Como estructura jerárquica de dimensiones espaciales, es necesario construir un árbol de índice espacial para cada dimensión espacial.
3. Conclusión
En resumen, la construcción de un almacén de datos es la clave para la tecnología de almacén de datos, especialmente una tecnología y una solución integrales basadas en la gestión y utilización de datos. Es la aplicación generalizada del almacén de datos espaciales en SIG y se ha convertido en una nueva ronda de punto de crecimiento en el mercado de bases de datos y una parte importante de la próxima generación de sistemas de información.