Blog Layout

Data Warehouses : Différences entre les approches de Kimball et Inmon

21 février 2024

Comparaison des Méthodologies de Data Warehousing : Les Approches Innovantes de Bill Inmon et Ralph Kimball

Bill Inmon et Ralph Kimball sont des auteurs, des conférenciers et des consultants dans le domaine des bases de données et de l'entreposage de données (data warehousing). Leurs travaux ont fortement influencé la manière dont les entreprises stockent, organisent et analysent les données.


Bill Inmon


Né en 1945, Inmon a obtenu un diplôme en mathématiques de l'Université Yale et un master en informatique de l'Université du Colorado. Au cours de sa carrière, il a travaillé dans différentes entreprises, y compris comme un consultant indépendant. Inmon a écrit le premier livre sur le data warehousing en 1992, intitulé "Building the Data Warehouse", qui a posé les bases de ce domaine. Il a été le premier à définir l'entrepôt de données comme une collection de données orientées sujet, intégrées, non volatiles et historisées, ce qui a aidé les entreprises à comprendre l'importance de cette architecture pour la prise de décision basée sur les données. Il a écrit plus de 50 livres, y compris "Building the Data Warehouse" et "DW 2.0: The Architecture for the Next Generation of Data Warehousing". Ses écrits sont considérés comme des textes de référence dans le domaine.


Ralph Kimball


Kimball a obtenu un doctorat en ingénierie électrique du MIT. Il a travaillé chez Xerox PARC, un centre de recherche réputé, avant de se concentrer sur les bases de données et l'entreposage de données. Il est surtout connu pour son approche pragmatique de la modélisation des données pour les data warehouses, mettant l'accent sur les besoins et les processus métiers. Il a popularisé les concepts de "modèle en étoile" et de "modèle en flocon", qui sont des manières de structurer les données pour optimiser les requêtes et les rapports d'analyse. Parmi ses ouvrages les plus influents, on trouve "The Data Warehouse Toolkit", qui est devenu un manuel standard pour les développeurs de data warehouses, et "The Data Warehouse Lifecycle Toolkit", qui aborde la gestion et la maintenance des entrepôts de données.


Différences entre les approches de Kimball et Inmon


L'approche de Kimball et celle d'Inmon sont deux méthodologies dominantes dans la conception de data warehouses. L'approche de Kimball, centrée sur les processus métiers, préconise la création de modèles dimensionnels souvent appelés "star schema" ou "snowflake schema". Elle est réputée pour sa rapidité de mise en œuvre et sa facilité de compréhension par les utilisateurs finaux. À l'inverse, l'approche d'Inmon privilégie une conception normalisée avec un entrepôt de données centralisé, souvent appelé "top-down". Cette méthode est plus complexe et prend plus de temps à mettre en place, mais elle est considérée comme étant plus flexible et plus scalable.


Star Schema (Schéma en étoile)


Dans un schéma en étoile, la base de données est organisée autour d'une table de faits centrale entourée de tables de dimensions. La table de faits contient les indicateurs de performance ou les métriques quantitatives, tandis que les tables de dimensions contiennent des attributs catégoriels relatifs à ces mesures. Les tables de dimensions sont liées à la table de faits par des clés étrangères.

  • Exemple:
  • Table de faits : Ventes
  • Clé de vente (clé primaire)
  • Clé de produit (clé étrangère)
  • Clé de temps (clé étrangère)
  • Clé de magasin (clé étrangère)
  • Nombre d'unités vendues
  • Revenu total
  • Tables de dimensions :
  • Produit (clé de produit, nom du produit, catégorie, prix unitaire)
  • Temps (clé de temps, jour, mois, année)
  • Magasin (clé de magasin, nom du magasin, emplacement, région)


Snowflake Schema (Schéma en flocon)


Le schéma en flocon est une variante plus normalisée du schéma en étoile, où les tables de dimensions sont elles-mêmes décomposées en structures normalisées. Cela peut réduire la redondance des données et améliorer l'efficience du stockage.

  • Exemple:
  • Table de faits : Ventes (identique au schéma en étoile)
  • Tables de dimensions normalisées :
  • Produit (clé de produit, nom du produit, clé de catégorie)
  • Catégorie de produit (clé de catégorie, nom de la catégorie)
  • Temps (clé de temps, jour, clé de mois)
  • Mois (clé de mois, nom du mois, clé d'année)
  • Année (clé d'année, année)
  • Magasin (clé de magasin, nom du magasin, clé d'emplacement)
  • Emplacement (clé d'emplacement, ville, région)


Dans un schéma en étoile, les requêtes sont généralement plus rapides et plus simples à écrire car elles nécessitent moins de jointures. En revanche, le schéma en flocon peut conduire à des requêtes plus complexes avec plus de jointures mais peut être plus facile à maintenir et peut améliorer les performances pour certaines requêtes grâce à sa normalisation accrue.


Approche top-down de Bill Inmon


L'approche top-down de Bill Inmon pour la conception d'un entrepôt de données commence par la création d'un entrepôt de données centralisé et normalisé, souvent appelé Data Warehouse Corporate Information Factory (CIF). Cette méthode préconise une collecte des données exhaustive et leur intégration avant toute utilisation dans des data marts ou des applications spécifiques. Voici un exemple de la disposition des tables de faits et autres éléments dans une telle architecture


Conception du Datawarehouse Centralisé (CIF)

  • Base de Données Opérationnelles: Collecte des données à partir de systèmes transactionnels (ERP, CRM, etc.).
  • Zone de Transit (Staging Area): Les données sont extraites, nettoyées, transformées et chargées (ETL) dans une zone de transit temporaire.
  • Entrepôt de Données Central (EDW): Les données sont ensuite chargées dans l'entrepôt de données. Ici, elles sont organisées en tables normalisées, ce qui peut inclure plusieurs niveaux de normalisation pour réduire la redondance :
  • Tables de Faits: Elles contiennent les mesures de performance clés de l'entreprise (ex : ventes, transactions).
  • Tables de Dimensions: Elles sont conçues pour maximiser l'intégrité et la cohérence des données (ex : temps, clients, produits). Ces tables peuvent être plus complexes et moins intuitives que les structures en étoile ou en flocon, car elles sont hautement normalisées.


Datamarts Départementaux

Après avoir établi l'entrepôt de données central, des datamarts spécifiques aux départements sont être créés pour répondre aux besoins de reporting et d'analyse de différents groupes d'utilisateurs. Ces data marts sont des sous-ensembles de données issus de l'entrepôt de données central et présentent la donnée de manière agregée


Conclusion


Effectivement, les méthodologies de Kimball et d'Inmon présentent des similitudes jusqu'à la zone de staging, où les données sont extraites, nettoyées et transformées. C'est après cette étape que les chemins des deux méthodes divergent. Dans l'approche d'Inmon, les données passent de la zone de staging à un entrepôt de données centralisé où elles sont organisées de manière normalisée et détaillée. Les datamarts sont ensuite alimentés par cet entrepôt centralisé et les données y sont souvent disposées de manière agrégée pour améliorer la performance des requêtes. Cette agrégation préalable permet de réduire la complexité et le coût des requêtes en limitant le besoin de jointures SQL complexes lors de l'analyse des données. En d'autres termes, Inmon préconise une approche où la complexité est gérée au cœur de l'entrepôt de données, permettant ainsi aux datamarts de fournir des informations rapidement et efficacement aux utilisateurs finaux.

4 mars 2024
Normalisation et Architectures de Données Avancées: Piloter l'Innovation en Business Intelligence
1 mars 2024
Révolutionner la Décision : L'Essor de la Programmation en Nombres Entiers
29 février 2024
Démystifier la Régression Linéaire et Polynomiale : Comprendre les Fondamentaux et Applications
28 février 2024
Régression Logistique en Machine Learning : De la Prédiction Binaire à l'Optimisation des Probabilités
27 février 2024
Révolution Hydropneumatique : Quand la Transformation Digitale Redéfinit Fluides, Pompes et Contrôles
26 février 2024
De l'Anti-Spam à l'IA : Explorer l'Univers de l'Apprentissage Supervisé
23 février 2024
Les Fondements et Applications de la Recherche Opérationnelle : De la Seconde Guerre Mondiale à l'Optimisation Industrielle
20 février 2024
Révolutionner la Gestion d'Entreprise avec SAP S/4HANA : Une Nouvelle Ère de Performance et d'Innovation
19 février 2024
Naviguer dans l'Ère de l'Intelligence des Données : Découvrez Comment l'IA et le Machine Learning Transforment la BI
Plus de posts
Share by: