Virtualiser pour mieux mailler avec la Logical Data Fabric

Le mythe de Dédale appliqué à la data

Faisons un état des lieux : les organisations accumulent les données, et les métiers cherchent à les croiser massivement. Les sources disséminées se multiplient et s’additionnent, assorties d’un historique croissant. Aux ERP, infocentres et systèmes centralisés d’il y a 20 ans se sont ajoutés les datawarehouses et les datamarts. Le big data a créé le concept de volumétrie et avec lui ses datalakes et leur cohorte de nouveaux outils et de variétés de données (XML, JSON, web services, fichiers Excel, etc.). Aujourd’hui l’IA et le machine learning font naître les data platforms destinées à fournir les stacks fondamentaux de volumes de données à leur exploitation.
Toutes ces technologies ont pour point commun de former des silos physiques et imperméables de données, inexploitables entre eux, dépourvus de compatibilité, aux règles de gestion spécifiques et complexes, à la main des services informatiques. Pour contourner cette rigidité inhérente à la conception des solutions, les métiers adoptent des outils tiers de business analytique dont le principal résultat est d’aboutir à une perte vertigineuse de gouvernance de la donnée. Or, sans gouvernance globale, les organisations ne peuvent prétendre atteindre une qualité sémantique suffisante et des règles de gestion accessibles pour une production de la donnée facilitée et fiable. Bref, l’analyse de datas tourne en rond dans un labyrinthe technologique construit presque trop minutieusement, année après année.

Fusionner sans trahir les règles de gestion spécifiques

La grande force du concept de data mesh est de rendre aux métiers l’accès à la donnée où qu’elle se trouve et quelle qu’elle soit, avec les outils qu’ils souhaitent, en leur donnant la capacité d’intervenir dessus sans solliciter les services informatiques. Pour ce faire, il faut donc disposer d’une solution de fusion (dépassant la problématique des silos) qui n’affecte pas les systèmes sous-jacents.
C’est le rôle de la virtualisation des données que propose une Logical Data Fabric, véritable framework logique d’exposition, de manipulation et de modélisation de la donnée. Une sorte de fil d’Ariane en somme, au cœur des systèmes d’entreprise (dont il ne s’agit évidemment pas de se défaire). La virtualisation de la donnée fait sauter une à une les barrières jusqu’ici rencontrées, grâce aux 6 caractéristiques suivantes :
-   Data abstraction : il s’agit de la capacité à organiser les données de manière virtuelle, selon une modélisation logique.
-   Zero replication, zero relocation : indispensable dans tous les modèles très consommateurs de données comme l’IA ou le data quality management dont le design de patterns est basé sur une grande quantité d’informations, le zero replication participe en outre à l’effort de sobriété.
-   Realtime/near realtime : l’absence de réplication, et donc de processus longs, autorise le plugging sur des données en temps réel.
-   Selfservice data : la virtualisation permet de ne pas impacter les données sources. Les métiers peuvent ainsi ajouter des informations dans leurs modèles à la volée, traduire toute modification d’une norme dans une règle de gestion sans changement physique au niveau du datawarehouse, générer des web services, accéder à des bacs à sable, etc., et ceci dans un cadre d’exposition ouvert à toute l’organisation si besoin.
-   Metadatas centralisées, sécurité et gouvernance : la capacité d’exposer les métadonnées autorise une interopérabilité maximale. Les organisations peuvent alors librement définir leurs processus de gestion, leur workflow de validation et leur mise à disposition aux utilisateurs métiers. L’axe sécurité et gouvernance garantit la traçabilité, la définition des rôles, les règles d’anonymisation, le chiffrement, la sécurisation du réseau, etc.
-   L’hybridation vers le cloud : la Logical Data Fabric permet de s’appuyer sur des systèmes tiers tout en répondant à des contraintes spécifiques de confidentialité et de sécurité.

Les confusions courantes

Le concept organisationnel de data mesh a le vent en poupe : sa promesse d’éliminer les traditionnels goulots d’étranglement des stratégies data sans remettre en question les investissements initiaux est séduisante et efficace .
Si l’on s’en tient à la définition de Gartner, une Data Fabric est d’abord une plateforme physique. C’est d’ailleurs ainsi que la conçoivent plusieurs grands éditeurs. Ignorer la virtualisation nous semble pourtant une erreur fondamentale : c’est la capacité de l’organisation à virtualiser la donnée qui ouvre l’accès à l’exploitation, la gestion et la transformation sans limites et surtout sans les contingences liées aux règles de gestion ou de logique applicative propres à un datalake, un ERP ou un datawarehouse.
Dans le même ordre d’idées, il ne faut pas la confondre avec la data fédération. Technologie relativement ancienne, la fédération permet la connexion multi source sans réplication, certes, mais le processing est opéré au niveau de l’outil. Parce que la data virtualisation délègue les opérations aux systèmes sources, les performances, élevées, autorisent tous les cas d’usages et notamment ceux particulièrement gourmands en ressources.

Nous conclurons en rappelant que la Logical Data Fabric est un framework avant tout. Cela signifie qu’elle doit être modulable et extensible, pour répondre à toute problématique technologique rencontrée. C’est le sens et l’objet de la virtualisation : elle permet l’adaptation à de nouveaux process à travers le développement de connecteurs, et supprime les limitations physiques. En d’autres termes, une Logical Data Fabric est l’accélérateur data par excellence.

Si le concept vous intéresse retrouvez notre webinar consacré au sujet du data mesh et disponible en replay dès maintenant ou notre article consacré à la Data Plateforme, le 3ème pilier du Data Mesh.