Avantages d’une datastack moderne dans une entreprise data-driven
Alors que l’abondance de données est devenue comme un acquis pour toutes les entreprises, la gestion de cette donnée revient au cœur des enjeux. On entend de plus en plus parler de la vision “Data Centric” qu’une entreprise doit avoir et les organisations doivent trouver des solutions pour gérer une quantité de données de plus en plus importante et qui pourrait profiter à de plus en plus de cas d’usage.
C’est dans ce contexte que chaque acteur doit mener à bien un projet de standardisation des manipulations de données et de son traitement que l’on appelle DataStack.
Qu’est-ce qu’une Datastack ?
Une Datastack est l’ensemble des outils, technologies et modélisations utilisés par une entreprise pour collecter, traiter, contrôler, analyser et partager ses données. Elle permet aux organisations de transformer les données non agrégées et brutes en des données exploitables pour la prise de décision métiers.
Si l’on prend un cas concret :
Une entreprise pourrait collecter des informations sur les habitudes d’achat des usagers d’un site e-commerce. Ces données brutes sont donc collectées dans une base de données et n’ont que très peu d’utilité sans un véritable contexte. Un outil, des méthodologies et des modélisations permettent d’extraire les données de cette base, de les convertir en données exploitables et utilisables et transposer cette information dans une nouvelle base structurée. Cette donnée peut ensuite être récupérée pour des analyses et une prise de décision purement métiers qui permettraient d’améliorer l’expérience utilisateur pour un meilleur taux de conversion.
Cette datastack peut donc comprendre de multiples outils et modélisations qui ont chacun un rôle différent et qui permettent une action bien précise.
Evolution des datastacks
Les datastacks originelles
Historiquement, les datastacks étaient silotées en termes d’utilisation. Chaque équipe ou département projet utilisait une approche différente afin de convertir les données et les rendre exploitables à un seul et unique usage. Chaque équipe ayant un outil et des méthodes différentes, il était souvent très difficile de faire partager les informations et la rétention d’information pouvait être prépondérante dans une organisation. Le développement des datastack était donc géré en fonction de son utilisation, de son cas d’usage et donc créé au niveau micro d’une entreprise.
Ce silotage permet une meilleure flexibilité au niveau micro-organisationnel mais empêche une entreprise d’avoir une vue d’ensemble et d’ainsi pouvoir faire des liens connexes entre deux données qui pourraient permettre une meilleure prise de décision.
Enfin, ces datastacks étaient souvent “On-premise” et avaient de forts coûts de maintenance tout en ne permettant que très peu de flexibilité quant à des améliorations macro-organisationnelles et des évolutions futures. Face à un monde de la data en perpétuelle évolution, avoir une infrastructure très difficilement modulable devient un véritable fardeau pour une entreprise.
En résumé, les anciennes datastacks proposaient un trop grand nombre d’outils différents et disparates qui empêchaient une vue d’ensemble et un accès simple aux données essentielles pour analyse.
On comprend donc l’importance d’une datastack bien organisée, homogène et standardisée qui faciliterait l’accès à des données clés directement exploitables par les métiers et les décisionnaires des différentes branches d’une entreprise.
Qu’est-ce qui définit une datastack moderne ?
Réconciliation des données
Le premier point majeur de la datastack moderne consiste à rassembler, homogénéiser et rendre les données cohérentes entre elles. On appelle ça la réconciliation des données.
Alors que dans les anciens modèles de datastack la phase de mise en qualité de la donnée était indépendante pour chaque système et chaque usage, avoir une uniformisation des outils, des processus de conception et de développement permet de réduire le nombre d’actions de mise en qualité, et donc d’erreurs humaines. Cette réconciliation d’un point de vue macro-organisationnel est donc un point essentiel de la datastack moderne.
Consolidation des outils, centralisation
En faisant appel à un outil qui centralise la donnée, une entreprise uniformise ses processus et bénéficie d’une architecture unifiée. Là où les anciens modèles de datastack récupéraient les données et les traitaient à leur façon, certains outils appelés Data Platforms offrent des modules qui peuvent englober tous les processus, de la donnée brute jusqu’à l’analyse. N’avoir que très peu d’outils centralisateurs facilite les usages en créant un véritable hub de données.
Dans ce sens, il est important de se poser les bonnes questions en matière de besoins purement métiers. A quoi va servir la donnée au bout du processus ? En répondant à ces questions, une architecture centralisée favorise les processus qui deviennent uniformes mais aussi l’utilisation finale de la donnée.
En outre, si le nombre de processus différents est réduit, l’erreur humaine en est aussi drastiquement réduite et la compatibilité entre données de plusieurs équipes est alignée.
Si chaque donnée entre et ressort du même silo, il est plus facile pour tous les utilisateurs d’avoir confiance en la Data Source.
Enfin, centraliser sa stack sur très peu d’outils réduit les risques liés à la sécurité. Des outils de sécurité sont intégrés aux Data Platforms existantes et permettent d'être à jour là où les entreprises devaient être à jour sur une multitude de systèmes qui ne suivaient pas forcément les normes. Dans le cadre de réglementations comme le RGPD, les platforms facilitent ces contraintes et incluent les pré-requis directement dans leurs modules. De plus, les questions de droits d’accès à une donnée spécifique sont plus faciles à gérer avec un seul et unique outil centralisé.
Pourquoi changer de datastack ?
Comme dit plus haut, les anciennes datastacks empêchent un bon fonctionnement de la prise de décision et un changement pourrait ainsi permettre d'accroître l’efficacité d’une entreprise sous 3 points : économique, technologique et organisationnel.
D’un point de vue purement économique, le stockage et le traitement de données n’a jamais été aussi peu cher. Alors qu’un silotage des données pouvait se comprendre par le manque de moyens et d’outils à disposition pour améliorer l’efficacité des processus, l’évolution du coût d’exploitation de la donnée permet aux entreprises d’aller plus loin dans son développement. En adoptant une solution cloud plutôt qu’on-premise, on fait chuter les coûts de maintenance et l’on gagne en flexibilité.
L’autre intérêt d’un changement de datastacks est technologique. Dans une organisation où chaque équipe a sa propre utilisation, ses propres processus et sa propre analyse, la connaissance devient trop disparate. Ces utilisations ad hoc mettent en avant des profils capés qui peuvent détenir des informations et empêchent une communication simple entre les équipes. Dans le cas du recrutement, une entreprise aura beaucoup plus de mal à recruter des high profiles si ceux-ci ne connaissent pas les technologies utilisées.
Il est donc important pour une entreprise de se mettre à la page et de proposer une stack attractive pour les candidats afin de garder une équipe compétente.
Enfin, d’un point de vue organisationnel, il devient presque indispensable pour une entreprise de réfléchir de manière Data Centric. La donnée doit être au centre des réflexions et accessible à tous les postes d’une organisation.
L’accessibilité donne aussi lieu à de nouvelles opportunités : en croisant ses données qui sont désormais accessibles au même endroit, une organisation peut trouver de nouveaux cas d’usages qui pourraient être exploités via la Data Science.
En définitive, passer à une Datastack moderne permet de réduire les coûts de maintenance et d’infrastructure, de garder une expertise précise au sein de son entreprise tout en évitant d’avoir des skills trop précis et permet d’avoir une vision data centric avec une meilleure gestion de la donnée depuis la donnée brute jusqu’à l’analyse qui peut directement se faire par les métiers.
Il est cependant important de noter que ces chantiers peuvent être denses, il est donc essentiel d’identifier les bons interlocuteurs qui pourraient sponsoriser un tel projet dans leurs équipes.
En résumé
L’évolution des datastacks découle directement d’anciennes datastacks trop souvent complexes, silotées et dont les coûts de maintenance étaient trop élevés.
Passer à une datastack uniformisée facilite les liens intra-organisationnels et fait découvrir de nouveaux usages plus transverses de la donnée. Ces outils et modélisations permettent donc à l’entreprise d'être plus data centric avec un accès plus facile à la donnée pour les décisionnaires et les métiers.
Un grand merci à nos experts Anthony minisini, Julien Berthaud qui ont contribuer a cette article.
Le sujet vous intéresse ? Nos experts vous répondent
Avec la création d’un pôle spécialisé en Data/IA, mc2i se positionne comme un partenaire de confiance en Data Transfo au service de la démocratisation de la donnée et d’un usage responsable.