Data Analytics : L’enjeu stratégique du 21ème siècle

Publié le

25 novembre 2020

Data & IA

A une époque où les données ne cessent de croître, à raison de dizaines de milliers de Gigabytes par seconde, la prise de décision n’a jamais autant été influencée par la manière dont nous interprétons ces données. L’analyse de données devient donc de plus en plus complexe et représente désormais un enjeu stratégique de premier plan pour de nombreuses entreprises, quel que soit leur secteur d’activité.

« Data Analytics »… Une expression galvaudée à l’ère de l’information, mais dont la signification varie en fonction des contextes, des enjeux et des acteurs qui l’utilisent. Les méthodes d’analyse qui lui sont associées sont nombreuses, leurs objectifs différents et leurs applications infinies. Levons ensemble le voile sur cette brique cruciale dans la valorisation des « Big Data ». Mais concrètement, la Data analytics , qu’est-ce que c’est ?

Données, informations, connaissance

Nous l’utilisons au quotidien, lorsque nous lisons, écoutons, observons. Alors que les données nous submergent, et que la capacité de notre cerveau à les synthétiser est limitée, il nous est nécessaire de les stocker, de les traiter et de les analyser en masse. C’est pourquoi nous recourrons à l’informatique, notamment dans les organisations ayant à gérer de grands volumes de données.

L’analyse de données (« Data Analytics ») correspond à l’interprétation que nous donnons à une réalité perçue partiellement (les « données ») afin d’en extraire du sens (l’ « information »), puis de la cohérence (« connaissance »). Elle regroupe un ensemble de méthodes qui permettent de synthétiser des informations inexploitables a priori par l’esprit humain, du fait de leur nombre ou de leur complexité.

La « donnée » est directement issue d’une mesure. Elle fait référence à la perception particulière d’un fragment de réalité. « La température enregistré à Bangkok le 12 septembre 2007 » ou encore « le nombre de chômeurs enregistrés le mois dernier en France » constituent des « données ». L’ « information », quant à elle, est une donnée ou un ensemble de donnée disposant d’un sens ou à laquelle nous donnons une interprétation. Elle peut être simple (« la température moyenne terrestre a augmenté de 2°C depuis le protocole de Kyoto ») ou complexe (« l’augmentation du nombre de chômeurs le mois dernier en France est due à un ensemble de variation sur l’offre et la demande du marché du travail en fonction du secteur d’activité »). Elle peut être exploitée dans le cadre d’une décision (« Redoublons d’effort pour limiter l’émission de gaz à effet de serre en organisant une COP68 », ou « Finançons la formation dans le secteur informatique car celui-ci connait une forte offre d’emploi et peu de demande ») et ce n’est qu’à ce stade qu’elle acquiert réellement sa valeur.

Quels cas d’usage pour les Data Analytics ?

De nombreuses organisations entreprennent d’analyser quotidiennement des données. Les marketeurs exploitent les données dont ils disposent sur leurs clients pour mieux les comprendre, et ainsi proposer des produits personnalisés : c’est ce qu’on appelle le « ciblage » ou la « segmentation ». Certains sites internet ont par exemple recours au « Revenue management », une technique qui consiste à estimer le prix qu’un acheteur serait prêt à payer à partir de l’historique internet de son navigateur.

Etant donnés les enjeux financiers, commerciaux, politiques ou éthiques de notre perception de la réalité, plusieurs critères sont cruciaux au cours d’une analyse.

Le premier est la qualité des données exploitées comme par exemple la précision d’une mesure. Le second est la représentativité (est-ce qu’une mesure régulière de la température dans une agglomération sur une année me suffit pour analyser l’évolution du climat terrestre ?). Le troisième point est la méthodologie utilisée (est-ce que la moyenne des températures enregistrées à différents points du globe me suffit pour comprendre comment le climat évolue ?). Enfin, il est nécessaire de rester prudent quant à notre capacité à appréhender le monde au travers de nos analyses : Est-ce qu’une corrélation significative entre les ventes mensuelles d’Iphone et le nombre d’accidents mortels dans des escaliers signifie qu’il existe un effet de l’un sur l’autre ?[1]. Après tout, une analyse ne produit qu’une représentation ou une modélisation synthétique et partielle de la réalité. Son objectif principal est de rendre cette analyse la plus exhaustive possible. Mais comment procéder ?

« Data Analytics », comment s’y prendre.. ?

Analyse qualitative et quantitative

L’analyse de donnée est découpée de manière générique en deux grandes familles : l’analyse qualitative et l’analyse quantitative.

La première exploite des données non structurées, mais lisibles et interprétables par l’humain (transcriptions d’entretiens clients, shadowing, recherches documentaire…). . Le recours à l’analyse qualitative est généralement l’une des premières étapes d’un protocole de recherche en sciences humaines ; les chercheurs l’utilisent notamment afin de construire des hypothèses qui seront ensuite testées via une approche quantitative.

Cet autre type d’approche utilisera des technologies variées afin de produire une synthèse d’un plus grand nombre de données. Il est fondée sur les mathématiques, et est implémenté dans un système informatique, du fait du nombre d’opérations que son utilisation requiert. Aujourd’hui, ce type d’analyse est de plus en plus poussé. Il devient même possible d’expliquer les données « en continu », grâce notamment aux algorithmes d’apprentissage, : chaque nouvelle observation est intégrée au modèle quantitatif, dans une logique d’amélioration continue.

Si l’on cherche à réaliser la segmentation de la clientèle des produits de beauté, nous pouvons, à la suite de quelques recherches sur internet, supposer qu’elle dépend du sexe, de l’âge ou encore du milieu social. Pour autant, nous ne saurions abstraire du résultat de quelques lectures un « modèle » de comportement. Afin de déduire les comportements d’une population de clients, deux choix s’offrent à nous :

Procéder à une analyse qualitative en faisant passer un entretien de 30 minutes à chacun de nos clients ; une démarche coûteuse, et surtout irréalisable avant que les informations obtenues ne soient obsolètes
Emettre des hypothèses sur les facteurs principaux du comportement d’un individu, collecter les informations sur ces facteurs principaux (via un questionnaire par exemple) auprès d’une large population, puis analyser ces données en masse à l’aide d’outils statistiques. C’est l’analyse quantitative.

Statistiques descriptives vs Statistiques inductives

La statistique est la branche des mathématiques qui étudie les données et leurs relations entre elles. Elle se divise en deux catégories distinctes : les statistiques descriptives et les statistiques explicatives (ou inductives).

L’objet de la statistique descriptive est de synthétiser les données considérées : plutôt que de les lire directement et une par une, il s’agit de recourir à un ensemble de mesures qui permettront de se faire une idée de la population observée. De nombreux indicateurs relèvent de la statistique descriptive : moyenne, médiane, écart-type, kurtosis, tableau de fréquence, matrice de corrélation… Il s’agit ici d’extraire de l’ « information » à partir des « données ». Une pyramide des âges est un bon exemple de statistique descriptive.

Pour autant, afin de pouvoir prendre une décision, il n’est parfois pas suffisant de pouvoir « décrire » les données en elles-mêmes. Nous recourrons alors au raisonnement « inductif » afin de faire émerger une théorie générale à partir de l’observation de faits particuliers. La météo aujourd’hui ne me permet pas de connaitre le temps qu’il fera dans 10 ans. Par contre, disposer de données sur l’ensemble des données météorologiques enregistrées depuis un siècle pourrait permettre d’établir une tendance et d’anticiper les variations climatiques de la semaine, du mois à venir, ainsi que des tendances sur plusieurs années. C’est l’objet des statistiques inductives.

La règle que l’on essaie d’induire à partir des données est représentée un « modèle », une abstraction du mécanisme qui a généré les observations dont nous disposons. Dans le cadre d’une modélisation statistique, l’observateur va tenter de trouver le modèle qui explique le « mieux » ses données. En général, on cherche à expliquer une donnée spécifique (disons, la température qu’il fera demain à Paris) en fonction d’un ensemble de données connues (pression / température / humidité en tout point de la France durant la semaine précédente).

Comme le démontre l’exemple précédent, les modèles statistiques sont « probabilistes », c’est-à-dire qu’ils laissent place à un certain degré d’incertitude ; nous en avons tous les jours la preuve avec les bulletins météorologiques. Tout l’art de la statistique inductive réside dans la capacité à trouver un modèle qui laisse le moins de place possible à l’incertitude, tout en étant une représentation fidèle de la réalité. Nous pouvons utiliser un modèle très simpliste afin de prévoir la température qu’il fera demain : Elle sera (approximativement) égale à la température du jour, en ajoutant un aléa (représenté par une loi de probabilité). L’objectif de l’« estimation » du modèle est de déterminer les caractéristiques de cette loi. Ce modèle « simple » pour lequel la marge d’erreur peut être grande, ne permet pas de prendre une décision. En effet, je ne peux pas décider des vêtements que je porterai demain uniquement en me basant sur la température qu’il fait aujourd’hui sans m’exposer à un coup de froid imprévu. Nous chercherons donc un modèle plus complexe, qui fera intervenir d’autres paramètres : température des jours sur les X années précédentes (tendance générale du réchauffement climatique), périodicité (température plus froide en hiver qu’en été), pression ou humidité afin de comprendre leurs effets sur la température.

Bien entendu, afin d’augmenter la précision d’un modèle, autrement dit son degré d’adéquation avec la réalité, il est nécessaire d’augmenter le nombre d’observations qui servent à l’estimer. C’est pourquoi la prolifération des données, associée aux solutions techniques permettant de les traiter – le fameux Big Data - participent largement à renforcer notre capacité prédictive.

Quelle importance pour les entreprises ?

L’objectif général de l’analyse de données est de fournir une synthèse précise de la réalité (l’« information ») ou des mécanismes qui la sous-tendent (la « connaissance »), appréhendable(s) par l’esprit humain, à partir d’un nombre réduit d’observations (les « données »). Cette brique est cruciale dans le processus de décision, comme l’a prouvé l’actualité récente : La victoire de Donald Trump aux élections présidentielles serait due à l’intervention de « Cambridge Analytica », une entreprise spécialisée dans le Big Data [2]. Cette entreprise aurait utilisé un modèle comportemental nommé « OCEAN », qui permet d’estimer le comportement d’un ensemble d’individus à partir des « likes » de leur compte Facebook. Trump et son équipe auraient utilisé les résultats d’un tel modèle pour orienter les discours de l’actuel président pendant sa campagne électorale en fonction du public auquel il s’adressait, ce qui lui a permis d’emporter les élections en dépit des prévisions des analystes.

Ce genre d’exemple nous prouve que l’application de la Datascience a énormément gagné à l’apparition de l’informatique et à la prolifération des données. Leur utilisation dispose plus que jamais d’une valeur ajoutée considérable dans la prise de décision stratégique. Pour autant, l’utilisation de tels méthodes à des fins politiques ou économiques ne peut se passer de considérations éthiques. Après tout, l’émergence d’entreprises ayant pour vocation d’« utiliser les données afin d’influencer le comportement du public » n’est-elle pas le premier symptôme de la fin de la démocratie ?