Skip to content
Simio background artwork

De combien de données ai-je besoin ?

Personnel de Simio

juin 14, 2014

J’ai abordé la question des données dans plusieurs articles précédents. Les gens ne savent pas toujours de quelle quantité de données ils ont réellement besoin. En particulier, j’entends souvent le refrain suivant : « La simulation nécessite tellement de données, mais je n’ai pas assez de données pour l’alimenter ». Examinons donc une situation dans laquelle vous disposez, disons, de 40 % des données dont vous souhaiteriez disposer pour prendre une décision judicieuse, et examinons les choix possibles.

1) Vous pouvez éventuellement reporter la décision. Dans de nombreux cas, aucune décision n’est une décision en soi, car la décision sera prise en fonction de la situation ou par d’autres personnes impliquées. Mais si vous avez vraiment la possibilité d’attendre et de recueillir davantage de données avant de prendre la décision, vous devez mesurer le coût de l’attente par rapport à la meilleure décision potentielle que vous pourriez prendre avec de meilleures données. Quoi qu’il en soit, après avoir attendu, vous avez encore toutes les options suivantes à votre disposition.

2) Faire preuve de discernement et décider en fonction de ce que vous savez. Cette approche aggrave le manque de données en ignorant également la complexité du problème et toute approche analytique (ironiquement, cette approche ignore souvent les données dont vous disposez). (Vous prenez une décision totalement subjective, souvent fortement influencée par des considérations politiques. Il ne fait aucun doute que certaines personnes très expérimentées sont capables d’émettre des jugements assez justes. Mais il est également vrai que de nombreux jugements se révèlent médiocres et auraient pu bénéficier d’une approche plus analytique et plus objective.

3) Utiliser une feuille de calcul ou une autre approche analytique qui ne nécessite pas autant de données. À première vue, il s’agit d’une bonne idée et, en fait, il existe un ensemble de problèmes pour lesquels les tableurs sont certainement le meilleur choix (ou du moins un choix approprié). Mais pour les problèmes de modélisation que nous rencontrons généralement, les feuilles de calcul ont deux limites très importantes : elles ne peuvent pas traiter la complexité du système et elles ne peuvent pas traiter de manière adéquate la variabilité du système. Avec cette approche, vous ne faites que « souhaiter » que les données manquantes ne soient pas nécessaires. Non seulement vous prenez la décision sans ces données, mais vous prétendez que les données manquantes ne sont pas importantes pour votre décision. Un modèle simplifié à l’extrême qui ne tient pas compte de la variabilité ou de la complexité du système et qui ignore les données manquantes… ne semble pas être le gage d’une bonne décision.

4) Simulez avec les données dont vous disposez. Aucun modèle n’est jamais parfait. Votre intention est généralement de construire un modèle qui réponde aux objectifs de votre projet au mieux de vos capacités, compte tenu du temps, des ressources et des données disponibles. Nous sommes probablement tous d’accord pour dire que des données de meilleure qualité et plus complètes permettent d’obtenir un modèle plus précis, plus complet et plus robuste. Mais la valeur d’un modèle n’est pas un vrai-faux (précieux ou sans valeur), il s’agit plutôt d’une échelle graduelle de valeur croissante. Pour en revenir au problème de la variabilité, il est préférable de modéliser à l’aide d’estimations de la variabilité plutôt que d’utiliser simplement une constante. De même, un modèle basé sur 40 % des données ne fournira pas les mêmes résultats qu’un modèle contenant toutes les données souhaitées, mais il sera toujours plus performant que les techniques analytiques qui non seulement ne contiennent pas ces mêmes données, mais qui ne tiennent pas compte non plus de la complexité et de la variabilité du système.

Contrairement aux autres approches, la simulation n’ignore pas les données manquantes, mais peut également vous aider à identifier l’impact et à hiérarchiser les possibilités de collecter davantage de données. Par exemple, certains produits ont des fonctions qui vous aideront à évaluer l’impact des suppositions sur vos résultats clés (KPI). Ils disposent également de fonctions qui vous aideront à déterminer où vous devriez concentrer vos efforts de collecte de données pour élargir l’échantillon ou les petits ensembles de données afin d’améliorer au maximum la précision de votre modèle. Enfin, toutes les simulations offrent une capacité de simulation que vous pouvez utiliser pour évaluer les meilleures et les pires possibilités.

La perfection est l’ennemie du succès. Vous ne pouvez pas arrêter de prendre des décisions en attendant des données parfaites. Mais vous pouvez utiliser des outils qui sont suffisamment résistants pour fournir de la valeur avec des données limitées. Surtout si ces mêmes outils vous aident à mieux comprendre la valeur des données existantes et manquantes.

Bonne modélisation !

Dave Sturrock
VP Opérations – Simio LLC