我在以前的几篇文章中讨论过数据问题。人们往往搞不清楚自己到底需要多少数据。特别是,我经常听到这样的抱怨:"模拟需要这么多数据,但我没有足够的数据来支持它。因此,让我们来研究一下这样一种情况:为了做出正确的决策,你希望拥有 40% 的数据,让我们来看看你有哪些选择。
1) 你可以推迟决策。在很多情况下,任何决定本身都不是决定,因为决定将由当时的情况或其他相关人员做出。但是,如果你确实有机会等待,并在做出决定之前收集更多数据,那么你就必须衡量等待的成本与你可能会用更好的数据做出更好决定的成本。但无论如何,在等待之后,你仍然可以有以下所有选择。
2)使用 "就事论事 "的判断,只根据你所知道的做出决定。这种方法忽略了问题的复杂性,也忽略了任何分析方法,从而加剧了数据的缺乏。(具有讽刺意味的是,这种方法往往忽略了你所掌握的数据。)你做出的决定完全是主观的,往往带有严重的政治偏见。毫无疑问,一些经验丰富的人可以做出相当不错的判断。但也有很多判断是错误的,如果采用更具分析性和客观性的方法,就会受益匪浅。
3)使用电子表格或其他不需要那么多数据的分析方法。从表面上看,这似乎是个好主意,而且事实上,在某些问题上,电子表格无疑是最好的(或至少是合适的)选择。但对于我们通常遇到的建模问题,电子表格有两个非常重要的局限性:它们无法处理系统的复杂性,也无法充分处理系统的可变性。使用这种方法,你只是 "希望 "不需要缺失的数据。你不仅是在没有数据的情况下做出决策,而且是在假装缺失的数据对你的决策并不重要。一个过于简化的模型,不考虑变异性或系统复杂性,忽略缺失的数据......听起来并不像是一个好的决策。
4)利用现有数据进行模拟。没有一个模型是完美的。一般来说,您的目的是在时间、资源和可用数据允许的情况下,尽最大能力建立一个模型来满足您的项目目标。我们也许都同意,更好、更完整的数据会带来更准确、更完整、更强大的模型。但模型的价值并不是真假(有价值或无价值)之分,而是一个价值递增的分级表。回到变异性的问题上,利用对变异性的估计来建立模型要比仅仅使用一个常数要好得多。同样,基于 40% 数据的模型所提供的结果也无法与包含所有所需数据的模型相提并论,但它仍然优于分析技术,因为分析技术不仅缺少相同的数据,还缺少系统的复杂性和可变性。
与其他方法不同的是,模拟不会忽略缺失的数据,还能帮助您确定影响,并优先考虑收集更多数据的机会。例如,有些产品的功能可以帮助您评估猜测对关键产出(KPI)的影响。它们还具有一些功能,可以帮助您评估应在哪些方面开展数据收集工作,以扩大样本或小型数据集,从而最大程度地提高模型的准确性。所有模拟都具有假设功能,可用于评估最佳和最坏的可能性。
完美是成功的敌人。在等待完美数据的同时,您不能停止决策。但你可以使用那些有足够弹性的工具,在数据有限的情况下提供价值。特别是如果这些工具能帮助您更好地理解现有数据和缺失数据的价值。
建模愉快
戴夫-斯特罗克
运营副总裁 -Simio LLC

