通过仿真优化进行军事人员系统的单目标和多目标参数估计

作者：Simio Staff | 2025-3-18 4:15:00

挑战

作者：Lee Alan Evans、Ki-Hwan G. Bae 和 Arnab Roy（路易斯维尔大学）

在 2017 年冬季模拟大会上发表

本研究开发了一个离散事件仿真模型来表示强制分配绩效考核系统，其中包含了与此类系统相关的结构、系统动态和人类行为。本研究旨在分析人类行为，并探索一种模型验证方法，以捕捉下属资历在评估过程中的作用。本研究包括模拟实验，将代表人类行为的黑盒函数映射到模拟输出。每个行为函数的有效性都基于多目标响应函数，该响应函数是衡量模型输出与历史数据之间差异的平方误差函数之和。实验结果证明了在仿真系统设计的模型验证阶段应用仿真优化技术的实用性。

背景介绍

美国陆军使用各种技术将现役陆军人数从 2010 年的 566,000 多人减少到 2016 年的 470,000 人以下。这些方法包括非自愿离职委员会、提前退休委员会、减少入伍人数、减少重新入伍机会和降低晋升率。除减少入伍人数外，这些部队塑造机制的核心都是对绩效考核的分析。

由于《1980 年国防军官人事管理法》（DOPMA）的规定，绩效考核在军官队伍中具有重要意义。该法案于 1980 年 12 月 12 日由国会通过，规定了军官人数与陆军总兵力水平之间的函数关系，但更重要的是，该法案规定了 "能上能下 "的晋升制度（Rostker 等人，1993 年）。上调或下调晋升制度的目的是让军官接受晋升委员会的评估，如果被选中，则按一般由军官服役年限决定的队列晋升。此外，任何两次未获晋升的官员都将被迫离职。离职规定的唯一例外是允许特定军官有选择地继续服役，但这一规定应尽量少用。非升即走的晋升制度有助于形成图 1 所示的军衔结构，这也是《军事行动部令》的规定。
受缩编影响最大的军衔之一是中校军衔，其晋升率从 2006 年的 91% 以上降至 2016 年的 60.2%。对晋升委员会结果的分析表明，评估中确定的百分位数是军官是否晋升的最佳指标。美国陆军军官绩效评估系统是一种强制分配系统，它采用评级池内军官相对比较的方式，迫使评级者对低于 49% 的下属给予最高评价（陆军总部，2015 年）。对晋升委员会结果的进一步分析表明，资历对军官是否获得最高评价起着重要作用。然而，由于评定者个人对资历的优先排序，评定者对下属进行排序和评定的功能是未知的（黑箱），也是嘈杂的。

图 1：DOPMA 中规定的晋升诱导自然减员模式（摘自 Rostker 等人，1993 年）。

相关文献

人力建模方面的前人工作非常广泛，为了设计本仿真系统，我们回顾了人力规划方法、绩效评估系统、人才管理、仿真优化和模型验证。

Bartholomew、Forbes 和 McClean（1991 年）将人力规划定义为 "将人员供应与可供选择的工作岗位相匹配的尝试"。Wang（2005）将应用于人力规划的运筹学技术分为四个分支：优化模型、马尔科夫链模型、计算机仿真模型和通过系统动力学进行的供应链管理。Hall（2009）指出，有关人力规划的现有文献主要分为三个主题：动态编程、马尔可夫模型和目标编程。虽然这些列表既不详尽也不相互排斥，但我们将现有技术分为优化模型、马尔可夫模型和模拟模型三类。

优化模型的早期例子包括为人力资源决策提供框架的动态编程模型（戴利，1958 年；费希尔和莫顿，1968 年）。Ozdemir (2013)的动态程序设计应用较新，为人员选择提供了分析层次处理顺序。Bres 等人（1980 年）和 Bastian 等人（2015 年）提供了目标编程模型，用于分析有限时间范围内的军官人数和职业组合。Kinstler 等人（2008 年）使用马尔可夫模型为美国海军护理队确定最佳新兵人数，以解决低级别人员过多的问题，从而满足高级别人员的需求。虽然马尔可夫模型可作为独立模型使用，但它们更常被纳入更大的优化模型中（Hall，2009 年；Zais，2014 年）。Lesinski 等人（2011 年）和 McGinnis、Kays 和 Slaten（1994 年）是模拟用于人力建模的范例。Lesinski 等人（2011 年）开发的模拟结构用于确定军官初始培训的时间和持续时间是否支持新的陆军部队战备模型。同样，McGinnis、Kays 和 Slaten（1994 年）的离散事件模拟模型分析了要求在关键任务中至少工作一段时间的拟议人事政策的可行性。所有现有方法的共同点是，它们都侧重于满足总体要求。也就是说，这些模型是根据历史自然减员、晋升和预测增长来估算入职和横向入职要求的。很少有人关注对系统进行建模，以识别和选择最合格的人员来满足需求，而不是二元衡量一个职位是被占用还是空缺。

Wardynski、Lyle 和 Colarusso（2010 年）将美国陆军军官人才定义为个人知识、技能和行为的交叉点。Dabkowski 等人（2010 年）指出，军官人才的衡量主要是概念性的，但实际衡量并不是分析政策对人才保留影响的必要条件。他们的模型使用正态分布的人才得分来分析多种自然减员模式对高级领导人才的影响。Wardynski、Lyle 和 Colarusso（2010 年）的研究表明，具有最严格筛选要求的委派来源会在高级队伍中产生更高绩效的军官，这也为 Dabkowski 等人（2010 年）将人才视为静态的、与生俱来的价值的观点增添了可信度。

众所周知，绩效评估系统存在固有的偏差和误差。绩效评估系统中的偏差和误差难以量化，但包括以下方面考评者对下属的评价比下属应得的评价更宽松（宽松度）或更严厉（严厉度）；考评者围绕有限的标准形成正面（光环）或负面（号角）的意见；最近的绩效表现占很大比重（最近性）；考评者提高下属的评级，使自己看起来更好（为自己服务）；以及相对于绩效标准（对比/相似性）而不是相对于下属的相互评级（Coens 和 Jenkins 2000 年，Carroll 和 Schneier 1982 年，Kozlowski、Chao 和 Morrison 1998 年）。物理学家和数学家 W. Edwards Deming 补充说，个人绩效结果取决于系统结构（Elmuti、Kathawala 和 Wayland，1992 年）。绩效考核结果同样取决于系统结构。绩效评估系统的不准确性是指评估结果与被评估员工绩效水平的真实分布之间的差异程度（Carroll 和 Schneier，1982 年）。

为估算绩效评估系统的不准确性而验证模拟模型是一项非同小可的任务。Law（2015 年）指出，"对仿真模型有效性的最权威检验是确定其输出数据与实际系统的预期输出数据非常相似"。模型验证有许多方法。Balci (1998) 列出了 75 种模型验证、确认和测试技术，但指出大多数从业人员使用的是依赖于人类推理和主观性的非正式技术。

问题陈述

Kane （2012）指出，评估通常与职位挂钩，而不是严格按照绩效进行。这种情况在拥有关键发展职位的部门最为普遍。为了减少军官的任务对指定评级的影响，我们严格使用任务同质的职能领域专业的数据。根据陆军部总部（2014 年），职能领域是 "按技术专长或技能（而不是通常需要独特教育、培训和经验的军种、兵种或部门）对军官进行的分组"。

军官每次执行任务时都要接受评估，与同僚或同级军官进行比较。图 2 显示了美国陆军军官的典型流程图。军官进入评估系统后，会被分配到一个由同级军官组成的小组，即评级池。一般来说，每名军官都会根据其相对于同一评级池中其他军官的表现接受年度评估。评估结束后，官员要么继续留在同一评定组，要么被重新分配到不同的评定组。调任通常涉及地理位置的实际变化。一旦警官在系统中度过了规定的时间，如图 1 中的五年，他/她就会退出系统。军官的档案将提交给由将军组成的晋升委员会，由其决定该军官是继续晋升军衔还是被迫退役。

评定者不得给予其人才库中超过 49% 的军官最高评价。这种强制分布任务的目的是为人事管理决策提供绩效区分。适用于少数雇员的强制分布式绩效评估系统会造成对绩效的误认。Mohrman、Resnick-West 和 Lawler（1989 年）指出，强制分布制度只应适用于足够大的群体，特别是不少于 50 名员工。二项分布为量化这种绩效识别错误提供了一些启示。如果 X是一个随机变量，表示由n 名官员组成的评级池中排名前 49% 的官员人数，且官员的绩效是独立的，那么 X遵循二项分布（n，0.49）。例如，当n = 15 时，E[误识别]为 ∑15, x=8 P(X= x)(x -7) = 0.9470。因此，如果将 300 名警员分成 20 个评级池，我们预计会出现 18.9405（0.9470 x 20）次错误识别。同样的 300 名警员分成 3 个评级池，预计会出现 5.9680（1.9893 x 3）次误识别。影响评估准确性的其他因素包括：评级池规模的分布、评级池之间的流动频率以及系统内的人为行为。这些因素在多年时间框架内的应用使得有必要使用模拟等技术来量化强制分配绩效评估系统所引起的误差。

图 2：美军军官绩效评估系统的基本流程图。

要量化考评者对下属的排名和考评行为，就需要应用先进的模型验证方法。图 3 显示，随着军衔时间的增加，军官更有可能获得最高评价。与图 3 和图 4 所示分布相对应的模拟输出受制于每个评级池中用于对下属进行排名和评估的评分者函数（即黑盒函数）。图 3 和图 4 所示数据来自 2015 年和 2016 年面临晋升委员会的专业，其晋升率分别为 60.4% 和 60.2%。模型比较的基础是这两年的平均值，这是因为这两年的数据相似，同时也是为了让模型关注当前的评估趋势。

我们这项研究的贡献在于研究了一种利用模拟优化估算黑箱函数的方法。我们建立了一个离散事件模拟模型，并使用 OptQuest 和 Kim-Nelson (KN) 程序（一种全序列排序和选择模拟优化方法）修改了用于模拟人类行为的排序函数。我们对多个函数的参数进行了评估，以确定它们在复制评分者行为时的拟合度。

为了评估输出结果，我们使用了 Ikonen 和 Najim（2002 年）提出的成本函数J(θ)的一般形式：

公式 (1) 中的二次成本函数为K 个观测输出y(k) 与模型预测值θTϕ(k) 之间的平方差分配了αk个权重。目标是最小化成本函数J 与参数θ的关系，如公式 (2)：

图 3：按军衔年限分列的获得最高评价的少校百分比（资料来源：美国陆军人力资源司令部）。图 4：5 年内少校获得最高评价的总数（资料来源：美国陆军人力资源司令部）。

第 4 节详细介绍了成本函数的推导和系统内的参数。

解决方案

模型描述

模型输入和系统动态

仿真模型是在 Simio 中开发的，其框架如图 2 所示。警员以统一比率进入系统，并被分配一个代表警员初始绩效百分位数的属性Qi，其中QiUniform(0,1)。警员被随机分配到评级池中。每年，对官员进行排序并给予评估，即Xi j：

每次评估后，官员以p的概率更换评级库，或以 1 -p 的概率留在同一评级库，模拟官员定期更换评级库的系统动态。p值的变化会改变官员在每个评定库所花费的平均时间。p = 0.730 相当于在每个职位平均任职 16.42 个月，这是 2015 年和 2016 年面临晋升委员会的官员的平均任职时间。收集评价五年后，官员退出系统，他们的二进制考绩历史记录在输出文件中。截断的模拟输出文件如图 5 所示。

排序功能

从图 3 中的数据趋势来看，随着被评定人员资历的增加，评定者给予最高评价的倾向性也会增加。因此，对警员进行排序的程序采用了初始绩效百分位数与在系统中的时间相结合的函数。我们将其注释为
Qti，其中Qti(Qi,t,α)，t 是官员在系统中的时间（年），α是一个估计参数，用于对官员在系统中的时间进行加权。鉴于评分者的行为，我们分析了以下递增函数的拟合优度
的拟合优度：

线性Qti=Qi+αt(3)
指数函数：Qti=Qi+αt(4)
幂：Qti=Qi+tα(5)

输出

图 5 显示了给定排序功能的模拟输出。对每个排序函数的分析包括其复制图 3 和图 4 所示实际数据的能力。在优化每个排序函数的参数之前，有必要确定一个合理的α 域。对于公式 (3)、

α= 0 表示评分员在评分库中的排名完全基于警员进入系统时的绩效百分位数，在系统中的时间不在考虑之列。同样，α= 0.4 意味着在确定给定评级库中的排名时，当t = 1 时，官员在系统中的时间至少是Qi 的0.4 倍，当t = 5 时，官员在系统中的时间至少是Qi的 2 倍。因此，在优化公式 (3) 的输出时，我们将评估 0<α< 0.4。

等式 (4) 的有效性也可以使用类似的α 边界来评估。不过，在公式 (4) 中，0<α<1 会产生一个与系统时间有关的递减函数。此外，当t = 5 时，对于公式 (4)，要使官员在系统中的时间在给定评级库中的排名权重至少为Qi权重的 2 倍，则α为 1.148。因此，我们将公式 (4) 的α域限制为 1<α<1.148。同样，我们将方程 (5) 中的α限定为 0<α< 0.431。

参数估计

响应函数

为了优化模拟输出，我们采用了 Ikonen 和 Najim（2002 年）提出的多目标响应函数形式。问题表述如下

图 5：20 个实体的模拟输出示例。

等式 (6) 中的二元变量Zik用于确定每位官员(i) 在 5 年内是否获得了 0、1、.5 次最高评价。等式 (7) 测量模拟中获得k 个最高评价的官员百分比与Ak 之间的平方差，其中变量Ak是获得k 个最高评价的官员的历史百分比。该平方误差按k的每个值计算，并在等式中求和：

等式 (7) 衡量了模拟输出与图 4 所示数据的拟合程度。每位官员获得的最高评价总数是衡量模型准确性的一个指标。另一个衡量准确性的指标是每位官员获得最高评价的时间。计算每个j年的平方误差，并在公式中求和：

其中，B j是第 j 年获得最高评价的官员的百分比。等式（7）中的权重Wk和等式（8）中的权重Wj使我们能够控制每次模拟输出与实际数据之间差异的权重。这就提供了补偿相对误差差异以及等式（7）与等式（8）中数据点数量不等的能力。等式 (8)中的 Y值衡量的是模拟输出与图 3 所示数据的拟合度。等式 (7) 和 (8)中提供的有效性度量可合并为一个单一的加权性能度量： D = T + Y 。
D =T +Y。这样，问题就变成了寻找能使目标函数D 最小化的排序功能参数值α，即αˆ= arg minD。
α

业务影响

单一目标参数估计

为了估算排序功能参数，我们使用了 OptQuest 模拟优化程序（April、Glover 和 Kelly，2002 年）。用户可以修改特定相对误差设置的最小和最大重复次数，以及最大方案数。OptQuest 程序的结果提供了由 KN 方法评估的初始候选解决方案列表，KN 方法是一个完全顺序的程序，每次重复后都会剔除统计上较差的解决方案。我们在 OptQuest 例程的最佳子集方案上运行 KN 程序，并将无差异区设置为 0.001，以确定每个排序函数中参数α的最佳设置。有关 KN 程序的详细讨论，请参见 Kim 和 Nelson (2001)。使用 Simio OptQuest 插件，在一台主频为 2.50 GHz、内存为 8.00 GB 的英特尔@酷睿 i5-4300U 上执行 50 个方案，每个方案 10 次复制，需要 15 到 16 分钟。

在单目标参数估计方面，我们分别进行了两次实验，以找到每个排序函数的解算参数：

在公式（8）中，Bj =[0.368，0.493，0.512，0.582，0.719]，表示在 2015 年和 2016 年面临晋升的专业中，每年获得最高评价的排名百分比。参数α在公式 (3)、(4) 和 (5) 中进行了评估，各排序函数的最小Y如图 6 所示。

图 6：获得最高评价的专业百分比按年级排序的模拟结果。

鉴于Wj =[1,1,1,1,1]，表 1 总结了每个排序函数在最佳参数设置下的性能。在表 1 的 "差距百分比 "一栏中，每个排序功能都与最佳排序功能进行了比较。

表 1：通过模拟优化确定α时各排序功能的最小Y 值汇总。

排序函数	最小 Y	差距百分比
线性	0.00674	1.81%
指数	0.00662	-
功率	0.00985	48.79%

参数α也在公式 (3)、(4) 和 (5) 中进行了评估，图 7 显示了每个排序函数的最小 T。在公式（7）中，Ak =[0.070, 0.119, 0.231, 0.294,0.223, 0.064]，表示在 2015 年和 2016 年面临晋升的官员中，作为专业获得[0, 1,......5]总最高评价的历史百分比。鉴于Wk=[1，1，1，1，1]，各排序函数的最小 T 以及各排序函数与最佳排序函数的比较如表 2 所示。

图 7：各专业获得最高评价总数百分比的模拟结果

表 2：各排序函数的最小T与模拟优化确定的α的汇总。

排序函数	最小 T	差距百分比
线性	0.0138	-
指数	0.0275	99.27%
功率	0.0175	26.81%

加权多目标参数估计

在单目标参数估计中，我们在确定T 和Y 的最小值时对每个排序函数使用了单独的方程。在多目标参数估计中，我们使用了Y 和T 的加权和。因此，有必要为响应函数D 确定适当的Wj 和Wk。公式 (8) 是六个模拟输出与历史数据的平方误差之和，而公式 (7) 是五个数据点与历史数据的平方误差之和。因此，我们首先将Wk的每个分量设为5/6，以便对T 和Y的输出进行同等加权。最后，我们将相对误差剔除Wk。等式 (7) 中使用的回答的平均值为 0.535，代表任何一年中获得最高评价的专业的平均百分比。等式 (8) 中使用的回答的平均值为 0.167，表示在最高评价总数的六种可能性中，获得每种可能性的专业的平均百分比。我们用初始Wk乘以3.21（0.535/0.167）来补偿量纲上的差异，向量Wk的每个分量为2.675（3.21 5/6）。因此，在计算D 时，我们使用Wj =[1,1,1,1,1] 和Wk=[2.675,2.675,2.675,2.675,2.675,2.675]。图 8 显示，最小化D并不能最小化Y 或T。

图 9 的两幅图说明了我们的加权多目标方法的有效性。标有 "无时间因素 "的线表示没有添加时间因素的静态性能水平，结果是D = 0.864。图 8 中显示的T 和Y之间的权衡结果是，与表 1 和表 2 中汇总的单一目标参数估计响应相比，改进百分比有所下降。表 3 显示了三种排序功能中每一种使用最优参数设置时的 D 值。

图 8：显示线性排序功能的 D、Y 和 T 之间关系的模拟结果。

表 3：通过仿真优化确定α时每个排序功能的最小D值汇总。

图 9：最小化加权多目标响应函数 D 对 Y（左）和 T（右）的影响

结论

前面所述实验中评估的排序功能表明，随着时间的推移，可感知的性能水平有所提高。这可能是绩效的实际提高，也可能是评分者对资历的奖励倾向，或者是两者的结合。所评估的函数并非详尽无遗，而是一组易于解释的函数，参数α 有明确的上下限，显示了资历在评估过程中的作用。模型输出的目标决定了最合适的排序函数：最小化Y 的指数排序函数、最小化T 的线性排序函数或最小化D 的幂排序函数。未来的研究将探索使用高阶多项式，以便在模型中更好地表现人类行为。量化评估过程中资历的影响将有助于人力资源专业人员确定绩效评估在多大程度上代表了官员相对于同级官员的实际绩效水平。

致谢

本研究得到了奥马尔-纳尔逊-布拉德利基金会的部分资助。本文所表达的观点仅代表作者本人，并不一定反映美国陆军人力资源司令部、陆军部、国防部或美国政府的官方政策或立场。

查看完整帖子