# 未加权平均完成时间不是任务调度的公正指标 一项数学证明:未加权平均任务完成时间是一个有偏统计量, 它激励挑选简单工作的行为,且它所显示的任何调度优势 都是指标本身的伪影——而非真实吞吐量或服务质量的反映。 --- ## 1. 引言 许多组织通过**未加权平均完成时间**来衡量任务执行绩效:即从任务提交 到任务解决之间的平均小时(或天)数,每个任务不论规模或优先级 一律等权计算。 本文证明,该指标不仅仅是不精确的,而且是结构性有偏的。它可以 通过重新排列工作顺序来改善,而无需做任何额外工作(定理 1), 而一个适当加权的替代指标则完全不受调度操纵的影响(定理 2)。 当与优先级系统结合使用时,该指标会积极地与组织自身的优先级 分类相矛盾(定理 9)。 论证分四个部分展开: - **第一部分**(第 2–4 节)建立数学基础:未加权平均可被 最短处理时间优先(SPT, Shortest Processing Time)调度策略所操纵, 工作量加权平均与调度顺序无关,由此产生的服务质量后果 可证明是负面的。 - **第二部分**(第 5–6 节)将模型扩展到具有优先级分类的任务, 证明该指标会与优先级系统产生对抗性,并提出加权替代方案, 附带一个 IT 服务台的实例。 - **第三部分**(第 7–9 节)考察组织动态:当指标被报告给 客户时会发生什么(信息不对称),当团队成员理解其缺陷时 会发生什么(心理伤害),以及一位知情的管理者能做什么 (带博弈论稳定性分析的约束优化)。 - **第四部分**(第 10–12 节)提出诚实的反驳意见,将本工作 置于现有文献中定位,并作出结论。 核心结果建立在 Smith(1956)的奠基性调度理论 [1] 之上, 通过博弈论 [9, 10]、组织度量理论 [18, 19] 和心理学 [11–17] 加以扩展,从而追溯出一条完整的链条:从关于某一特定指标的 数学证明到组织层面的后果。 --- # 第一部分:数学基础 ## 2. 定义 设有 **n** 个任务,其处理时间为 $p_1, p_2, \ldots, p_n$。 **调度方案** $\sigma$ 是 $\{1, 2, \ldots, n\}$ 的一个排列, 将任务分配到单一执行者的执行顺序上。 在调度方案 $\sigma$ 下,任务 $\sigma(k)$ 的**完成时间**为: $$C_{\sigma(k)} = \sum_{j=1}^{k} p_{\sigma(j)}$$ **未加权平均完成时间**为: $$\bar{C}(\sigma) = \frac{1}{n} \sum_{k=1}^{n} C_{\sigma(k)}$$ **工作量加权平均完成时间**为: $$\bar{C}_w(\sigma) = \frac{\sum_{k=1}^{n} p_{\sigma(k)} \cdot C_{\sigma(k)}}{\sum_{k=1}^{n} p_{\sigma(k)}}$$ --- ## 3. 核心结果 ### 3.1 未加权平均可被操纵 **定理 1**(Smith, 1956 [1])**。** 使 $\bar{C}(\sigma)$ 最小化的调度方案 是最短处理时间优先(SPT):按 $p_{\sigma(1)} \le p_{\sigma(2)} \le \cdots \le p_{\sigma(n)}$ 排序任务。 **证明(交换论证 [1, 2])。** 考虑任意调度方案 $\sigma$,其中两个相邻任务 $i, j$ 满足 $p_i > p_j$,且任务 $i$ 被安排在任务 $j$ 的紧前方。设 $t$ 为任务 $i$ 的开始时间。 | | 任务 $i$ 完成 | 任务 $j$ 完成 | 合计 | |---|---|---|---| | **交换前**($i$ 在 $j$ 前) | $t + p_i$ | $t + p_i + p_j$ | $2t + 2p_i + p_j$ | | **交换后**($j$ 在 $i$ 前) | $t + p_j$ | $t + p_j + p_i$ | $2t + p_i + 2p_j$ | 完成时间之和的变化为: $$(2p_i + p_j) - (p_i + 2p_j) = p_i - p_j > 0$$ 每次将较长任务与其后方较短任务交换,都会严格减少完成时间 总和。任何非 SPT 调度方案都包含这样的相邻对。反复交换收敛于 SPT。因此 SPT 唯一地最小化 $\bar{C}(\sigma)$。$\blacksquare$ ### 3.2 工作量加权平均与调度方案无关 **定理 2。** 工作量加权平均完成时间 $\bar{C}_w(\sigma)$ 对于所有调度方案 $\sigma$ 均相同。 **证明。** 展开分子: $$\sum_{k=1}^{n} p_{\sigma(k)} \cdot C_{\sigma(k)} = \sum_{k=1}^{n} p_{\sigma(k)} \sum_{j=1}^{k} p_{\sigma(j)}$$ 令 $a = \sigma(k)$,$b = \sigma(j)$ 重新标号。该双重求和计算 所有满足 $b$ 排在 $a$ 之前或与 $a$ 同位的有序对 $(a, b)$: $$= \sum_{\substack{a, b \\ b \preceq_\sigma a}} p_a \, p_b$$ 对于 $a \ne b$ 的任何一对,$\{b \preceq_\sigma a\}$ 或 $\{a \prec_\sigma b\}$ 恰好成立其一。对角项($a = b$) 无论顺序如何,贡献 $p_a^2$。因此: $$\sum_{\substack{a, b \\ b \preceq_\sigma a}} p_a \, p_b = \sum_{a} p_a^2 + \sum_{\substack{a \ne b \\ b \prec_\sigma a}} p_a \, p_b$$ 连同互补求和,两个非对角求和覆盖所有无序对: $$\sum_{\substack{a \ne b \\ b \prec_\sigma a}} p_a \, p_b + \sum_{\substack{a \ne b \\ a \prec_\sigma b}} p_a \, p_b = \sum_{a \ne b} p_a \, p_b$$ 右侧与调度方案无关。由 $p_a p_b$ 的对称性,两个非对角 求和相等: $$\sum_{\substack{a \ne b \\ b \prec_\sigma a}} p_a \, p_b = \frac{1}{2} \sum_{a \ne b} p_a \, p_b$$ 因此: $$\sum_{k=1}^{n} p_{\sigma(k)} \cdot C_{\sigma(k)} = \sum_a p_a^2 + \frac{1}{2} \sum_{a \ne b} p_a \, p_b = \frac{1}{2}\left(\sum_a p_a\right)^2 + \frac{1}{2}\sum_a p_a^2$$ 该表达式不包含对 $\sigma$ 的引用。由于分母 $\sum p_a$ 同样 与调度方案无关: $$\bar{C}_w(\sigma) = \frac{\frac{1}{2}\left(\sum p_a\right)^2 + \frac{1}{2}\sum p_a^2}{\sum p_a}$$ 在**所有调度方案下均为常数**。$\blacksquare$ 这是 Coffman、Shanthikumar 和 Yao [20] 所发现的调度守恒律 的一个实例。该不变性对应于度量一个*工作*单元等待了多长时间, 而非一个*任务*等待了多长时间——未加权统计量计算的是完成次数 而非工作量,这正是它可被操纵的原因。(另见 Little [3, 4] 的 排队论背景,需注意 Little 定律仅直接适用于稳态系统,而非 本文分析的批处理情形。) ### 3.3 说明性示例 两个任务:$A$,$p_A = 1$ 小时;$B$,$p_B = 10$ 小时。 | 调度方案 | $C_A$ | $C_B$ | 未加权平均 | 工作量加权平均 | |----------|-------|-------|------------|---------------| | SPT(A 在先) | 1 | 11 | 6.0 | 111/11 ≈ 10.09 | | 逆序(B 在先) | 11 | 10 | 10.5 | 111/11 ≈ 10.09 | SPT 在未加权指标上看起来好了 **4.5 小时**,但在工作量加权 指标上**改善为零**。这种表面优势之所以存在,仅仅是因为 未加权统计量让 1 小时的任务与 10 小时的任务拥有相同的"投票权"。 --- ## 4. 对服务质量的影响 ### 4.1 大型任务的饥饿 **定理 3(指标偏差)。** 任何最小化未加权平均完成时间的 调度策略,必然会最大化最大任务的完成时间。 **证明。** SPT 将最大的任务放在最后。其完成时间等于总处理 时间 $\sum p_i$,这是任何单个任务可能的最大完成时间。在任何 不将最大任务放在最后的调度方案中,该任务严格更早完成。 $\blacksquare$ 这产生了一种**饥饿激励**:理性地优化未加权统计量的行为者 会无限期地推迟大型任务,转而处理小型任务。Austin [18] 在组织绩效管理的背景下识别了这一普遍模式——不完整的度量 会产生激励,使人们优化被度量的维度,而牺牲未被度量的维度。 定理 3 提供了任务调度场景下的具体机制。 ### 4.2 最大任务的最大完成时间 **定理 4(SPT 唯一地最大化最大任务的完成时间)。** 在所有调度方案中,SPT 是唯一使最大任务获得最大可能完成 时间($\sum p_i$)的策略。 **证明。** SPT 按 $p_i$ 升序排列任务,将最大任务 $p_{\max}$ 置于最后位置。任何调度方案中最后一个任务的完成时间为 $\sum_{i=1}^{n} p_i$,这是任何单个任务所能获得的最大值。 在任何不将 $p_{\max}$ 放在最后的调度方案中,它严格在 $\sum p_i$ 之前完成。$\blacksquare$ **推论 4.1。** 优化未加权平均完成时间的团队将系统性地为 需求最复杂的客户提供最差的体验。这不是副作用——这是指标 改善的*机制*。 **关于减速比的说明。** SPT 实际上*压缩*了减速比 ($S_i = C_i / p_i$),因为处于较后位置的大型任务具有较大 的分母,可以吸收累积的总和。例如,对于任务 $[1, 5, 10]$: SPT 给出减速比 $[1, 1.2, 1.6]$(低方差),而最长处理时间 优先(LPT)给出 $[1, 3, 16]$(高方差)。SPT 对大型任务 客户的伤害在减速比中并不可见——它在**绝对完成时间**中可见。 这一区分很重要:调度公平性文献 [21, 22, 23] 主要通过基于 减速比的度量来讨论 SPT/SRPT 的不公平性,这可能掩盖下文 所证明的绝对延迟负担。 ### 4.3 延迟集中 **定理 5(SPT 将延迟集中在最大任务上)。** 在 SPT 下, 最大任务承受的绝对延迟多于任何其他调度方案。 **证明。** 定义绝对延迟为 $\Delta_i = C_i - p_i$(等待时间, 与自身大小无关)。在 SPT 下,最大任务处于位置 $n$: $$\Delta_{\max\text{-task}}^{\text{SPT}} = C_n - p_n = \sum_{i=1}^{n-1} p_i$$ 这是所有其他任务处理时间之和——任何单个任务可能的最大延迟。 在任何最大任务不在最后的调度方案中,其延迟严格更小。同时, SPT 给最小任务零延迟($\Delta_1^{\text{SPT}} = 0$)。全部 排队负担从小型任务转移到了大型任务。$\blacksquare$ SPT 通过将延迟集中到在减速比意义上最能吸收它的任务上, 来最小化*总*延迟(有利于总体效率)。但在绝对意义上——等待 的小时数——最大的任务承受了全部重量。 ### 4.4 吞吐量不变性 **定理 6(吞吐量不变性)。** 在任何时间范围 $T$ 内完成 的总工作量在所有调度策略下均相同。 **证明。** 执行者以固定速率处理工作。在任何时间范围 $T \ge \sum p_i$ 内,完成的总工作量恰好为 $\sum p_i$, 与顺序无关。对于有持续到达任务的稳态情形,长期吞吐量由 服务速率 $\mu$ 决定,完全不依赖于调度: $$\lim_{T \to \infty} \frac{W(T)}{T} = \mu \quad \text{对所有调度方案 } \sigma$$ $\blacksquare$ **推论 6.1。** 一个从任何调度策略切换到 SPT 的团队,将在 未加权平均完成时间上观察到改善,而**实际吞吐量零变化**。 指标改善了。产出没有改变。 ### 4.5 复合效应 结合定理 4、5 和 6: | 度量 | 优化未加权平均的效果 | |------|---------------------| | 吞吐量(工作量/时间) | 无变化(定理 6) | | 小型任务的延迟 | 最小化——趋近于零(SPT) | | 大型任务的延迟 | **最大化**——承受全部排队负担(定理 5) | | 最大任务的完成时间 | **最大可能值**:$\sum p_i$(定理 4) | 对感知质量的净效果是负面的,因为: 1. **损失厌恶是不对称的** [8]。一个 100 小时任务被降低优先级 的客户会经历一个巨大的、显著的负面体验。一个 1 小时任务 被加速的客户只会经历一个微小的、往往不被注意的正面体验。 2. **高工作量任务与高价值客户相关。** 大型任务不成比例地 更可能来自主要客户、复杂合同或关键业务需求。 3. **饥饿效应会累积。** 在连续系统中(定理 3),大型任务 可能被**无限期推迟**,因为新的小型任务持续到达。 **定理 7(核心结果)。** 对于处理非均匀大小任务的团队, 采用未加权平均完成时间作为绩效指标: (a) 提供**零生产力增益**(定理 6),同时 (b) **将最大可能完成时间分配给**最大的任务(定理 4),并且 (c) **将所有排队延迟集中**到最大的任务上,同时消除最小 任务的延迟(定理 5)。 这不是一个权衡。该指标创造了一个纯粹的服务质量转移: 从高工作量客户转向低工作量客户,而没有获得任何净工作量。 $\blacksquare$ --- # 第二部分:优先级系统 ## 5. 在优先级分类下的失效 前述章节证明了当任务大小不同时,未加权平均完成时间是有偏的。 我们现在将证明,引入**优先级系统**——几乎所有实际团队都使用 优先级系统——会导致该指标不仅仅是有偏的,而是**积极地与 组织的既定目标对抗**。 ### 5.1 扩展模型:带优先级的任务 设每个任务 $i$ 具有处理时间 $p_i$ 和优先级类别 $q_i \in \{1, 2, 3, 4\}$,其中 1 为最高优先级(关键), 4 为最低(装饰性/增强型)。分配优先级权重: $$w(q) = \begin{cases} 8 & q = 1 \text{(关键)} \\ 4 & q = 2 \text{(高)} \\ 2 & q = 3 \text{(中)} \\ 1 & q = 4 \text{(低)} \end{cases}$$ 具体权重仅为说明性的;结论对任何严格递减的权重函数成立。 关键性质是:优先级根据**业务影响**而非任务大小来分配。 ### 5.2 指标与优先级系统相矛盾 **定理 8(优先级-大小逆转)。** 当优先级与任务大小无关时, 最小化未加权平均完成时间的调度方案(SPT)将在期望意义上, 在更大的高优先级任务之前完成低优先级任务。 **证明。** SPT 按 $p_i$ 升序排列任务,不考虑 $q_i$。 考虑两个任务: - 任务 A:$p_A = 40$ 小时,$q_A = 1$(关键——例如服务器宕机) - 任务 B:$p_B = 0.5$ 小时,$q_B = 4$(低——例如界面装饰修复) SPT 将 B 排在 A 之前。这一对的未加权平均: $$\bar{C}^{\text{SPT}} = \frac{0.5 + 40.5}{2} = 20.5 \qquad \bar{C}^{\text{priority}} = \frac{40 + 40.5}{2} = 40.25$$ 该指标宣称 SPT 好了将近**一倍**——尽管它是在服务器宕机 期间完成了一个装饰性修复。 一般而言,当 $q_i$ 与 $p_i$ 统计独立时,SPT 的排序与 优先级的**相关性为零**。实际上,关键任务(宕机、安全事件、 数据丢失)往往比低优先级任务需要更多工作,因此该指标与 优先级系统可能呈**负相关**。$\blacksquare$ ### 5.3 信息销毁 未加权平均将三维任务 $(p_i, q_i, C_i)$ 化约为一维信号 ($C_i$),然后均匀平均。这完全丢弃了优先级信息,并隐式 地反转了大小。 **定理 9(信息销毁)。** 设 $I(\sigma)$ 为调度方案的隐式 优先级排序(位置)与实际优先级分配 $q_i$ 之间的互信息。 对于 SPT: $$I(\sigma_{\text{SPT}}) = 0 \quad \text{当 } p_i \perp q_i$$ **证明。** SPT 仅根据 $p_i$ 分配位置。当 $p_i$ 和 $q_i$ 独立时,知道任务在 SPT 调度中的位置对其优先级提供零信息。 $\blacksquare$ **推论 9.1。** 优化未加权平均完成时间的团队所运行的调度 系统,关于其自身优先级分类携带零信息。他们工单系统中的 优先级字段,就执行顺序而言,纯属装饰。 这是 Austin [18] 所称的不完整度量的根本问题的一个实例: 当度量系统仅捕获相关维度的子集时,对度量的优化会系统性 地劣化未被度量的维度。 ### 5.4 优先级加权延迟成本 定义调度方案的**优先级加权延迟成本**: $$D(\sigma) = \sum_{i=1}^{n} w(q_i) \cdot C_i$$ **定理 10(SPT 与优先级加权延迟成本)。** 使 $D(\sigma)$ 最小化 的最优调度方案是 WSJF(加权最短作业优先, Weighted Shortest Job First): 按 $w(q_i)/p_i$ 降序排列 [1, 5]。SPT 的排序——按 $1/p_i$ 降序—— 完全忽略优先级,当优先级与任务大小相关时,会产生比尊重 优先级的替代方案更高的 $D$。 **证明。** 通过交换论证,交换相邻任务 $i, j$ 使 $D$ 变化: $$\Delta D = w(q_j) \cdot p_i - w(q_i) \cdot p_j$$ 当 $w(q_j)/p_j > w(q_i)/p_i$ 但 $j$ 排在 $i$ 之后时,交换 改善 $D$。因此最优顺序是 $w(q_i)/p_i$ 递减——即 WSJF 规则。 SPT 仅在 $w(q_i) = \text{const}$(所有任务优先级相同)时 等价于 WSJF。 **示例。** 关键($w = 8$, $p = 3$)和低($w = 1$, $p = 2$): - SPT(低优先级在先):$D = 1 \cdot 2 + 8 \cdot 5 = 42$ - WSJF(关键在先):$D = 8 \cdot 3 + 1 \cdot 5 = 29$ SPT 产生了多 45% 的优先级加权延迟。在实际中,关键任务 往往更大(宕机、安全事件),使得这种偏离具有系统性。 $\blacksquare$ --- ## 6. 建议的解决方案 ### 6.1 优先级加权指标 用**优先级加权完成得分(PWCS, Priority-Weighted Completion Score)** 替代未加权平均完成时间: $$\text{PWCS}(\sigma) = \frac{\sum_{i=1}^{n} w(q_i) \cdot \frac{C_i}{p_i}}{\sum_{i=1}^{n} w(q_i)}$$ 这是优先级加权平均减速比。它度量每个任务相对于其大小等待 了多长时间,并按该任务的重要程度加权。越低越好。 **性质:** 1. **尊重优先级。** 关键任务的延迟成本是低优先级任务的 8 倍。 2. **大小公平。** 使用减速比 $C_i / p_i$,因此大型任务不会 因为本身较大而被惩罚。 3. **不可被 SPT 操纵。** 按处理时间重新排序不会系统性地改善 该得分。 4. **在任务均匀时退化为未加权平均。** 是严格的推广。 ### 6.2 最优策略:WSJF **定理 11。** 使优先级加权完成时间 $\text{PWCT}(\sigma) = \sum w(q_i) \cdot C_i / \sum w(q_i)$ 最小化的调度方案,按 $w(q_i)/p_i$ 递减的顺序处理任务——即 **加权最短作业优先(WSJF, Weighted Shortest Job First)** 规则 [1, 5]。 **证明。** 通过交换论证(同定理 10),交换相邻任务 $i, j$ 在 $w(q_j)/p_j > w(q_i)/p_i$ 但 $j$ 排在 $i$ 之后时改善 PWCT(Priority-Weighted Completion Time,优先级加权完成时间)。 因此最优顺序为 $w(q_i)/p_i$ 递减。$\blacksquare$ 在同一优先级类别内,这退化为 SPT(最短优先)。跨类别时, 一个关键的 4 小时任务($w/p = 2.0$)优于一个低优先级的 1 小时任务($w/p = 1.0$)。 **实际注意事项。** 纯粹的 WSJF 可能将微小的低优先级任务 排在大型关键任务之前(一个 15 分钟的低优先级任务有 $w/p = 1/0.25 = 4.0$,超过一个 6 小时关键任务的 $w/p = 8/6 = 1.33$)。在实际中,通过强制执行**严格的优先级 类别排序**并仅在每个类别*内部*应用 WSJF 来缓解此问题。 ### 6.3 应用示例:IT 服务台 考虑一个具有以下工单队列的 IT 团队: | 工单 | 优先级 | 类型 | 预估工时 | |------|--------|------|----------| | T1 | P1(关键) | 邮件服务器宕机 | 6 | | T2 | P2(高) | 远程团队 VPN 故障 | 4 | | T3 | P3(中) | 新员工笔记本配置 | 2 | | T4 | P4(低) | 更新桌面壁纸策略 | 0.5 | | T5 | P3(中) | 安装软件许可证 | 1 | | T6 | P1(关键) | 数据库备份失败 | 3 | | T7 | P2(高) | 打印机集群离线 | 2 | | T8 | P4(低) | 归档旧共享驱动器文件夹 | 0.25 | **SPT 顺序**(优化未加权平均):T8, T4, T5, T3, T7, T6, T2, T1 | 位置 | 工单 | 优先级 | 工时 | 完成时间 | 减速比 | |------|------|--------|------|----------|--------| | 1 | T8(归档文件夹) | P4 低 | 0.25 | 0.25 | 1.0 | | 2 | T4(壁纸) | P4 低 | 0.5 | 0.75 | 1.5 | | 3 | T5(软件) | P3 中 | 1 | 1.75 | 1.75 | | 4 | T3(笔记本) | P3 中 | 2 | 3.75 | 1.875 | | 5 | T7(打印机) | P2 高 | 2 | 5.75 | 2.875 | | 6 | T6(备份) | P1 关键 | 3 | 8.75 | 2.917 | | 7 | T2(VPN) | P2 高 | 4 | 12.75 | 3.188 | | 8 | T1(邮件) | P1 关键 | 6 | 18.75 | 3.125 | **实用 WSJF**(优先级类别优先,类别内 SPT): | 位置 | 工单 | 优先级 | 工时 | 完成时间 | |------|------|--------|------|----------| | 1 | T6(备份) | P1 关键 | 3 | 3 | | 2 | T1(邮件) | P1 关键 | 6 | 9 | | 3 | T7(打印机) | P2 高 | 2 | 11 | | 4 | T2(VPN) | P2 高 | 4 | 15 | | 5 | T5(软件) | P3 中 | 1 | 16 | | 6 | T3(笔记本) | P3 中 | 2 | 18 | | 7 | T8(归档) | P4 低 | 0.25 | 18.25 | | 8 | T4(壁纸) | P4 低 | 0.5 | 18.75 | **对比:** | 指标 | SPT | 实用 WSJF | 优胜者 | |------|-----|-----------|--------| | 未加权平均完成时间 | **6.56 小时** | 13.63 小时 | SPT | | P1 平均解决时间 | 13.75 小时 | **6 小时** | WSJF | | P2 平均解决时间 | 9.25 小时 | **13 小时** | SPT | | 修复邮件服务器的时间 | 18.75 小时 | **9 小时** | WSJF | | 修复数据库备份的时间 | 8.75 小时 | **3 小时** | WSJF | | 更新壁纸的时间 | **0.75 小时** | 18.75 小时 | SPT | 聚合优先级加权完成时间几乎相同(PWCT:10.2 vs 10.17), 因为聚合隐藏了分布性损害。真正的差异在于**按优先级类别 分解的**结果:邮件服务器在 SPT 下宕机 18.75 小时,而在 WSJF 下为 9 小时。数据库备份失败 8.75 小时 vs 3 小时。 未加权指标自信地报告 SPT **效率超过两倍**(6.56 vs 13.63), 奖励了在邮件服务器着火时更新桌面壁纸的团队。 ### 6.4 推荐指标套件 即使是优先级加权的聚合指标也可能无法区分好的和坏的调度方案, 因为聚合隐藏了分布性损害。没有单一指标足够。一个完整的 度量系统应当跟踪: | 指标 | 度量内容 | 公式 | |------|----------|------| | **按优先级类别的平均完成时间** | 各类别响应速度 | 按 $q$ 过滤的 $\bar{C}$ | | **P1 平均解决时间** | 关键事件响应 | $q = 1$ 的 $\bar{C}$ | | **吞吐量** | 原始工作能力 | 完成工时 / 日历时间 | | **老化违规** | 饥饿预防 | 按优先级超出 SLA 的任务 | | **最大完成时间(P1/P2)** | 最坏情况关键响应 | $q \le 2$ 的 $\max(C_i)$ | 关键洞察:**按优先级类别的指标**可以暴露出聚合指标所隐藏 的调度失败。 --- # 第三部分:组织动态 ## 7. 当指标成为产品 第 2–6 节假设客户满意度是*实际体验到的服务质量*的函数。 但存在一种场景,在该场景下此假设不成立,整个论证会崩溃。 ### 7.1 自指指标 假设服务提供方将未加权平均直接报告给客户——在仪表板上、 在 SLA 报告中、在营销页面上——而客户的满意度主要来自 *那个数字*: $$U_{\text{client}} = f\!\left(\bar{C}(\sigma)\right), \quad f' < 0$$ 在此模型下,SPT 确实最大化了客户满意度(定理 1)。吞吐量 不变(定理 6)。业务结果改善:同样的工作完成了,客户更满意。 **本文中的每一个定理在数学上仍然正确。但结论反转了。** 指标不再是一个可以被操纵的代理变量——它*就是*服务质量, 因为客户已同意按该聚合数字来评价质量。 ### 7.2 经济学分析 这创造了一个一致的、稳定的均衡: | 参与者 | 行为 | 结果 | |--------|------|------| | 服务提供方 | 优化未加权平均(SPT) | 指标改善,无额外工作 | | 客户 | 查看仪表板,看到低平均值 | 报告满意 | | 管理层 | 看到满意的客户 + 好的指标 | 奖励团队 | 服务提供方以零边际成本提取满意度,通过优化一个客户已接受 的质量代理数字来实现。 ### 7.3 脆弱性 此均衡仅在客户从不检视自身实际体验时才是稳定的。 以下情况会打破它: 1. **客户检查自己的工单。** 一位邮件服务器宕机 18.75 小时的 CTO 不会因"平均解决时间:6.56 小时"而感到宽慰。最可能 检查的客户恰恰是获得最差服务的客户(定理 4)。 2. **竞争对手提供按工单的 SLA。** "P1 在 4 小时内解决" 对任何有关键需求的客户而言,优于"平均解决时间低于 7 小时"。 3. **团队将指标内化。** 如果团队相信该指标反映了真实绩效, 他们就失去了识别关键工作被忽视的能力。指标成为一种认知 危害。 ### 7.4 一般模式 这种模式——代理变量替代质量,代理变量被优化,质量偏离, 系统在被现实检验之前保持稳定——在各领域反复出现。 Muller [19] 将其广泛记录为"指标固化";Campbell [24] 形式化了将指标用作目标时的腐蚀效应。 | 领域 | 代理指标 | 底层质量 | 偏离 | |------|----------|----------|------| | IT 支持 | 平均解决时间 | 关键系统正常运行时间 | 服务器宕机 19 小时,平均值显示 6.5 | | 教育 | 考试分数 | 实际学习 | 应试教育 | | 医疗 | 患者吞吐量 | 患者结果 | 更快出院,更高再入院率 | | 金融 | 季度盈利 | 长期价值 | 削减成本推高 EPS,侵蚀能力 | | 软件 | 速率(故事点) | 产品质量 | 点数通胀,功能半成品 | ### 7.5 信息不对称 将系统建模为服务提供方(P)和客户(C)之间的博弈。P 观察 到各个 $\{C_i\}$ 并选择 $\sigma$;C 仅观察到 $\bar{C}(\sigma)$。这是一个**道德风险**问题 [10]:P 的最优 策略是最小化可观察信号,不顾不可观察分布如何。 该均衡是一个**混同均衡** [9]:P 报告的指标无论底层优先级 加权绩效如何,看起来都是相同的。它在 C 获得各个 $C_i$ 值 的访问权之前保持稳定——通过客户门户、竞争对手的透明度 或一次足够痛苦的事件。 ### 7.6 令人不安的结论 对"优化未加权平均是否损害业务?"的诚实回答是:**不一定, 只要客户从不查看数字背后的实际情况**。对"这是否可持续?"的 诚实回答是:它的可持续性与任何卖方比买方知道更多的系统 完全一样——在较长时期内稳定,然后在不对称性被刺破时 迅速崩溃。 --- ## 8. 知情的心理代价 第 7 节将服务提供方建模为一个统一的行为者。但团队由个人 组成。当一位团队成员理解了这个证明——当他们*知道*该指标 是人造的,仪表板是一场表演,邮件服务器仍然宕机而他们在 关闭壁纸工单——一种新的成本出现了,而均衡模型忽略了 这一成本。 ### 8.1 隐含变量:团队认知 | 参与者 | 观察到各个 $C_i$ | 观察到 $\bar{C}$ | 理解该证明 | |--------|-------------------|-------------------|------------| | 管理层 | 可能 | 是 | 不一定 | | 团队成员 | **是** | 是 | **是**(在此场景下) | | 客户 | 否 | 是 | 否 | 团队成员拥有完整信息。他们看到工单队列。他们知道邮件服务器 从早上 7 点就宕机了。他们知道自己在关闭一个壁纸工单, 因为这会改善那个数字。他们知道*为什么*。 ### 8.2 完全信息下的认知失调 认知失调 [11] 产生于个体持有矛盾认知时。在不理解*原因*的 情况下,矛盾可以被合理化:"管理层比我们懂。"理解了该证明 则消除了模糊性。团队成员现在同时持有: - **认知 A:** "我是一名有能力的专业人员。我的工作是解决 重要问题。" - **认知 B:** "我正在邮件服务器宕机时关闭一个壁纸工单, 因为该指标在数学上有偏(定理 1),重新排序产生零吞吐量 (定理 6),唯一的受益者是仪表板(第 7 节)。我能证明这一点。" 认知失调现在是*承重的*。可用的解决方式——放弃职业身份认同、 否认该证明、倡导变革或离开——每一种都施加了此前不存在的 成本。 ### 8.3 自我决定理论:三种需求被违反 Deci 和 Ryan 的自我决定理论(SDT, Self-Determination Theory) [12, 13] 识别了预测内在动机的三种需求: **自主性。** 该指标以团队成员知道在数学上次优的方式约束 其选择。一个理解该过程可证明是适得其反的工作者,不可能在 遵循该过程时感到自主。 **胜任感。** 该指标奖励*表面上的*效能(低 $\bar{C}$), 同时对*实际的*效能无感(定理 6)。真正的胜任表现——首先 修复邮件服务器——*被*指标*惩罚*。 **归属感。** 团队成员知道客户的邮件服务器宕机了。他们可以 帮忙。他们却在更新壁纸——不是因为这帮助了任何人,而是因为 这帮助了一个数字。工作与人类影响之间的连接已被切断, 而团队成员能看到断裂的两端。 ### 8.4 道德伤害 道德伤害 [16, 17] 是由"实施、未能阻止、目睹或知晓违反 深层道德信念的行为"[17] 所造成的持久伤害。该概念此后已被 扩展到商业环境 [25]。与倦怠的关键区别在于:**倦怠是因为 做太多而精疲力竭。道德伤害是因为做错事而受到损害。** 一位知道邮件服务器宕机、知道应该修复它、却关闭了一个 壁纸工单、且这样做是因为指标要求如此的团队成员,正在 经历道德伤害的结构性条件。 ### 8.5 习得性无助与指标宿命论 Seligman 的习得性无助理论 [14, 15] 描述了暴露于不可控的 负面结果如何导致被动。其序列为: 1. 指标有缺陷(证明已理解)。 2. 倡导变革。 3. 被拒绝("数字很好看,别兴风作浪")。 4. 以递减的信念重复。 5. 终态:"指标就是这样的。我就关工单吧。" 这不是懒惰。这是对一个惩罚正确行为、奖励错误行为的系统 的理性反应——当个人无力改变该系统时。 ### 8.6 逆向选择螺旋 将第 7 节的均衡与人员流动动态相结合: 1. 组织采用未加权平均。指标看起来很好(SPT)。 2. 有认知的、有能力的团队成员承受心理代价(8.2–8.5)。 3. 这些成员离开。被不理解指标缺陷或不在意的成员替代。 4. 指标继续看起来很好——在 SPT 下它总是如此,无论团队 能力如何(推论 6.1)。 5. 实际服务质量下降,但指标无法检测到(推论 9.1)。 6. 回到步骤 1。 指标*逆向选择*了人才:淘汰那些会改善系统的人,留下那些 不会质疑系统的人。系统在更低的能力水平上稳定下来, 这对其自身的度量装置是不可见的。 ### 8.7 完整成本模型 | 第 7 节(可见的) | 第 8 节(隐藏的) | |-------------------|-------------------| | 客户满意(好数字) | 团队不满(坏现实) | | 吞吐量不变 | 自主努力被撤回 | | 指标改善 | 有能力的成员离开 | | 商业经济稳定 | 机构能力退化 | 这些在不同的时间尺度上运作:均衡在季度层面可见;能力退化 在数年后才可见。完整模型是:**指标有效,且它是破坏性的, 而破坏对指标本身不可见。** 指标是腐蚀钢筋上的新漆。 --- ## 9. 管理者内化:可操作的解决方案 第 2–6 节说应当拒绝该指标。第 7 节说该指标有效(对业务 而言)。第 8 节说它摧毁团队。在实践中,大多数管理者无法 单方面改变指标。最佳解决方案是全公司范围的指标改革。 *可操作的*解决方案是一位知情的管理者现在就能做的事情。 ### 9.1 策略 理解该证明的管理者可以**内化指标的局限性,而不将其传播 给团队**: 1. **主要按优先级调度。** 团队首先处理关键任务。 2. **策略性地穿插小型任务。** 当一个小的低优先级任务可以 在不实质性延迟高优先级工作的情况下完成时,就去做它。 不是因为指标要求,而是因为它也需要完成,且几乎不花 什么代价。 3. **绝不将指标作为动机来源透露。** "趁我们等 P1 供应商 回电话的时候,把这个快速的处理掉"——而不是"我们需要降低 我们的平均值"。团队的内在动机保持完整(第 8 节)。 管理者吸收了指标管理的负担。 ### 9.2 形式化 管理者的问题是一个约束优化问题: $$\min_{\sigma} \sum_{i=1}^{n} w(q_i) \cdot C_i \quad \text{subject to} \quad \bar{C}(\sigma) \le \bar{C}_{\text{target}}$$ **定理 12(优先级调度的有界指标成本)。** 一位在每个优先级 类别*内部*使用 SPT、在类别*之间*使用优先级排序的管理者, 将产生接近 SPT 最优值的指标——差距仅来自跨类别逆序。 **证明概要。** 在每个优先级类别内,SPT 是免费的(所有任务 具有相同优先级)。与全局 SPT 的唯一偏差是跨类别排序。 每个跨类别逆序最多在未加权总和中增加 $p_{\text{large}} - p_{\text{small}}$ 的成本,而这些逆序 的数量受类别数量限制。在实际中,差距通常在 SPT 最优值的 10–20% 以内。$\blacksquare$ ### 9.3 管理者作为信息屏障 | 层级 | 看到指标 | 看到优先级 | 看到证明 | |------|----------|-----------|----------| | 组织 | 是 | 名义上 | 否 | | 管理者 | 是 | 是 | **是** | | 团队 | 否(被屏蔽) | 是 | 无关 | | 客户 | 是(仪表板) | 通过 SLA | 否 | 管理者是唯一同时持有这三部分信息的参与者。这不是操纵—— 他们在以正确的顺序做正确的工作,而指标恰好可以接受, 因为类别内的 SPT 是免费的。 ### 9.4 竞争性失效 当指标在**团队间成为竞争性的**时,此策略失效。 **情形 1:合作型** —— 团队的度量目标为达标而非排名。每位 管理者独立使用内化策略。指标是装饰性的但无害的。这是一个 具有稳定合作均衡的**协调博弈**。 **情形 2:竞争型** —— 团队按 $\bar{C}$ 排名。这是一个 **囚徒困境**: | | 团队 B:优先级优先 | 团队 B:SPT | |---|---|---| | **团队 A:优先级优先** | (好工作, 好工作) | (A 看起来差, B 看起来好) | | **团队 A:SPT** | (A 看起来好, B 看起来差) | (都看起来好, 都做了错误的工作) | 纳什均衡为(SPT, SPT)。内化策略是一个在竞争下 **不稳定的**合作均衡。 ### 9.5 适用范围 | 条件 | 可行性 | |------|--------| | 指标用于健康检查 / 达标检查 | **可行** | | 指标可见但不排名 | **可行** | | 指标跨团队排名 | **脆弱**——需要所有管理者合作 | | 指标与薪酬 / 资源挂钩 | **不可行**——囚徒困境占主导 | | 可在组织层面进行指标改革 | **不需要**——直接修正指标 | **最佳解决方案是全公司范围的。可操作的解决方案是一位理解 本证明的管理者,屏蔽团队不受该指标影响,按优先级调度, 并仅在优先级类别内部使用 SPT 以保持数字在合理范围内。** --- # 第四部分:评估 ## 10. 魔鬼代言人 学术诚信要求承认论证的局限性所在。 ### 10.1 简单性具有真实价值 **论点。** 未加权平均不需要优先级权重、不需要任务大小估计、 不需要校准。 **评估:正确。** 但未加权指标并非避免了假设——它只是将 假设*隐藏*了,隐式地将所有权重设为 1、所有大小设为 1。 一个已知不精确的任务大小估计,仍然比隐式假设所有大小 相同更有信息量。 ### 10.2 最小化等待人数 **论点。** SPT 最小化了总的人-小时等待时间。如果每个任务 代表一个客户,这是最优的。 **评估:数学上正确。** 如果你运营一个车管所,且每个人的 时间同等宝贵,SPT 是正确的策略。当任务与客户不是一一对应、 等待成本不均匀、或该指标用于评估团队而非服务实际队列时, 它就失效了。 ### 10.3 SPT 作为分诊启发式 **论点。** 当任务大小聚集紧密时,SPT 近似于先到先服务 (FIFO),而未加权平均近似于加权平均。 **评估:正确。** 变异系数 $CV = \sigma_p / \bar{p}$ 决定 了失真严重程度: | $CV$ | 任务大小分布 | 失真程度 | |------|-------------|----------| | < 0.3 | 紧密(呼叫中心) | 可忽略 | | 0.3 – 1.0 | 中等(混合 IT) | 中等 | | > 1.0 | 宽泛(典型 IT 队列) | 严重 | 典型的 IT 服务台跨度从 15 分钟到 40 小时以上($CV > 2$)。 失真不是边缘情况——它是默认状态。 ### 10.4 操纵需要恶意 **论点。** 定理表明指标*可以*被操纵,而非*将会*被操纵。 **评估:这是最有力的反驳论点。** 如果指标纯粹是信息性的, 从不影响行为,则操纵激励不存在。然而,任何报告给管理层、 与 OKR 挂钩或在回顾会议中讨论的指标都会影响行为。这是 古德哈特定律 [6, 7]——它适用于善意的团队,与适用于玩世 不恭的团队一样可靠。偏离是有机发生的:完成三个简单工单 "感觉高效",而指标验证了这种感觉。 ### 10.5 未加权平均可辩护的条件 该指标**仅在以下四个条件同时成立时**才可辩护: 1. 任务大小近似均匀($CV < 0.3$) 2. 无优先级区分(所有任务同等重要) 3. 每个任务恰好代表一个客户 4. 该指标不被用于评估、奖励或引导行为 这些条件在该指标最常被使用的系统中很少满足。 --- ## 11. 相关工作 本文位于若干此前未被关联的文献的交汇处。 ### 11.1 调度理论与公平性 Smith [1] 于 1956 年建立了 SPT 最优性结果和 WSJF 规则。 Conway、Maxwell 和 Miller [2] 提供了全面的教科书论述。 基于大小的调度策略的公平性在计算机系统调度领域已有讨论: Bansal 和 Harchol-Balter [22] 研究了 SRPT 的不公平性; Wierman 和 Harchol-Balter [23] 通过与处理器共享的比较形式化 了公平性分类;Angel、Bampis 和 Pascual [21] 度量了 SPT 调度 在公平最优性准则下的质量。 这些先前工作分析的是 CPU 和服务器调度中的公平性。本文将 相同的数学结果应用于*组织任务管理*,其中"调度器"是人类团队, "作业"是具有业务影响优先级的客户请求,而"目标函数"是管理指标。 机制是相同的;后果不同,因为组织调度具有优先级系统、客户 关系和心理成本,而 CPU 调度没有。 ### 11.2 度量失灵 Austin [18] 证明了不完整度量——仅度量相关维度的子集—— 会产生激励,使人优化被度量的维度而牺牲未被度量的维度, 且当度量与奖励挂钩时,这一效应不仅仅是可能的,而是 *不可避免的*。他的信息不对称框架与第 7 节密切对应。本文 为任务调度情形提供了具体的数学机制(定理 1–2),并通过 心理学(第 8 节)扩展了论证,以追溯组织危害的完整链条。 Muller [19] 记录了教育、医疗、警务和金融领域的"指标固化" 现象,为第 7.4 节所理论化的模式提供了广泛的实证证据。 Campbell [24] 形式化了将指标用作目标时的腐蚀效应, 补充了 Goodhart 的原始观察 [6] 和 Strathern 的推广 [7]。 Bevan 和 Hood [26] 实证记录了英国公共卫生系统中的博弈行为 ——包括我们第 5.2 节所描述的"达到目标却偏离要点"的 确切模式。 ### 11.3 指标失灵的心理代价 将道德伤害(Shay [16],Litz 等 [17])应用于商业环境有 近期先例:2024 年 *Journal of Business Ethics* 的一项研究 [25] 明确将该概念扩展到营利性工作场所,发现了与第 8.4 节 所描述的类似的结构性条件。Moore [27] 分析了道德*脱离*—— 在组织压力下使不道德行为成为可能的认知重构。本文讨论的是 互补现象:对*拒绝*脱离的个体造成的伤害。 ### 11.4 本文的新颖之处 各个组成部分——SPT 最优性、古德哈特定律、度量失灵、道德 伤害——都有先例。本文的贡献在于: 1. **守恒律(定理 2)的规范性使用**——作为工作量加权完成 时间*不可能*被操纵的建设性论证,而非仅作为一个理论调度 结果。 2. **优先级分类使指标在代数意义上具有对抗性的具体证明** (定理 8–9)——不仅仅是经验上的不好,而是结构上的矛盾, 在调度方案与优先级系统之间的互信息为零。 3. **从数学证明经信息不对称经心理伤害到逆向选择螺旋的 完整链条**——追溯单一指标从 Smith(1956)到组织空心化 的过程。 4. **管理者内化策略**(第 9 节),附带其在团队间竞争下的 稳定性与失效条件的正式博弈论分析。 5. **将调度理论应用于组织管理批判**——证明一个常用的团队 指标具有特定的、可量化的病理特征,而非仅凭轶事或一般 原则立论。 --- ## 12. 结论 未加权平均完成时间是一个**有偏统计量**,它: 1. **可被调度策略操纵**(定理 1),不同于工作量加权完成 时间的调度不变性(定理 2)。 2. **激励大型任务的饥饿**(定理 3)。 3. **降低客户满意度**,且零补偿性生产力增益(定理 7)。 4. **积极与优先级系统矛盾**,关于业务影响分类携带零信息 (定理 9)。 5. **在其调度建议中完全忽略优先级**,当优先级与大小不是 完全负相关时,产生次优的优先级加权延迟(定理 10)。 一个可以通过重新排列工作顺序来改善——而无需做任何额外 工作——的指标,度量的是调度策略,而非系统的能力。当与 优先级系统结合时,它推荐的调度方案会对最高优先级的工作 造成最大的损害。 当该指标被报告给客户时,它创造了一种信息不对称(第 7 节), 其商业均衡是有利可图的但脆弱的。当团队成员理解其缺陷时, 它侵犯他们的内在动机,并选择性地导致最有能力的人离开 (第 8 节)。一位知情的管理者可以通过约束优化部分地 缓解这些效应(第 9 节),但这种合作策略在团队间竞争下 是不稳定的。 未加权平均仅在狭窄条件下可辩护(第 10.5 节):均匀的 任务大小、无优先级、一对一的客户-任务映射以及无行为影响。 这些条件很少满足。 **未加权平均完成时间不是一个公正或准确的任务执行绩效度量。 将其作为团队指标采用,将理性地产生复杂工作的饥饿、既定 优先级的违反、不公平的客户结果,以及在不存在生产力的地方 制造生产力的幻觉。** 最佳解决方案是组织层面的指标改革。可操作的解决方案是 一位理解本证明的管理者。 --- ## 参考文献 ### Scheduling Theory [1] Smith, W. E. (1956). Various optimizers for single-stage production. *Naval Research Logistics Quarterly*, 3(1–2), 59–66. doi:[10.1002/nav.3800030106](https://doi.org/10.1002/nav.3800030106) > SPT 最优性结果(定理 1)、加权完成时间规则 $w_i/p_i$ 降序 > (WSJF,定理 11)以及全文所用的相邻作业成对交换(交换论证) > 证明技术的来源。 [2] Conway, R. W., Maxwell, W. L., & Miller, L. W. (1967). *Theory of Scheduling*. Addison-Wesley. > 单机调度理论的标准教科书论述,扩展了 Smith 的结果。 [3] Little, J. D. C. (1961). A proof for the queuing formula: L = λW. *Operations Research*, 9(3), 383–387. doi:[10.1287/opre.9.3.383](https://doi.org/10.1287/opre.9.3.383) > Little 定律的首次严格证明。在第 3.2 节中因排队论背景而引用。 [4] Little, J. D. C. (2011). Little's Law as viewed on its 50th anniversary. *Operations Research*, 59(3), 536–549. doi:[10.1287/opre.1110.0941](https://doi.org/10.1287/opre.1110.0941) > 回顾性文章,讨论适用范围、局限性和常见误用。 [5] Reinertsen, D. G. (2009). *The Principles of Product Development Flow: Second Generation Lean Product Development*. Celeritas Publishing. ISBN: 978-0-9844512-0-8. > 在敏捷/精益背景下推广了 WSJF 和"延迟成本/工期"的概念。 > 数学基础源自 Smith(1956)[1]。 ### Measurement and Incentives [6] Goodhart, C. A. E. (1984). Problems of monetary management: The U.K. experience. In *Monetary Theory and Practice* (pp. 91–121). Macmillan. > 古德哈特定律的来源:"任何被观察到的统计规律性,一旦被用于 > 控制目的而施加压力,就会趋于崩溃。" [7] Strathern, M. (1997). 'Improving ratings': Audit in the British university system. *European Review*, 5(3), 305–321. doi:[10.1002/(SICI)1234-981X(199707)5:3<305::AID-EURO184>3.0.CO;2-4](https://doi.org/10.1002/(SICI)1234-981X(199707)5:3%3C305::AID-EURO184%3E3.0.CO;2-4) > 古德哈特定律的推广:"当一个度量成为目标时,它就不再是一个 > 好的度量。" ### Behavioral Economics [8] Kahneman, D., & Tversky, A. (1979). Prospect theory: An analysis of decision under risk. *Econometrica*, 47(2), 263–292. doi:[10.2307/1914185](https://doi.org/10.2307/1914185) > 建立了损失厌恶理论。在第 4.5 节中引用。 ### Game Theory and Contract Theory [9] Akerlof, G. A. (1970). The market for "lemons": Quality uncertainty and the market mechanism. *The Quarterly Journal of Economics*, 84(3), 488–500. doi:[10.2307/1879431](https://doi.org/10.2307/1879431) > 信息不对称与逆向选择。第 7.5 节中的混同均衡在结构上 > 与之类似。 [10] Hölmstrom, B. (1979). Moral hazard and observability. *The Bell Journal of Economics*, 10(1), 74–91. doi:[10.2307/3003320](https://doi.org/10.2307/3003320) > 道德风险的形式化处理。第 7.5 节中的指标报告场景是一个 > 道德风险问题。 ### Psychology [11] Festinger, L. (1957). *A Theory of Cognitive Dissonance*. Stanford University Press. ISBN: 978-0-8047-0131-0. > 基础理论。在第 8.2 节中引用。 [12] Deci, E. L., & Ryan, R. M. (1985). *Intrinsic Motivation and Self-Determination in Human Behavior*. Plenum Press. ISBN: 978-0-306-42022-1. > 自我决定理论的原始论述。在第 8.3 节中引用。 [13] Ryan, R. M., & Deci, E. L. (2000). Self-determination theory and the facilitation of intrinsic motivation, social development, and well-being. *American Psychologist*, 55(1), 68–78. doi:[10.1037/0003-066X.55.1.68](https://doi.org/10.1037/0003-066X.55.1.68) > 自我决定理论综述,将需求满足与内在动机和幸福感联系起来。 [14] Seligman, M. E. P., & Maier, S. F. (1967). Failure to escape traumatic shock. *Journal of Experimental Psychology*, 74(1), 1–9. doi:[10.1037/h0024514](https://doi.org/10.1037/h0024514) > 习得性无助的原始实验证明。在第 8.5 节中引用。 [15] Seligman, M. E. P. (1975). *Helplessness: On Depression, Development, and Death*. W. H. Freeman. ISBN: 978-0-7167-0752-3. > 扩展论述,将习得性无助与人类抑郁和制度行为联系起来。 [16] Shay, J. (1994). *Achilles in Vietnam: Combat Trauma and the Undoing of Character*. Atheneum / Simon & Schuster. ISBN: 978-0-689-12182-3. > 引入了道德伤害的概念。在第 8.4 节中引用。 [17] Litz, B. T., Stein, N., Delaney, E., Lebowitz, L., Nash, W. P., Silva, C., & Maguen, S. (2009). Moral injury and moral repair in war veterans: A preliminary model and intervention strategy. *Clinical Psychology Review*, 29(8), 695–706. doi:[10.1016/j.cpr.2009.07.003](https://doi.org/10.1016/j.cpr.2009.07.003) > 将道德伤害形式化为一个临床构念。第 8.4 节引用了其定义。 ### Organizational Measurement [18] Austin, R. D. (1996). *Measuring and Managing Performance in Organizations*. Dorset House. ISBN: 978-0-932633-36-1. > 证明了不完整度量不可避免地产生激励,使人优化被度量的维度 > 而牺牲未被度量的维度。信息不对称框架与第 7 节密切对应。 > 本文论证最重要的先驱作品。 [19] Muller, J. Z. (2018). *The Tyranny of Metrics*. Princeton University Press. ISBN: 978-0-691-17495-2. > 对教育、医疗、警务和金融领域"指标固化"的全面论述。 > 为第 7.4 节所理论化的模式提供了广泛的实证证据。 ### Scheduling Fairness [20] Coffman, E. G., Shanthikumar, J. G., & Yao, D. D. (1992). Multiclass queueing systems: Polymatroid structure and optimal scheduling control. *Operations Research*, 40(S2), S293–S299. > 调度中的守恒律。工作量加权完成时间的调度不变性(定理 2) > 是这些守恒律的一个实例。 [21] Angel, E., Bampis, E., & Pascual, F. (2008). How good are SPT schedules for fair optimality criteria? *Annals of Operations Research*, 159(1), 53–64. doi:[10.1007/s10479-007-0267-0](https://doi.org/10.1007/s10479-007-0267-0) > 直接度量 SPT 调度在公平性准则下的质量。在调度理论中, > 是第 4 节公平性分析最接近的先驱。 [22] Bansal, N., & Harchol-Balter, M. (2001). Analysis of SRPT scheduling: Investigating unfairness. *ACM SIGMETRICS Performance Evaluation Review*, 29(1), 279–290. doi:[10.1145/384268.378792](https://doi.org/10.1145/384268.378792) > 调查了 SRPT 在计算机调度中不公平地惩罚大型作业的观点。 > 认为不公平性小于人们的认知,但承认核心张力。 [23] Wierman, A., & Harchol-Balter, M. (2003). Classifying scheduling policies with respect to unfairness in an M/GI/1. *ACM SIGMETRICS Performance Evaluation Review*, 31(1), 238–249. > 通过与处理器共享的比较,形式化了调度策略的公平性定义。 ### Additional References [24] Campbell, D. T. (1979). Assessing the impact of planned social change. *Evaluation and Program Planning*, 2(1), 67–90. doi:[10.1016/0149-7189(79)90048-X](https://doi.org/10.1016/0149-7189(79)90048-X) > Campbell 定律:"任何定量社会指标越是被用于社会决策, > 就越会受到腐蚀压力,也越容易扭曲和腐蚀它所要监测的 > 社会过程。"与古德哈特定律 [6] 互补。 [25] Ferreira, C. M., et al. (2024). It's business: A qualitative study of moral injury in business settings. *Journal of Business Ethics*. doi:[10.1007/s10551-024-05615-0](https://doi.org/10.1007/s10551-024-05615-0) > 将道德伤害扩展到营利性工作场所。验证了第 8.4 节将 > Shay/Litz 的概念应用于军事和医疗之外环境的做法。 [26] Bevan, G., & Hood, C. (2006). What's measured is what matters: Targets and gaming in the English public health care system. *Public Administration*, 84(3), 517–538. doi:[10.1111/j.1467-9299.2006.00600.x](https://doi.org/10.1111/j.1467-9299.2006.00600.x) > 实证记录了博弈行为,包括"达到目标却偏离要点"。为第 5.2 节 > 的优先级-指标矛盾提供了现实世界的证据。 [27] Moore, C. (2012). Why employees do bad things: Moral disengagement and unethical organizational behavior. *Personnel Psychology*, 65(1), 1–48. doi:[10.1111/j.1744-6570.2011.01237.x](https://doi.org/10.1111/j.1744-6570.2011.01237.x) > 分析了道德*脱离*——使不道德行为在组织压力下成为可能的 > 认知重构。第 8 节讨论的是互补现象:对*拒绝*脱离的个体 > 造成的伤害。 --- *本证明通过对话方式发展并于 2026-03-28 正式化。*