task-queue-proof/README.zh.md

# 未加权平均完成时间不是任务调度的公正指标

一项数学证明：未加权平均任务完成时间是一个有偏统计量，
它激励挑选简单工作的行为，且它所显示的任何调度优势
都是指标本身的伪影——而非真实吞吐量或服务质量的反映。

---

## 1. 引言

许多组织通过**未加权平均完成时间**来衡量任务执行绩效：即从任务提交
到任务解决之间的平均小时（或天）数，每个任务不论规模或优先级
一律等权计算。

本文证明，该指标不仅仅是不精确的，而且是结构性有偏的。它可以
通过重新排列工作顺序来改善，而无需做任何额外工作（定理 1），
而一个适当加权的替代指标则完全不受调度操纵的影响（定理 2）。
当与优先级系统结合使用时，该指标会积极地与组织自身的优先级
分类相矛盾（定理 9）。

论证分四个部分展开：

- **第一部分**（第 2–4 节）建立数学基础：未加权平均可被
  最短处理时间优先（SPT, Shortest Processing Time）调度策略所操纵，
  工作量加权平均与调度顺序无关，由此产生的服务质量后果
  可证明是负面的。

- **第二部分**（第 5–6 节）将模型扩展到具有优先级分类的任务，
  证明该指标会与优先级系统产生对抗性，并提出加权替代方案，
  附带一个 IT 服务台的实例。

- **第三部分**（第 7–9 节）考察组织动态：当指标被报告给
  客户时会发生什么（信息不对称），当团队成员理解其缺陷时
  会发生什么（心理伤害），以及一位知情的管理者能做什么
  （带博弈论稳定性分析的约束优化）。

- **第四部分**（第 10–12 节）提出诚实的反驳意见，将本工作
  置于现有文献中定位，并作出结论。

核心结果建立在 Smith（1956）的奠基性调度理论 [1] 之上，
通过博弈论 [9, 10]、组织度量理论 [18, 19] 和心理学 [11–17]
加以扩展，从而追溯出一条完整的链条：从关于某一特定指标的
数学证明到组织层面的后果。

---

# 第一部分：数学基础

## 2. 定义

设有 **n** 个任务，其处理时间为 $p_1, p_2, \ldots, p_n$。

**调度方案** $\sigma$ 是 $\{1, 2, \ldots, n\}$ 的一个排列，
将任务分配到单一执行者的执行顺序上。

在调度方案 $\sigma$ 下，任务 $\sigma(k)$ 的**完成时间**为：

$$C_{\sigma(k)} = \sum_{j=1}^{k} p_{\sigma(j)}$$

**未加权平均完成时间**为：

$$\bar{C}(\sigma) = \frac{1}{n} \sum_{k=1}^{n} C_{\sigma(k)}$$

**工作量加权平均完成时间**为：

$$\bar{C}_w(\sigma) = \frac{\sum_{k=1}^{n} p_{\sigma(k)} \cdot C_{\sigma(k)}}{\sum_{k=1}^{n} p_{\sigma(k)}}$$

---

## 3. 核心结果

### 3.1 未加权平均可被操纵

**定理 1**（Smith, 1956 [1]）**。** 使 $\bar{C}(\sigma)$ 最小化的调度方案
是最短处理时间优先（SPT）：按 $p_{\sigma(1)} \le p_{\sigma(2)} \le \cdots \le p_{\sigma(n)}$ 排序任务。

**证明（交换论证 [1, 2]）。**

考虑任意调度方案 $\sigma$，其中两个相邻任务 $i, j$ 满足
$p_i > p_j$，且任务 $i$ 被安排在任务 $j$ 的紧前方。设 $t$
为任务 $i$ 的开始时间。

| | 任务 $i$ 完成 | 任务 $j$ 完成 | 合计 |
|---|---|---|---|
| **交换前**（$i$ 在 $j$ 前） | $t + p_i$ | $t + p_i + p_j$ | $2t + 2p_i + p_j$ |
| **交换后**（$j$ 在 $i$ 前） | $t + p_j$ | $t + p_j + p_i$ | $2t + p_i + 2p_j$ |

完成时间之和的变化为：

$$(2p_i + p_j) - (p_i + 2p_j) = p_i - p_j > 0$$

每次将较长任务与其后方较短任务交换，都会严格减少完成时间
总和。任何非 SPT 调度方案都包含这样的相邻对。反复交换收敛于
SPT。因此 SPT 唯一地最小化 $\bar{C}(\sigma)$。$\blacksquare$

### 3.2 工作量加权平均与调度方案无关

**定理 2。** 工作量加权平均完成时间 $\bar{C}_w(\sigma)$
对于所有调度方案 $\sigma$ 均相同。

**证明。**

展开分子：

$$\sum_{k=1}^{n} p_{\sigma(k)} \cdot C_{\sigma(k)} = \sum_{k=1}^{n} p_{\sigma(k)} \sum_{j=1}^{k} p_{\sigma(j)}$$

令 $a = \sigma(k)$，$b = \sigma(j)$ 重新标号。该双重求和计算
所有满足 $b$ 排在 $a$ 之前或与 $a$ 同位的有序对 $(a, b)$：

$$= \sum_{\substack{a, b \\ b \preceq_\sigma a}} p_a \, p_b$$

对于 $a \ne b$ 的任何一对，$\{b \preceq_\sigma a\}$ 或
$\{a \prec_\sigma b\}$ 恰好成立其一。对角项（$a = b$）
无论顺序如何，贡献 $p_a^2$。因此：

$$\sum_{\substack{a, b \\ b \preceq_\sigma a}} p_a \, p_b = \sum_{a} p_a^2 + \sum_{\substack{a \ne b \\ b \prec_\sigma a}} p_a \, p_b$$

连同互补求和，两个非对角求和覆盖所有无序对：

$$\sum_{\substack{a \ne b \\ b \prec_\sigma a}} p_a \, p_b + \sum_{\substack{a \ne b \\ a \prec_\sigma b}} p_a \, p_b = \sum_{a \ne b} p_a \, p_b$$

右侧与调度方案无关。由 $p_a p_b$ 的对称性，两个非对角
求和相等：

$$\sum_{\substack{a \ne b \\ b \prec_\sigma a}} p_a \, p_b = \frac{1}{2} \sum_{a \ne b} p_a \, p_b$$

因此：

$$\sum_{k=1}^{n} p_{\sigma(k)} \cdot C_{\sigma(k)} = \sum_a p_a^2 + \frac{1}{2} \sum_{a \ne b} p_a \, p_b = \frac{1}{2}\left(\sum_a p_a\right)^2 + \frac{1}{2}\sum_a p_a^2$$

该表达式不包含对 $\sigma$ 的引用。由于分母 $\sum p_a$ 同样
与调度方案无关：

$$\bar{C}_w(\sigma) = \frac{\frac{1}{2}\left(\sum p_a\right)^2 + \frac{1}{2}\sum p_a^2}{\sum p_a}$$

在**所有调度方案下均为常数**。$\blacksquare$

这是 Coffman、Shanthikumar 和 Yao [20] 所发现的调度守恒律
的一个实例。该不变性对应于度量一个*工作*单元等待了多长时间，
而非一个*任务*等待了多长时间——未加权统计量计算的是完成次数
而非工作量，这正是它可被操纵的原因。（另见 Little [3, 4] 的
排队论背景，需注意 Little 定律仅直接适用于稳态系统，而非
本文分析的批处理情形。）

### 3.3 说明性示例

两个任务：$A$，$p_A = 1$ 小时；$B$，$p_B = 10$ 小时。

| 调度方案 | $C_A$ | $C_B$ | 未加权平均 | 工作量加权平均 |
|----------|-------|-------|------------|---------------|
| SPT（A 在先） | 1 | 11 | 6.0 | 111/11 ≈ 10.09 |
| 逆序（B 在先） | 11 | 10 | 10.5 | 111/11 ≈ 10.09 |

SPT 在未加权指标上看起来好了 **4.5 小时**，但在工作量加权
指标上**改善为零**。这种表面优势之所以存在，仅仅是因为
未加权统计量让 1 小时的任务与 10 小时的任务拥有相同的"投票权"。

---

## 4. 对服务质量的影响

### 4.1 大型任务的饥饿

**定理 3（指标偏差）。** 任何最小化未加权平均完成时间的
调度策略，必然会最大化最大任务的完成时间。

**证明。** SPT 将最大的任务放在最后。其完成时间等于总处理
时间 $\sum p_i$，这是任何单个任务可能的最大完成时间。在任何
不将最大任务放在最后的调度方案中，该任务严格更早完成。
$\blacksquare$

这产生了一种**饥饿激励**：理性地优化未加权统计量的行为者
会无限期地推迟大型任务，转而处理小型任务。Austin [18]
在组织绩效管理的背景下识别了这一普遍模式——不完整的度量
会产生激励，使人们优化被度量的维度，而牺牲未被度量的维度。
定理 3 提供了任务调度场景下的具体机制。

### 4.2 最大任务的最大完成时间

**定理 4（SPT 唯一地最大化最大任务的完成时间）。**
在所有调度方案中，SPT 是唯一使最大任务获得最大可能完成
时间（$\sum p_i$）的策略。

**证明。** SPT 按 $p_i$ 升序排列任务，将最大任务 $p_{\max}$
置于最后位置。任何调度方案中最后一个任务的完成时间为
$\sum_{i=1}^{n} p_i$，这是任何单个任务所能获得的最大值。
在任何不将 $p_{\max}$ 放在最后的调度方案中，它严格在
$\sum p_i$ 之前完成。$\blacksquare$

**推论 4.1。** 优化未加权平均完成时间的团队将系统性地为
需求最复杂的客户提供最差的体验。这不是副作用——这是指标
改善的*机制*。

**关于减速比的说明。** SPT 实际上*压缩*了减速比
（$S_i = C_i / p_i$），因为处于较后位置的大型任务具有较大
的分母，可以吸收累积的总和。例如，对于任务 $[1, 5, 10]$：
SPT 给出减速比 $[1, 1.2, 1.6]$（低方差），而最长处理时间
优先（LPT）给出 $[1, 3, 16]$（高方差）。SPT 对大型任务
客户的伤害在减速比中并不可见——它在**绝对完成时间**中可见。
这一区分很重要：调度公平性文献 [21, 22, 23] 主要通过基于
减速比的度量来讨论 SPT/SRPT 的不公平性，这可能掩盖下文
所证明的绝对延迟负担。

### 4.3 延迟集中

**定理 5（SPT 将延迟集中在最大任务上）。** 在 SPT 下，
最大任务承受的绝对延迟多于任何其他调度方案。

**证明。** 定义绝对延迟为 $\Delta_i = C_i - p_i$（等待时间，
与自身大小无关）。在 SPT 下，最大任务处于位置 $n$：

$$\Delta_{\max\text{-task}}^{\text{SPT}} = C_n - p_n = \sum_{i=1}^{n-1} p_i$$

这是所有其他任务处理时间之和——任何单个任务可能的最大延迟。
在任何最大任务不在最后的调度方案中，其延迟严格更小。同时，
SPT 给最小任务零延迟（$\Delta_1^{\text{SPT}} = 0$）。全部
排队负担从小型任务转移到了大型任务。$\blacksquare$

SPT 通过将延迟集中到在减速比意义上最能吸收它的任务上，
来最小化*总*延迟（有利于总体效率）。但在绝对意义上——等待
的小时数——最大的任务承受了全部重量。

### 4.4 吞吐量不变性

**定理 6（吞吐量不变性）。** 在任何时间范围 $T$ 内完成
的总工作量在所有调度策略下均相同。

**证明。** 执行者以固定速率处理工作。在任何时间范围
$T \ge \sum p_i$ 内，完成的总工作量恰好为 $\sum p_i$，
与顺序无关。对于有持续到达任务的稳态情形，长期吞吐量由
服务速率 $\mu$ 决定，完全不依赖于调度：

$$\lim_{T \to \infty} \frac{W(T)}{T} = \mu \quad \text{对所有调度方案 } \sigma$$

$\blacksquare$

**推论 6.1。** 一个从任何调度策略切换到 SPT 的团队，将在
未加权平均完成时间上观察到改善，而**实际吞吐量零变化**。
指标改善了。产出没有改变。

### 4.5 复合效应

结合定理 4、5 和 6：

| 度量 | 优化未加权平均的效果 |
|------|---------------------|
| 吞吐量（工作量/时间） | 无变化（定理 6） |
| 小型任务的延迟 | 最小化——趋近于零（SPT） |
| 大型任务的延迟 | **最大化**——承受全部排队负担（定理 5） |
| 最大任务的完成时间 | **最大可能值**：$\sum p_i$（定理 4） |

对感知质量的净效果是负面的，因为：

1. **损失厌恶是不对称的** [8]。一个 100 小时任务被降低优先级
   的客户会经历一个巨大的、显著的负面体验。一个 1 小时任务
   被加速的客户只会经历一个微小的、往往不被注意的正面体验。

2. **高工作量任务与高价值客户相关。** 大型任务不成比例地
   更可能来自主要客户、复杂合同或关键业务需求。

3. **饥饿效应会累积。** 在连续系统中（定理 3），大型任务
   可能被**无限期推迟**，因为新的小型任务持续到达。

**定理 7（核心结果）。** 对于处理非均匀大小任务的团队，
采用未加权平均完成时间作为绩效指标：

(a) 提供**零生产力增益**（定理 6），同时
(b) **将最大可能完成时间分配给**最大的任务（定理 4），并且
(c) **将所有排队延迟集中**到最大的任务上，同时消除最小
    任务的延迟（定理 5）。

这不是一个权衡。该指标创造了一个纯粹的服务质量转移：
从高工作量客户转向低工作量客户，而没有获得任何净工作量。
$\blacksquare$

---

# 第二部分：优先级系统

## 5. 在优先级分类下的失效

前述章节证明了当任务大小不同时，未加权平均完成时间是有偏的。
我们现在将证明，引入**优先级系统**——几乎所有实际团队都使用
优先级系统——会导致该指标不仅仅是有偏的，而是**积极地与
组织的既定目标对抗**。

### 5.1 扩展模型：带优先级的任务

设每个任务 $i$ 具有处理时间 $p_i$ 和优先级类别
$q_i \in \{1, 2, 3, 4\}$，其中 1 为最高优先级（关键），
4 为最低（装饰性/增强型）。分配优先级权重：

$$w(q) = \begin{cases} 8 & q = 1 \text{（关键）} \\ 4 & q = 2 \text{（高）} \\ 2 & q = 3 \text{（中）} \\ 1 & q = 4 \text{（低）} \end{cases}$$

具体权重仅为说明性的；结论对任何严格递减的权重函数成立。
关键性质是：优先级根据**业务影响**而非任务大小来分配。

### 5.2 指标与优先级系统相矛盾

**定理 8（优先级-大小逆转）。** 当优先级与任务大小无关时，
最小化未加权平均完成时间的调度方案（SPT）将在期望意义上，
在更大的高优先级任务之前完成低优先级任务。

**证明。** SPT 按 $p_i$ 升序排列任务，不考虑 $q_i$。
考虑两个任务：

- 任务 A：$p_A = 40$ 小时，$q_A = 1$（关键——例如服务器宕机）
- 任务 B：$p_B = 0.5$ 小时，$q_B = 4$（低——例如界面装饰修复）

SPT 将 B 排在 A 之前。这一对的未加权平均：

$$\bar{C}^{\text{SPT}} = \frac{0.5 + 40.5}{2} = 20.5 \qquad \bar{C}^{\text{priority}} = \frac{40 + 40.5}{2} = 40.25$$

该指标宣称 SPT 好了将近**一倍**——尽管它是在服务器宕机
期间完成了一个装饰性修复。

一般而言，当 $q_i$ 与 $p_i$ 统计独立时，SPT 的排序与
优先级的**相关性为零**。实际上，关键任务（宕机、安全事件、
数据丢失）往往比低优先级任务需要更多工作，因此该指标与
优先级系统可能呈**负相关**。$\blacksquare$

### 5.3 信息销毁

未加权平均将三维任务 $(p_i, q_i, C_i)$ 化约为一维信号
（$C_i$），然后均匀平均。这完全丢弃了优先级信息，并隐式
地反转了大小。

**定理 9（信息销毁）。** 设 $I(\sigma)$ 为调度方案的隐式
优先级排序（位置）与实际优先级分配 $q_i$ 之间的互信息。
对于 SPT：

$$I(\sigma_{\text{SPT}}) = 0 \quad \text{当 } p_i \perp q_i$$

**证明。** SPT 仅根据 $p_i$ 分配位置。当 $p_i$ 和 $q_i$
独立时，知道任务在 SPT 调度中的位置对其优先级提供零信息。
$\blacksquare$

**推论 9.1。** 优化未加权平均完成时间的团队所运行的调度
系统，关于其自身优先级分类携带零信息。他们工单系统中的
优先级字段，就执行顺序而言，纯属装饰。

这是 Austin [18] 所称的不完整度量的根本问题的一个实例：
当度量系统仅捕获相关维度的子集时，对度量的优化会系统性
地劣化未被度量的维度。

### 5.4 优先级加权延迟成本

定义调度方案的**优先级加权延迟成本**：

$$D(\sigma) = \sum_{i=1}^{n} w(q_i) \cdot C_i$$

**定理 10（SPT 与优先级加权延迟成本）。** 使 $D(\sigma)$ 最小化
的最优调度方案是 WSJF（加权最短作业优先, Weighted Shortest Job First）：
按 $w(q_i)/p_i$ 降序排列 [1, 5]。SPT 的排序——按 $1/p_i$ 降序——
完全忽略优先级，当优先级与任务大小相关时，会产生比尊重
优先级的替代方案更高的 $D$。

**证明。** 通过交换论证，交换相邻任务 $i, j$ 使 $D$ 变化：

$$\Delta D = w(q_j) \cdot p_i - w(q_i) \cdot p_j$$

当 $w(q_j)/p_j > w(q_i)/p_i$ 但 $j$ 排在 $i$ 之后时，交换
改善 $D$。因此最优顺序是 $w(q_i)/p_i$ 递减——即 WSJF 规则。
SPT 仅在 $w(q_i) = \text{const}$（所有任务优先级相同）时
等价于 WSJF。

**示例。** 关键（$w = 8$, $p = 3$）和低（$w = 1$, $p = 2$）：

- SPT（低优先级在先）：$D = 1 \cdot 2 + 8 \cdot 5 = 42$
- WSJF（关键在先）：$D = 8 \cdot 3 + 1 \cdot 5 = 29$

SPT 产生了多 45% 的优先级加权延迟。在实际中，关键任务
往往更大（宕机、安全事件），使得这种偏离具有系统性。
$\blacksquare$

---

## 6. 建议的解决方案

### 6.1 优先级加权指标

用**优先级加权完成得分（PWCS, Priority-Weighted Completion Score）**
替代未加权平均完成时间：

$$\text{PWCS}(\sigma) = \frac{\sum_{i=1}^{n} w(q_i) \cdot \frac{C_i}{p_i}}{\sum_{i=1}^{n} w(q_i)}$$

这是优先级加权平均减速比。它度量每个任务相对于其大小等待
了多长时间，并按该任务的重要程度加权。越低越好。

**性质：**

1. **尊重优先级。** 关键任务的延迟成本是低优先级任务的 8 倍。
2. **大小公平。** 使用减速比 $C_i / p_i$，因此大型任务不会
   因为本身较大而被惩罚。
3. **不可被 SPT 操纵。** 按处理时间重新排序不会系统性地改善
   该得分。
4. **在任务均匀时退化为未加权平均。** 是严格的推广。

### 6.2 最优策略：WSJF

**定理 11。** 使优先级加权完成时间
$\text{PWCT}(\sigma) = \sum w(q_i) \cdot C_i / \sum w(q_i)$
最小化的调度方案，按 $w(q_i)/p_i$ 递减的顺序处理任务——即
**加权最短作业优先（WSJF, Weighted Shortest Job First）**
规则 [1, 5]。

**证明。** 通过交换论证（同定理 10），交换相邻任务 $i, j$
在 $w(q_j)/p_j > w(q_i)/p_i$ 但 $j$ 排在 $i$ 之后时改善
PWCT（Priority-Weighted Completion Time，优先级加权完成时间）。
因此最优顺序为 $w(q_i)/p_i$ 递减。$\blacksquare$

在同一优先级类别内，这退化为 SPT（最短优先）。跨类别时，
一个关键的 4 小时任务（$w/p = 2.0$）优于一个低优先级的
1 小时任务（$w/p = 1.0$）。

**实际注意事项。** 纯粹的 WSJF 可能将微小的低优先级任务
排在大型关键任务之前（一个 15 分钟的低优先级任务有
$w/p = 1/0.25 = 4.0$，超过一个 6 小时关键任务的
$w/p = 8/6 = 1.33$）。在实际中，通过强制执行**严格的优先级
类别排序**并仅在每个类别*内部*应用 WSJF 来缓解此问题。

### 6.3 应用示例：IT 服务台

考虑一个具有以下工单队列的 IT 团队：

| 工单 | 优先级 | 类型 | 预估工时 |
|------|--------|------|----------|
| T1 | P1（关键） | 邮件服务器宕机 | 6 |
| T2 | P2（高） | 远程团队 VPN 故障 | 4 |
| T3 | P3（中） | 新员工笔记本配置 | 2 |
| T4 | P4（低） | 更新桌面壁纸策略 | 0.5 |
| T5 | P3（中） | 安装软件许可证 | 1 |
| T6 | P1（关键） | 数据库备份失败 | 3 |
| T7 | P2（高） | 打印机集群离线 | 2 |
| T8 | P4（低） | 归档旧共享驱动器文件夹 | 0.25 |

**SPT 顺序**（优化未加权平均）：T8, T4, T5, T3, T7, T6, T2, T1

| 位置 | 工单 | 优先级 | 工时 | 完成时间 | 减速比 |
|------|------|--------|------|----------|--------|
| 1 | T8（归档文件夹） | P4 低 | 0.25 | 0.25 | 1.0 |
| 2 | T4（壁纸） | P4 低 | 0.5 | 0.75 | 1.5 |
| 3 | T5（软件） | P3 中 | 1 | 1.75 | 1.75 |
| 4 | T3（笔记本） | P3 中 | 2 | 3.75 | 1.875 |
| 5 | T7（打印机） | P2 高 | 2 | 5.75 | 2.875 |
| 6 | T6（备份） | P1 关键 | 3 | 8.75 | 2.917 |
| 7 | T2（VPN） | P2 高 | 4 | 12.75 | 3.188 |
| 8 | T1（邮件） | P1 关键 | 6 | 18.75 | 3.125 |

**实用 WSJF**（优先级类别优先，类别内 SPT）：

| 位置 | 工单 | 优先级 | 工时 | 完成时间 |
|------|------|--------|------|----------|
| 1 | T6（备份） | P1 关键 | 3 | 3 |
| 2 | T1（邮件） | P1 关键 | 6 | 9 |
| 3 | T7（打印机） | P2 高 | 2 | 11 |
| 4 | T2（VPN） | P2 高 | 4 | 15 |
| 5 | T5（软件） | P3 中 | 1 | 16 |
| 6 | T3（笔记本） | P3 中 | 2 | 18 |
| 7 | T8（归档） | P4 低 | 0.25 | 18.25 |
| 8 | T4（壁纸） | P4 低 | 0.5 | 18.75 |

**对比：**

| 指标 | SPT | 实用 WSJF | 优胜者 |
|------|-----|-----------|--------|
| 未加权平均完成时间 | **6.56 小时** | 13.63 小时 | SPT |
| P1 平均解决时间 | 13.75 小时 | **6 小时** | WSJF |
| P2 平均解决时间 | 9.25 小时 | **13 小时** | SPT |
| 修复邮件服务器的时间 | 18.75 小时 | **9 小时** | WSJF |
| 修复数据库备份的时间 | 8.75 小时 | **3 小时** | WSJF |
| 更新壁纸的时间 | **0.75 小时** | 18.75 小时 | SPT |

聚合优先级加权完成时间几乎相同（PWCT：10.2 vs 10.17），
因为聚合隐藏了分布性损害。真正的差异在于**按优先级类别
分解的**结果：邮件服务器在 SPT 下宕机 18.75 小时，而在 WSJF
下为 9 小时。数据库备份失败 8.75 小时 vs 3 小时。

未加权指标自信地报告 SPT **效率超过两倍**（6.56 vs 13.63），
奖励了在邮件服务器着火时更新桌面壁纸的团队。

### 6.4 推荐指标套件

即使是优先级加权的聚合指标也可能无法区分好的和坏的调度方案，
因为聚合隐藏了分布性损害。没有单一指标足够。一个完整的
度量系统应当跟踪：

| 指标 | 度量内容 | 公式 |
|------|----------|------|
| **按优先级类别的平均完成时间** | 各类别响应速度 | 按 $q$ 过滤的 $\bar{C}$ |
| **P1 平均解决时间** | 关键事件响应 | $q = 1$ 的 $\bar{C}$ |
| **吞吐量** | 原始工作能力 | 完成工时 / 日历时间 |
| **老化违规** | 饥饿预防 | 按优先级超出 SLA 的任务 |
| **最大完成时间（P1/P2）** | 最坏情况关键响应 | $q \le 2$ 的 $\max(C_i)$ |

关键洞察：**按优先级类别的指标**可以暴露出聚合指标所隐藏
的调度失败。

---

# 第三部分：组织动态

## 7. 当指标成为产品

第 2–6 节假设客户满意度是*实际体验到的服务质量*的函数。
但存在一种场景，在该场景下此假设不成立，整个论证会崩溃。

### 7.1 自指指标

假设服务提供方将未加权平均直接报告给客户——在仪表板上、
在 SLA 报告中、在营销页面上——而客户的满意度主要来自
*那个数字*：

$$U_{\text{client}} = f\!\left(\bar{C}(\sigma)\right), \quad f' < 0$$

在此模型下，SPT 确实最大化了客户满意度（定理 1）。吞吐量
不变（定理 6）。业务结果改善：同样的工作完成了，客户更满意。

**本文中的每一个定理在数学上仍然正确。但结论反转了。**
指标不再是一个可以被操纵的代理变量——它*就是*服务质量，
因为客户已同意按该聚合数字来评价质量。

### 7.2 经济学分析

这创造了一个一致的、稳定的均衡：

| 参与者 | 行为 | 结果 |
|--------|------|------|
| 服务提供方 | 优化未加权平均（SPT） | 指标改善，无额外工作 |
| 客户 | 查看仪表板，看到低平均值 | 报告满意 |
| 管理层 | 看到满意的客户 + 好的指标 | 奖励团队 |

服务提供方以零边际成本提取满意度，通过优化一个客户已接受
的质量代理数字来实现。

### 7.3 脆弱性

此均衡仅在客户从不检视自身实际体验时才是稳定的。
以下情况会打破它：

1. **客户检查自己的工单。** 一位邮件服务器宕机 18.75 小时的
   CTO 不会因"平均解决时间：6.56 小时"而感到宽慰。最可能
   检查的客户恰恰是获得最差服务的客户（定理 4）。

2. **竞争对手提供按工单的 SLA。** "P1 在 4 小时内解决"
   对任何有关键需求的客户而言，优于"平均解决时间低于 7 小时"。

3. **团队将指标内化。** 如果团队相信该指标反映了真实绩效，
   他们就失去了识别关键工作被忽视的能力。指标成为一种认知
   危害。

### 7.4 一般模式

这种模式——代理变量替代质量，代理变量被优化，质量偏离，
系统在被现实检验之前保持稳定——在各领域反复出现。
Muller [19] 将其广泛记录为"指标固化"；Campbell [24]
形式化了将指标用作目标时的腐蚀效应。

| 领域 | 代理指标 | 底层质量 | 偏离 |
|------|----------|----------|------|
| IT 支持 | 平均解决时间 | 关键系统正常运行时间 | 服务器宕机 19 小时，平均值显示 6.5 |
| 教育 | 考试分数 | 实际学习 | 应试教育 |
| 医疗 | 患者吞吐量 | 患者结果 | 更快出院，更高再入院率 |
| 金融 | 季度盈利 | 长期价值 | 削减成本推高 EPS，侵蚀能力 |
| 软件 | 速率（故事点） | 产品质量 | 点数通胀，功能半成品 |

### 7.5 信息不对称

将系统建模为服务提供方（P）和客户（C）之间的博弈。P 观察
到各个 $\{C_i\}$ 并选择 $\sigma$；C 仅观察到
$\bar{C}(\sigma)$。这是一个**道德风险**问题 [10]：P 的最优
策略是最小化可观察信号，不顾不可观察分布如何。

该均衡是一个**混同均衡** [9]：P 报告的指标无论底层优先级
加权绩效如何，看起来都是相同的。它在 C 获得各个 $C_i$ 值
的访问权之前保持稳定——通过客户门户、竞争对手的透明度
或一次足够痛苦的事件。

### 7.6 令人不安的结论

对"优化未加权平均是否损害业务？"的诚实回答是：**不一定，
只要客户从不查看数字背后的实际情况**。对"这是否可持续？"的
诚实回答是：它的可持续性与任何卖方比买方知道更多的系统
完全一样——在较长时期内稳定，然后在不对称性被刺破时
迅速崩溃。

---

## 8. 知情的心理代价

第 7 节将服务提供方建模为一个统一的行为者。但团队由个人
组成。当一位团队成员理解了这个证明——当他们*知道*该指标
是人造的，仪表板是一场表演，邮件服务器仍然宕机而他们在
关闭壁纸工单——一种新的成本出现了，而均衡模型忽略了
这一成本。

### 8.1 隐含变量：团队认知

| 参与者 | 观察到各个 $C_i$ | 观察到 $\bar{C}$ | 理解该证明 |
|--------|-------------------|-------------------|------------|
| 管理层 | 可能 | 是 | 不一定 |
| 团队成员 | **是** | 是 | **是**（在此场景下） |
| 客户 | 否 | 是 | 否 |

团队成员拥有完整信息。他们看到工单队列。他们知道邮件服务器
从早上 7 点就宕机了。他们知道自己在关闭一个壁纸工单，
因为这会改善那个数字。他们知道*为什么*。

### 8.2 完全信息下的认知失调

认知失调 [11] 产生于个体持有矛盾认知时。在不理解*原因*的
情况下，矛盾可以被合理化："管理层比我们懂。"理解了该证明
则消除了模糊性。团队成员现在同时持有：

- **认知 A：** "我是一名有能力的专业人员。我的工作是解决
  重要问题。"
- **认知 B：** "我正在邮件服务器宕机时关闭一个壁纸工单，
  因为该指标在数学上有偏（定理 1），重新排序产生零吞吐量
  （定理 6），唯一的受益者是仪表板（第 7 节）。我能证明这一点。"

认知失调现在是*承重的*。可用的解决方式——放弃职业身份认同、
否认该证明、倡导变革或离开——每一种都施加了此前不存在的
成本。

### 8.3 自我决定理论：三种需求被违反

Deci 和 Ryan 的自我决定理论（SDT, Self-Determination Theory）
[12, 13] 识别了预测内在动机的三种需求：

**自主性。** 该指标以团队成员知道在数学上次优的方式约束
其选择。一个理解该过程可证明是适得其反的工作者，不可能在
遵循该过程时感到自主。

**胜任感。** 该指标奖励*表面上的*效能（低 $\bar{C}$），
同时对*实际的*效能无感（定理 6）。真正的胜任表现——首先
修复邮件服务器——*被*指标*惩罚*。

**归属感。** 团队成员知道客户的邮件服务器宕机了。他们可以
帮忙。他们却在更新壁纸——不是因为这帮助了任何人，而是因为
这帮助了一个数字。工作与人类影响之间的连接已被切断，
而团队成员能看到断裂的两端。

### 8.4 道德伤害

道德伤害 [16, 17] 是由"实施、未能阻止、目睹或知晓违反
深层道德信念的行为"[17] 所造成的持久伤害。该概念此后已被
扩展到商业环境 [25]。与倦怠的关键区别在于：**倦怠是因为
做太多而精疲力竭。道德伤害是因为做错事而受到损害。**

一位知道邮件服务器宕机、知道应该修复它、却关闭了一个
壁纸工单、且这样做是因为指标要求如此的团队成员，正在
经历道德伤害的结构性条件。

### 8.5 习得性无助与指标宿命论

Seligman 的习得性无助理论 [14, 15] 描述了暴露于不可控的
负面结果如何导致被动。其序列为：

1. 指标有缺陷（证明已理解）。
2. 倡导变革。
3. 被拒绝（"数字很好看，别兴风作浪"）。
4. 以递减的信念重复。
5. 终态："指标就是这样的。我就关工单吧。"

这不是懒惰。这是对一个惩罚正确行为、奖励错误行为的系统
的理性反应——当个人无力改变该系统时。

### 8.6 逆向选择螺旋

将第 7 节的均衡与人员流动动态相结合：

1. 组织采用未加权平均。指标看起来很好（SPT）。
2. 有认知的、有能力的团队成员承受心理代价（8.2–8.5）。
3. 这些成员离开。被不理解指标缺陷或不在意的成员替代。
4. 指标继续看起来很好——在 SPT 下它总是如此，无论团队
   能力如何（推论 6.1）。
5. 实际服务质量下降，但指标无法检测到（推论 9.1）。
6. 回到步骤 1。

指标*逆向选择*了人才：淘汰那些会改善系统的人，留下那些
不会质疑系统的人。系统在更低的能力水平上稳定下来，
这对其自身的度量装置是不可见的。

### 8.7 完整成本模型

| 第 7 节（可见的） | 第 8 节（隐藏的） |
|-------------------|-------------------|
| 客户满意（好数字） | 团队不满（坏现实） |
| 吞吐量不变 | 自主努力被撤回 |
| 指标改善 | 有能力的成员离开 |
| 商业经济稳定 | 机构能力退化 |

这些在不同的时间尺度上运作：均衡在季度层面可见；能力退化
在数年后才可见。完整模型是：**指标有效，且它是破坏性的，
而破坏对指标本身不可见。** 指标是腐蚀钢筋上的新漆。

---

## 9. 管理者内化：可操作的解决方案

第 2–6 节说应当拒绝该指标。第 7 节说该指标有效（对业务
而言）。第 8 节说它摧毁团队。在实践中，大多数管理者无法
单方面改变指标。最佳解决方案是全公司范围的指标改革。
*可操作的*解决方案是一位知情的管理者现在就能做的事情。

### 9.1 策略

理解该证明的管理者可以**内化指标的局限性，而不将其传播
给团队**：

1. **主要按优先级调度。** 团队首先处理关键任务。
2. **策略性地穿插小型任务。** 当一个小的低优先级任务可以
   在不实质性延迟高优先级工作的情况下完成时，就去做它。
   不是因为指标要求，而是因为它也需要完成，且几乎不花
   什么代价。
3. **绝不将指标作为动机来源透露。** "趁我们等 P1 供应商
   回电话的时候，把这个快速的处理掉"——而不是"我们需要降低
   我们的平均值"。团队的内在动机保持完整（第 8 节）。
   管理者吸收了指标管理的负担。

### 9.2 形式化

管理者的问题是一个约束优化问题：

$$\min_{\sigma} \sum_{i=1}^{n} w(q_i) \cdot C_i \quad \text{subject to} \quad \bar{C}(\sigma) \le \bar{C}_{\text{target}}$$

**定理 12（优先级调度的有界指标成本）。** 一位在每个优先级
类别*内部*使用 SPT、在类别*之间*使用优先级排序的管理者，
将产生接近 SPT 最优值的指标——差距仅来自跨类别逆序。

**证明概要。** 在每个优先级类别内，SPT 是免费的（所有任务
具有相同优先级）。与全局 SPT 的唯一偏差是跨类别排序。
每个跨类别逆序最多在未加权总和中增加
$p_{\text{large}} - p_{\text{small}}$ 的成本，而这些逆序
的数量受类别数量限制。在实际中，差距通常在 SPT 最优值的
10–20% 以内。$\blacksquare$

### 9.3 管理者作为信息屏障

| 层级 | 看到指标 | 看到优先级 | 看到证明 |
|------|----------|-----------|----------|
| 组织 | 是 | 名义上 | 否 |
| 管理者 | 是 | 是 | **是** |
| 团队 | 否（被屏蔽） | 是 | 无关 |
| 客户 | 是（仪表板） | 通过 SLA | 否 |

管理者是唯一同时持有这三部分信息的参与者。这不是操纵——
他们在以正确的顺序做正确的工作，而指标恰好可以接受，
因为类别内的 SPT 是免费的。

### 9.4 竞争性失效

当指标在**团队间成为竞争性的**时，此策略失效。

**情形 1：合作型** —— 团队的度量目标为达标而非排名。每位
管理者独立使用内化策略。指标是装饰性的但无害的。这是一个
具有稳定合作均衡的**协调博弈**。

**情形 2：竞争型** —— 团队按 $\bar{C}$ 排名。这是一个
**囚徒困境**：

| | 团队 B：优先级优先 | 团队 B：SPT |
|---|---|---|
| **团队 A：优先级优先** | （好工作, 好工作） | （A 看起来差, B 看起来好） |
| **团队 A：SPT** | （A 看起来好, B 看起来差） | （都看起来好, 都做了错误的工作） |

纳什均衡为（SPT, SPT）。内化策略是一个在竞争下
**不稳定的**合作均衡。

### 9.5 适用范围

| 条件 | 可行性 |
|------|--------|
| 指标用于健康检查 / 达标检查 | **可行** |
| 指标可见但不排名 | **可行** |
| 指标跨团队排名 | **脆弱**——需要所有管理者合作 |
| 指标与薪酬 / 资源挂钩 | **不可行**——囚徒困境占主导 |
| 可在组织层面进行指标改革 | **不需要**——直接修正指标 |

**最佳解决方案是全公司范围的。可操作的解决方案是一位理解
本证明的管理者，屏蔽团队不受该指标影响，按优先级调度，
并仅在优先级类别内部使用 SPT 以保持数字在合理范围内。**

---

# 第四部分：评估

## 10. 魔鬼代言人

学术诚信要求承认论证的局限性所在。

### 10.1 简单性具有真实价值

**论点。** 未加权平均不需要优先级权重、不需要任务大小估计、
不需要校准。

**评估：正确。** 但未加权指标并非避免了假设——它只是将
假设*隐藏*了，隐式地将所有权重设为 1、所有大小设为 1。
一个已知不精确的任务大小估计，仍然比隐式假设所有大小
相同更有信息量。

### 10.2 最小化等待人数

**论点。** SPT 最小化了总的人-小时等待时间。如果每个任务
代表一个客户，这是最优的。

**评估：数学上正确。** 如果你运营一个车管所，且每个人的
时间同等宝贵，SPT 是正确的策略。当任务与客户不是一一对应、
等待成本不均匀、或该指标用于评估团队而非服务实际队列时，
它就失效了。

### 10.3 SPT 作为分诊启发式

**论点。** 当任务大小聚集紧密时，SPT 近似于先到先服务
（FIFO），而未加权平均近似于加权平均。

**评估：正确。** 变异系数 $CV = \sigma_p / \bar{p}$ 决定
了失真严重程度：

| $CV$ | 任务大小分布 | 失真程度 |
|------|-------------|----------|
| < 0.3 | 紧密（呼叫中心） | 可忽略 |
| 0.3 – 1.0 | 中等（混合 IT） | 中等 |
| > 1.0 | 宽泛（典型 IT 队列） | 严重 |

典型的 IT 服务台跨度从 15 分钟到 40 小时以上（$CV > 2$）。
失真不是边缘情况——它是默认状态。

### 10.4 操纵需要恶意

**论点。** 定理表明指标*可以*被操纵，而非*将会*被操纵。

**评估：这是最有力的反驳论点。** 如果指标纯粹是信息性的，
从不影响行为，则操纵激励不存在。然而，任何报告给管理层、
与 OKR 挂钩或在回顾会议中讨论的指标都会影响行为。这是
古德哈特定律 [6, 7]——它适用于善意的团队，与适用于玩世
不恭的团队一样可靠。偏离是有机发生的：完成三个简单工单
"感觉高效"，而指标验证了这种感觉。

### 10.5 未加权平均可辩护的条件

该指标**仅在以下四个条件同时成立时**才可辩护：

1. 任务大小近似均匀（$CV < 0.3$）
2. 无优先级区分（所有任务同等重要）
3. 每个任务恰好代表一个客户
4. 该指标不被用于评估、奖励或引导行为

这些条件在该指标最常被使用的系统中很少满足。

---

## 11. 相关工作

本文位于若干此前未被关联的文献的交汇处。

### 11.1 调度理论与公平性

Smith [1] 于 1956 年建立了 SPT 最优性结果和 WSJF 规则。
Conway、Maxwell 和 Miller [2] 提供了全面的教科书论述。
基于大小的调度策略的公平性在计算机系统调度领域已有讨论：
Bansal 和 Harchol-Balter [22] 研究了 SRPT 的不公平性；
Wierman 和 Harchol-Balter [23] 通过与处理器共享的比较形式化
了公平性分类；Angel、Bampis 和 Pascual [21] 度量了 SPT 调度
在公平最优性准则下的质量。

这些先前工作分析的是 CPU 和服务器调度中的公平性。本文将
相同的数学结果应用于*组织任务管理*，其中"调度器"是人类团队，
"作业"是具有业务影响优先级的客户请求，而"目标函数"是管理指标。
机制是相同的；后果不同，因为组织调度具有优先级系统、客户
关系和心理成本，而 CPU 调度没有。

### 11.2 度量失灵

Austin [18] 证明了不完整度量——仅度量相关维度的子集——
会产生激励，使人优化被度量的维度而牺牲未被度量的维度，
且当度量与奖励挂钩时，这一效应不仅仅是可能的，而是
*不可避免的*。他的信息不对称框架与第 7 节密切对应。本文
为任务调度情形提供了具体的数学机制（定理 1–2），并通过
心理学（第 8 节）扩展了论证，以追溯组织危害的完整链条。

Muller [19] 记录了教育、医疗、警务和金融领域的"指标固化"
现象，为第 7.4 节所理论化的模式提供了广泛的实证证据。
Campbell [24] 形式化了将指标用作目标时的腐蚀效应，
补充了 Goodhart 的原始观察 [6] 和 Strathern 的推广 [7]。

Bevan 和 Hood [26] 实证记录了英国公共卫生系统中的博弈行为
——包括我们第 5.2 节所描述的"达到目标却偏离要点"的
确切模式。

### 11.3 指标失灵的心理代价

将道德伤害（Shay [16]，Litz 等 [17]）应用于商业环境有
近期先例：2024 年 *Journal of Business Ethics* 的一项研究
[25] 明确将该概念扩展到营利性工作场所，发现了与第 8.4 节
所描述的类似的结构性条件。Moore [27] 分析了道德*脱离*——
在组织压力下使不道德行为成为可能的认知重构。本文讨论的是
互补现象：对*拒绝*脱离的个体造成的伤害。

### 11.4 本文的新颖之处

各个组成部分——SPT 最优性、古德哈特定律、度量失灵、道德
伤害——都有先例。本文的贡献在于：

1. **守恒律（定理 2）的规范性使用**——作为工作量加权完成
   时间*不可能*被操纵的建设性论证，而非仅作为一个理论调度
   结果。

2. **优先级分类使指标在代数意义上具有对抗性的具体证明**
   （定理 8–9）——不仅仅是经验上的不好，而是结构上的矛盾，
   在调度方案与优先级系统之间的互信息为零。

3. **从数学证明经信息不对称经心理伤害到逆向选择螺旋的
   完整链条**——追溯单一指标从 Smith（1956）到组织空心化
   的过程。

4. **管理者内化策略**（第 9 节），附带其在团队间竞争下的
   稳定性与失效条件的正式博弈论分析。

5. **将调度理论应用于组织管理批判**——证明一个常用的团队
   指标具有特定的、可量化的病理特征，而非仅凭轶事或一般
   原则立论。

---

## 12. 结论

未加权平均完成时间是一个**有偏统计量**，它：

1. **可被调度策略操纵**（定理 1），不同于工作量加权完成
   时间的调度不变性（定理 2）。
2. **激励大型任务的饥饿**（定理 3）。
3. **降低客户满意度**，且零补偿性生产力增益（定理 7）。
4. **积极与优先级系统矛盾**，关于业务影响分类携带零信息
   （定理 9）。
5. **在其调度建议中完全忽略优先级**，当优先级与大小不是
   完全负相关时，产生次优的优先级加权延迟（定理 10）。

一个可以通过重新排列工作顺序来改善——而无需做任何额外
工作——的指标，度量的是调度策略，而非系统的能力。当与
优先级系统结合时，它推荐的调度方案会对最高优先级的工作
造成最大的损害。

当该指标被报告给客户时，它创造了一种信息不对称（第 7 节），
其商业均衡是有利可图的但脆弱的。当团队成员理解其缺陷时，
它侵犯他们的内在动机，并选择性地导致最有能力的人离开
（第 8 节）。一位知情的管理者可以通过约束优化部分地
缓解这些效应（第 9 节），但这种合作策略在团队间竞争下
是不稳定的。

未加权平均仅在狭窄条件下可辩护（第 10.5 节）：均匀的
任务大小、无优先级、一对一的客户-任务映射以及无行为影响。
这些条件很少满足。

**未加权平均完成时间不是一个公正或准确的任务执行绩效度量。
将其作为团队指标采用，将理性地产生复杂工作的饥饿、既定
优先级的违反、不公平的客户结果，以及在不存在生产力的地方
制造生产力的幻觉。**

最佳解决方案是组织层面的指标改革。可操作的解决方案是
一位理解本证明的管理者。

---

## 参考文献

### Scheduling Theory

[1] Smith, W. E. (1956). Various optimizers for single-stage production.
*Naval Research Logistics Quarterly*, 3(1–2), 59–66.
doi:[10.1002/nav.3800030106](https://doi.org/10.1002/nav.3800030106)

> SPT 最优性结果（定理 1）、加权完成时间规则 $w_i/p_i$ 降序
> （WSJF，定理 11）以及全文所用的相邻作业成对交换（交换论证）
> 证明技术的来源。

[2] Conway, R. W., Maxwell, W. L., & Miller, L. W. (1967). *Theory of
Scheduling*. Addison-Wesley.

> 单机调度理论的标准教科书论述，扩展了 Smith 的结果。

[3] Little, J. D. C. (1961). A proof for the queuing formula: L = λW.
*Operations Research*, 9(3), 383–387.
doi:[10.1287/opre.9.3.383](https://doi.org/10.1287/opre.9.3.383)

> Little 定律的首次严格证明。在第 3.2 节中因排队论背景而引用。

[4] Little, J. D. C. (2011). Little's Law as viewed on its 50th
anniversary. *Operations Research*, 59(3), 536–549.
doi:[10.1287/opre.1110.0941](https://doi.org/10.1287/opre.1110.0941)

> 回顾性文章，讨论适用范围、局限性和常见误用。

[5] Reinertsen, D. G. (2009). *The Principles of Product Development
Flow: Second Generation Lean Product Development*. Celeritas Publishing.
ISBN: 978-0-9844512-0-8.

> 在敏捷/精益背景下推广了 WSJF 和"延迟成本/工期"的概念。
> 数学基础源自 Smith（1956）[1]。

### Measurement and Incentives

[6] Goodhart, C. A. E. (1984). Problems of monetary management: The U.K.
experience. In *Monetary Theory and Practice* (pp. 91–121). Macmillan.

> 古德哈特定律的来源："任何被观察到的统计规律性，一旦被用于
> 控制目的而施加压力，就会趋于崩溃。"

[7] Strathern, M. (1997). 'Improving ratings': Audit in the British
university system. *European Review*, 5(3), 305–321.
doi:[10.1002/(SICI)1234-981X(199707)5:3<305::AID-EURO184>3.0.CO;2-4](https://doi.org/10.1002/(SICI)1234-981X(199707)5:3%3C305::AID-EURO184%3E3.0.CO;2-4)

> 古德哈特定律的推广："当一个度量成为目标时，它就不再是一个
> 好的度量。"

### Behavioral Economics

[8] Kahneman, D., & Tversky, A. (1979). Prospect theory: An analysis of
decision under risk. *Econometrica*, 47(2), 263–292.
doi:[10.2307/1914185](https://doi.org/10.2307/1914185)

> 建立了损失厌恶理论。在第 4.5 节中引用。

### Game Theory and Contract Theory

[9] Akerlof, G. A. (1970). The market for "lemons": Quality uncertainty
and the market mechanism. *The Quarterly Journal of Economics*, 84(3),
488–500. doi:[10.2307/1879431](https://doi.org/10.2307/1879431)

> 信息不对称与逆向选择。第 7.5 节中的混同均衡在结构上
> 与之类似。

[10] Hölmstrom, B. (1979). Moral hazard and observability. *The Bell
Journal of Economics*, 10(1), 74–91.
doi:[10.2307/3003320](https://doi.org/10.2307/3003320)

> 道德风险的形式化处理。第 7.5 节中的指标报告场景是一个
> 道德风险问题。

### Psychology

[11] Festinger, L. (1957). *A Theory of Cognitive Dissonance*. Stanford
University Press. ISBN: 978-0-8047-0131-0.

> 基础理论。在第 8.2 节中引用。

[12] Deci, E. L., & Ryan, R. M. (1985). *Intrinsic Motivation and
Self-Determination in Human Behavior*. Plenum Press.
ISBN: 978-0-306-42022-1.

> 自我决定理论的原始论述。在第 8.3 节中引用。

[13] Ryan, R. M., & Deci, E. L. (2000). Self-determination theory and
the facilitation of intrinsic motivation, social development, and
well-being. *American Psychologist*, 55(1), 68–78.
doi:[10.1037/0003-066X.55.1.68](https://doi.org/10.1037/0003-066X.55.1.68)

> 自我决定理论综述，将需求满足与内在动机和幸福感联系起来。

[14] Seligman, M. E. P., & Maier, S. F. (1967). Failure to escape
traumatic shock. *Journal of Experimental Psychology*, 74(1), 1–9.
doi:[10.1037/h0024514](https://doi.org/10.1037/h0024514)

> 习得性无助的原始实验证明。在第 8.5 节中引用。

[15] Seligman, M. E. P. (1975). *Helplessness: On Depression,
Development, and Death*. W. H. Freeman. ISBN: 978-0-7167-0752-3.

> 扩展论述，将习得性无助与人类抑郁和制度行为联系起来。

[16] Shay, J. (1994). *Achilles in Vietnam: Combat Trauma and the Undoing
of Character*. Atheneum / Simon & Schuster. ISBN: 978-0-689-12182-3.

> 引入了道德伤害的概念。在第 8.4 节中引用。

[17] Litz, B. T., Stein, N., Delaney, E., Lebowitz, L., Nash, W. P.,
Silva, C., & Maguen, S. (2009). Moral injury and moral repair in war
veterans: A preliminary model and intervention strategy. *Clinical
Psychology Review*, 29(8), 695–706.
doi:[10.1016/j.cpr.2009.07.003](https://doi.org/10.1016/j.cpr.2009.07.003)

> 将道德伤害形式化为一个临床构念。第 8.4 节引用了其定义。

### Organizational Measurement

[18] Austin, R. D. (1996). *Measuring and Managing Performance in
Organizations*. Dorset House. ISBN: 978-0-932633-36-1.

> 证明了不完整度量不可避免地产生激励，使人优化被度量的维度
> 而牺牲未被度量的维度。信息不对称框架与第 7 节密切对应。
> 本文论证最重要的先驱作品。

[19] Muller, J. Z. (2018). *The Tyranny of Metrics*. Princeton University
Press. ISBN: 978-0-691-17495-2.

> 对教育、医疗、警务和金融领域"指标固化"的全面论述。
> 为第 7.4 节所理论化的模式提供了广泛的实证证据。

### Scheduling Fairness

[20] Coffman, E. G., Shanthikumar, J. G., & Yao, D. D. (1992).
Multiclass queueing systems: Polymatroid structure and optimal scheduling
control. *Operations Research*, 40(S2), S293–S299.

> 调度中的守恒律。工作量加权完成时间的调度不变性（定理 2）
> 是这些守恒律的一个实例。

[21] Angel, E., Bampis, E., & Pascual, F. (2008). How good are SPT
schedules for fair optimality criteria? *Annals of Operations Research*,
159(1), 53–64. doi:[10.1007/s10479-007-0267-0](https://doi.org/10.1007/s10479-007-0267-0)

> 直接度量 SPT 调度在公平性准则下的质量。在调度理论中，
> 是第 4 节公平性分析最接近的先驱。

[22] Bansal, N., & Harchol-Balter, M. (2001). Analysis of SRPT
scheduling: Investigating unfairness. *ACM SIGMETRICS Performance
Evaluation Review*, 29(1), 279–290.
doi:[10.1145/384268.378792](https://doi.org/10.1145/384268.378792)

> 调查了 SRPT 在计算机调度中不公平地惩罚大型作业的观点。
> 认为不公平性小于人们的认知，但承认核心张力。

[23] Wierman, A., & Harchol-Balter, M. (2003). Classifying scheduling
policies with respect to unfairness in an M/GI/1. *ACM SIGMETRICS
Performance Evaluation Review*, 31(1), 238–249.

> 通过与处理器共享的比较，形式化了调度策略的公平性定义。

### Additional References

[24] Campbell, D. T. (1979). Assessing the impact of planned social
change. *Evaluation and Program Planning*, 2(1), 67–90.
doi:[10.1016/0149-7189(79)90048-X](https://doi.org/10.1016/0149-7189(79)90048-X)

> Campbell 定律："任何定量社会指标越是被用于社会决策，
> 就越会受到腐蚀压力，也越容易扭曲和腐蚀它所要监测的
> 社会过程。"与古德哈特定律 [6] 互补。

[25] Ferreira, C. M., et al. (2024). It's business: A qualitative study
of moral injury in business settings. *Journal of Business Ethics*.
doi:[10.1007/s10551-024-05615-0](https://doi.org/10.1007/s10551-024-05615-0)

> 将道德伤害扩展到营利性工作场所。验证了第 8.4 节将
> Shay/Litz 的概念应用于军事和医疗之外环境的做法。

[26] Bevan, G., & Hood, C. (2006). What's measured is what matters:
Targets and gaming in the English public health care system. *Public
Administration*, 84(3), 517–538.
doi:[10.1111/j.1467-9299.2006.00600.x](https://doi.org/10.1111/j.1467-9299.2006.00600.x)

> 实证记录了博弈行为，包括"达到目标却偏离要点"。为第 5.2 节
> 的优先级-指标矛盾提供了现实世界的证据。

[27] Moore, C. (2012). Why employees do bad things: Moral disengagement
and unethical organizational behavior. *Personnel Psychology*, 65(1),
1–48. doi:[10.1111/j.1744-6570.2011.01237.x](https://doi.org/10.1111/j.1744-6570.2011.01237.x)

> 分析了道德*脱离*——使不道德行为在组织压力下成为可能的
> 认知重构。第 8 节讨论的是互补现象：对*拒绝*脱离的个体
> 造成的伤害。

---

*本证明通过对话方式发展并于 2026-03-28 正式化。*