Three-tier constraint model, mode-aware eval, boundary examples, playtest tooling

Eval harness: - Mode-aware scoring: sudo=strict (exact match), pray/god=soft (category match, in-character, appropriate intensity) - New metrics: cmd_category_match, appropriate_intensity, scoring_mode breakdown - Eval defaults to steel141 (192.168.0.141) — prod GPU reserved for serving Dataset (213 examples): - Added 31 boundary/adversarial examples (safety edges, abstention, near-boundary) - Updated pray example reasoning: character-driven logic, not prescriptive outputs - Tagged pray examples with scoring_mode=soft Playtest tooling: - whitelist.sh: add/remove/list across all 3 servers - FRIENDS_INVITE.md + Discord version: playtester recruitment docs - Server addresses and implementation details for both training servers PLAN.md: - Three-tier constraint model documented (sudo/pray/god_system) - Success criteria split by scoring mode - All session decisions logged Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-03-18 15:57:01 -04:00
parent 38b9a02e45
commit 9d789d2524
8 changed files with 516 additions and 82 deletions
@@ -522,7 +522,7 @@ def main():
    parser.add_argument("--models", nargs=2, default=["gemma3n:e4b", "qwen3:8b"],
                        metavar=("MODEL_A", "MODEL_B"),
                        help="Two models to compare (default: gemma3n:e4b qwen3:8b)")
-    parser.add_argument("--ollama-url", default="http://192.168.0.179:11434",
+    parser.add_argument("--ollama-url", default="http://192.168.0.141:11434",
                        help="Ollama API URL")
    parser.add_argument("--rcon-host", default="192.168.0.244",
                        help="RCON host (default: 192.168.0.244)")