验证
封存预测,按传记盲评
5 分钟阅读案例分析层(引擎验证协议第 4 层)的最强版本,是把一组引擎未曾校准过的命盘拿来盲评。这页是该项工作的公开记分牌。
我们测了什么
第一阶段为 50 位公众人物,其出生时间均可在公开资料中查证——Astro-Databank、本人自传、当时的新闻报道或对应的维基百科条目——Rodden 评级为 AA、A,少数为 B。完整名单见 `src/data/validation-set.ts`。每条都同时给出 Astro-Databank 和维基的 URL,审阅者无需信任我们的抄录,可以独立核验。
本数据集与 /famous-charts 名人盘库刻意不重合。案例分析层可以心知肚明(乔布斯的盘是经典示例自有道理),但验证活动不能。这里挑的都是引擎从未手工校准过的人。
概览:
- 51 张盘 (Phase 1)
- 44 Rodden 评级 AA 或 A
- 7 Rodden 评级 B (置信度较低,已显式标注)
我们怎么测的
针对每位人物,引擎生成结构性论命,我们封存四项:日主(五行 + 阴阳)、格局(或在引擎拒绝下标签时为 null)、按加权五行平衡得到的当令五行、日主强弱类别及其喜用神。封存后的内容写入 `docs/validation-results/predictions-v1.json`,带 schema 版本号与生成时间戳。
由独立审阅者(非命主本人、非引擎校准方)对照公开传记,把每条封存预测打成三类之一:CONSISTENT(结构性判读与传记一致)、INCONSISTENT(结构性判读与传记不符)、NULL(传记信号不足以判断)。打分与一句话备注写回生成预测的同一个模块,真相源始终不脱钩。
我们并不声称模型对每张盘都该是 CONSISTENT。验证协议第 4 层明确要求案例分析集每张盘至少包含一处 MISS——模型有边界,我们要把边界写在记录里。这里也一样。100/0/0 的成绩说明的是确认偏误,不是引擎水平。
目前进度
第一阶段以未打分状态发布。下方矩阵是实时记分牌——直接读取 `VALIDATION_SET`,每次构建即重新合计。审阅者推进时,数字会同步填入。
| 评级 | 数量 | 占比 |
|---|---|---|
| 一致——结构性判读与传记吻合 | 0 | 0.0% |
| 不一致——结构性判读与传记不符 | 0 | 0.0% |
| 无法判定——传记信号不足 | 0 | 0.0% |
| 未打分——等待审阅 | 51 | 100.0% |
预测快照 schema 版本: 1。阶段编号:1(50 张盘)。
如何走到 100 张
第二阶段以季度为周期把数据集扩到 100。替补准则有意识地设定:已在案例分析层覆盖的人物剔除;新增条目向非英语世界、非现代、非西方背景倾斜(第一阶段偏现代英语世界);Rodden 评级原则上仅取 AA 或 A,较低评级须显式标注。每个阶段输出各自的 JSON 快照(`predictions-v2.json` 等),审阅者可以跨引擎生命周期对比记分牌,而不仅看当下版本。
本验证证明什么、不证明什么
本验证测试的是:引擎在不知人物传记的情况下给出的结构性标签,经由懂行的第三方对照公开记录后,会不会被判为对其公开形象的合理刻画。它不测试八字作为类型学框架本身是否正确——这是该框架自身的经验性主张,引擎无法验证。编辑立场见方法论页与 `/learn/limits`。
完整的分层方法论见仓库的 docs/validation-protocol.md(第 1 层:锚点;第 2 层:跨实现;第 3 层:引用审计;第 4 层:本页)。
最近校订: 2026-05-02