我们用命理大赛真题做了个 AI benchmark,结果挺意外的 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
swaylq
V2EX    分享创造

我们用命理大赛真题做了个 AI benchmark,结果挺意外的

  •  
  •   swaylq 3 月 26 日 778 次点击

    之前和几个同学一直在研究一个问题:大模型算八字到底什么水平?跟真正的命理师比差多远?

    为了搞清楚这个问题,我们做了个 benchmark用全球命理师大赛的真题( 200 道四选一),同时考 AI 和人类顶级命理师,数据和代码全部开源。

    测试结果

    先说结论,四选一随机猜是 25%:

    年份 最强通用 AI 准确率 大赛冠军 大赛季军
    2025 DeepSeek-V3 37.0% 50.0% 45.0%
    2024 Gemini-3-Pro 38.5% 50.0% 45.0%
    2023 GPT-5.1 36.0% 37.5% 32.5%
    2022 DeepSeek-V3 36.0% 40.0% 35.0%

    几个有意思的发现:

    1. AI 不是瞎蒙的 稳定在 36-38%,显著高于 25% 的随机基线
    2. **2023 年 GPT-5.1 (36%) 已经超过了大赛季军 (32.5%)**,跟冠军只差 1.5 个百分点
    3. 即便是人类冠军,准确率也就 37.5%-50%,八字推理确实是个极难的任务

    为什么八字对 AI 来说这么难?

    八字不是简单的查表。天干地支、十神、大运流年之间的组合关系非常复杂,需要多步推理:先看全局格局,再分析当前时间段的关键力量,最后映射到具体事件。

    通用大模型缺少这种结构化的推理链路,容易"看起来说得头头是道,但逻辑链断了"。

    结构化推理( SRP )的效果

    我们在论文里提出了一个结构化推理协议( SRP ),让 AI 按固定步骤分析:

    1. 全局扫描(五行平衡、日主强弱)
    2. 力量排序(当前时间段最关键的作用力)
    3. 事件推断(根据核心力量推断对应事件)

    用了 SRP 之后部分领域提升很明显:

    • 流年运势:+8~10 个百分点
    • 事业发展:最高 +15 个百分点
    • 学业:最高 +30 个百分点

    基于这套方法,我们做了一个产品 AuraMate 灵伴,把结构化推理引擎产品化了。在 2022 和 2023 年的数据上,灵伴的准确率已经超过了大赛季军。

    开源 & 体验


    做这个研究的初衷是觉得命理这个领域一直缺少标准化的评测方法,大家都说自己准但没有可比较的基准。希望这个 benchmark 能让这个领域更透明一些。欢迎讨论

    2 条回复    2026-03-29 09:53:28 +08:00
    codingBug
        1
    codingBug  
       3 月 26 日
    AI 毕竟不是人呐
    sunnysab
        2
    sunnysab  
       3 月 29 日
    您好!用目前最强的 Gemini3.1Pro 和 GPT-5.4 测试了一下,仓库见 https://github.com/sunnysab/BaziQA

    结果如下:
    OpenAI GPT-5.4 Multi-turn 30.83%
    OpenAI GPT-5.4 Structured 31.33%
    Gemini-3.1-Pro-Preview Multi-turn 38.33%
    Gemini-3.1-Pro-Preview Structured 33.33%

    本以为新模型会好一些,但似乎 GPT5.4 并没有什么提升,而 Gemini3.1Pro 多轮测试的效果是更好的。API 使用的是 OpenRouter 官方 API 。有可能是排盘的差异(我不知道我用的库准不准,来源: https://github.com/china-testing/bazi

    很有意思的、针对 LLM 的测试角度。从我个人经验看,在使用 AI 做推理前,可以让它回答自己过去的事,这也是测试准确性的方法。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1311 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 17:00 PVG 01:00 LAX 10:00 JFK 13:00
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86