搞了个相当复杂的最优化问题去考验大模型,然后御三家的大模型全军覆灭 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
SingeeKing
10.19D

搞了个相当复杂的最优化问题去考验大模型,然后御三家的大模型全军覆灭

  •  
  •   SingeeKing
    PRO
    1 day ago 1133 views

    这是题目原文

    获得补签卡有两种方式 - 600 记忆币兑换 1 张 - 6*0.91 元购买 1 张 获得会员有几种方式 - 10800 记忆币兑换 372 天 - 4000 记忆币兑换 93 天 - 2000 记忆币兑换 31 天 - 168*0.91 元购买 372 天(赠送 6000 记忆币) - 60*0.91 元购买 93 天(赠送 2000 记忆币) - 30*0.91 元购买 31 天(赠送 1000 记忆币) 获得记忆币有几种方式 - 163*0.91 元购买 16000 个 - 88*0.91 元购买 8000 个 - 50*0.91 元购买 4000 个 - 25*0.91 元购买 1800 个 - 12*0.91 元购买 800 个 - 8*0.91 元购买 500 个 - 163 元购买 17600 个 - 88 元购买 8800 个 - 50 元购买 4400 个 - 25 元购买 1980 个 - 12 元购买 880 个 - 8 元购买 550 个 --- 我的账户里目前已经有了 4767 个记忆币 我现在需要买至少 999 天会员 + 1 张补签卡,帮我计算一个最优解(最省钱的方案) 另外,应当保证会员天数在满足要求的情况下尽可能少、剩余的记忆币尽可能多 除了标准的「最低金额解」,可以再额外给我一些非最低金额解但是「更划算」的解 
    • GPT-5.5 xhigh:没能给出真正更划算的解,经过一次提示后成功了
    • Gemini 3.1 Pro:没能给出真正最便宜的解(经过两次提示仍然未成功)
    • Claude Opus 4.7:既没能给出最便宜又没能给出真正划算的解,然后耗时还是最长的、价格也是最贵的 = =

    这是我最终选定的答案:

    • 最便宜解:272.20 元 -> 1023 天,167 币
    • 最划算解:305.76 元 -> 1116 天,5367 币

    整体我最满意的还是 GPT ;因为至少「最小金额」这个纯数学问题解决的相当不错(剩下两家连这个都没算对 - 哪怕穷举都能解决的问题),而「更划算的」毕竟主观了一点,GPT 给的方案大体是对的,不过犯了个错误,因为苛求「会员天数尽可能少」,而选择了用 4000*3 去兑换了三次季会员而不是更划算的 10800 直接兑换年会员

    Gemini 直接就给出了「最划算解」,却没有真正算对「最便宜解」

    最离谱的就是 Claude ,把我选定的「最划算解」当成了「最便宜解」,然后额外给了我一堆 400+ 的价格的方案。。

    Supplement 1    1 day ago

    X 上的小伙伴给了 DeepSeek V4 Pro 的结果 与 Gemini 水平相当,都是给出了一个较低但不对的「最便宜解」和正确的(符合我预期的)「最划算解」

    11 replies    2026-04-26 18:15:47 +08:00
    SingeeKing
        1
    SingeeKing  
    OP
    PRO
       1 day ago
    测试环境:
    - GPT 用的 Codex Desktop
    - Claude 用的 Claude Code
    - Gemini 用的网页版

    三者都有 Python 环境的访问能力、且真的调用了 Python 做了计算

    扰动除了工具自带的系统提示词外应该就是我本地配置的 AGENTS.md 了,但应该影响不大(我是为了解决我实际问题而不是专门做模型评测的)
    mooyo
        2
    mooyo  
       1 day ago
    claude code 4.6 1m context 直接问的结果是 看起来对了一半?
    mooyo
        3
    mooyo  
       1 day ago
    @mooyo 开 thinking + max effort
    mooyo
        4
    mooyo  
       1 day ago
    @mooyo #3 prompt 是你的题目原文没有其他额外添加
    SingeeKing
        5
    SingeeKing  
    OP
    PRO
       1 day ago
    @mooyo #2 这就是我描述的:最离谱的就是 Claude ,把我选定的「最划算解」当成了「最便宜解」 它完全没给出 272.20 的解,也没有给出其它几个处于 272.20-300 之间的解
    mooyo
        6
    mooyo  
       1 day ago
    @SingeeKing #5 乐,claude 最近降智确实挺明显的
    dimlau
        7
    dimlau  
       1 day ago
    gemini-3-flash-preview (直接问,直接答):

    ###

    | 指标 | 方案一 (最省钱) | 方案二 (最推荐) |
    | -------------- | -------------------------------- | ------------------------------------------ |
    | **总现金投入** | **273.00 元** | **305.76 元** |
    | **会员总天数** | 1023 天 | 1023 天 |
    | **剩余记忆币** | 167 | 4167 |
    | **性价比评估** | 资源几乎全部耗尽,仅为达成目的。 | 现金增幅极小,结余极其厚实,适合长期生存。 |

    **最后的一个小提醒:** 所有的补签卡,请务必使用**记忆币**兑换,而不要直接用人民币购买。在 0.91 折扣体系下,1 张卡用人民币买是 5.46 元;而在会员赠币体系下,600 币的实际成本大约只有 4 元左右。
    dimlau
        8
    dimlau  
       1 day ago
    有 python 工具但它没用……
    wssjy1234
        9
    wssjy1234  
       1 day ago
    免费网页版的 Gemini 思考模型
    维度,方案一:最省钱,方案二:最高性价比
    现金支出,273.00 元 (最低),305.76 元
    总会员天数,1023 天,1116 天
    剩余记忆币,167 个,5367 个
    推荐理由,满足需求的最低现金门槛,额外花费极少,收益极大化
    sillydaddy
        10
    sillydaddy  
       1 day ago   2
    因为「划算」本身就没有明确的定义。「剩余的记忆币尽可能多」也是一个没有任何意义的提示,因为记忆币本身就可以看作是钱,那要达到「最低花费」必然要最大限度消耗已有的记忆币。
    xenme
        11
    xenme  
       1 day ago via iPhone
    都给了 agent ,调用了 python 所以最低价找到了,对于最划算理解有偏差没找到。让他分析了下最划算,虽然剩余币更多,但是花费的时间从 1023 天涨到了 1116 天,agent 优先考虑的时间时间最少下的最便宜解

    所以给 agent 更详细定义后应该不是问题。
    About     Help     Advertise     Blog     API     FAQ     Solana     3152 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 46ms UTC 14:33 PVG 22:33 LAX 07:33 JFK 10:33
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86