Llama 4 发布以及其引起的争议 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
neteroster
V2EX    OpenAI

Llama 4 发布以及其引起的争议

  •  1
     
  •   neteroster 2025 年 4 月 7 日 1883 次点击
    这是一个创建于 304 天前的主题,其中的信息可能已经有所发展或是发生改变。

    叠甲:我知道本文内容可能有些看起来像是大模型生成的,不过实际上是纯手工写的...


    昨天( 2025 年 4 月 6 日),Meta 宣布开源(开放权重) LLama 系列的最新作 LLama 4 ,包含三个版本:

    Llama 4 Scout

    • 109B 总参数,激活 17B
    • 宣称“业界领先的 10M 上下文窗口”

    Lama 4 Maverick

    • 400B 总参数,激活 17B
    • 宣称“在广泛接受的基准测试中表现优于 GPT-4o 和 Gemini 2.0 Flash 。”
    • 宣称“在推理和编码方面实现与 DeepSeek V3 相当的结果但仅使用一半的激活参数量。”
    • 宣称“无与伦比的性价比,聊天版本在 LMArena 上的 ELO 得分为 1417 。”,同时 LMArena 上公布了对应的成绩。

    Llama 4 Behemoth

    • 暂未开放权重[1]
    • 2T+ 总参数,200B+激活参数

    初看下来,许多人会认为开源这两个模型又是长上下文,又是以低成本超过 4o / DS V3 ,理所应当是一个强大,至少有许多亮点的模型。然而,事实却完全不同:

    很快,用户发现在 LMArena 上测试的中号模型 Maverick 和公开权重的模型在语言风格上差别很大,甚至都不像同一个模型

    这时,有部分用户猜测这是因为模型提供商的推理配置不正确,应当等待修复。

    随后,更多基准测试对开源的两款模型进行了测试:

    Aider Polyglot Benchmark

    Aider 是一个开源的编程 Agent ,Polyglot Benchmark 是他们制作的多语言大模型基准。这一基准被认可度还是较高的。

    ... claude-3-7-sonnet-20250219 (no thinking) 60.4% o3-mini (high) 60.4% DeepSeek V3 (0324) 55.1% ... Qwen2.5-Coder-32B-Instruct 16.4% Llama 4 Maverick 15.6% ... 

    长上下文理解测试

    Fiction.liveBench for Long Context Deep Comprehension 测试了两款模型的长上下文表现

    long-context

    其他测试

    许多用户、组织在个人数据集上进行了测试,结果大致一样。


    这些测试,加上许多用户的实际体验反馈证明:Llama 4 远没有其宣传的优秀,甚至可以说看起来不像这个现在时候发布的模型。

    那么问题来了,这样一个模型( Maverick )究竟为何能在 LMArena 上拿下第二名呢。


    首先来看看 Arena 评分的原理:访问 LMArena 的用户被要求与两个身份被隐去的大模型对话,并选择他们认为更优秀的那个。选择完毕后,两个模型的身份会被揭示,并且得到的数据用于计算大模型的排名和得分。

    尽管 LMArena 在此前已经受到不少批评,认为其“更看重模型的输出格式和风格,而不是实际能力”,但是仍然在大模型评分领域受到较广泛的认同,因为他不像传统评分那样可以提前在测试集上进行训练,提高模型的表现。


    经过各种讨论和研究,用户发现,原来并不是提供商的配置有问题,而是 Meta 开源出来的版本和 Arena 上的版本确有区别

    具体来说,送 Arena 测的是 Meta 针对聊天专门微调的 Maverick 模型。他被训练地非常兴奋、激动以提高用户的新鲜感,从而提高得分。但是这样做使得模型的日常问答几乎不可用:光是说一句“你好”模型都会回复几千 Tokens ,并且在知识问答中产生大量幻觉(想体验的可以直接去竞技场 Direct Chat 栏目测试)。


    目前这种行为已经引起了对 Meta 的广泛批评。

    5 条回复    2025-04-07 13:11:33 +08:00
    Chaidu
        1
    Chaidu  
       2025 年 4 月 7 日
    使用大语言模型生成的就是大语言模型生成的,叠甲没用 /doge
    wyntalgeer
        2
    wyntalgeer  
       2025 年 4 月 7 日
    实测拉了
    tool2dx
        3
    tool2dx  
       2025 年 4 月 7 日
    Llama4 有两个大问题,第一他抛弃了粉丝的本地显卡步骤欲望(请问普通玩家,谁有能装下 109B 参数的 GPU )

    第二按照收费大模型的 API 调用标准,它的性能远远比不上同期 2025 发布的几个大模型。

    开源开了个寂寞,还不如 gemma3/phi4 可玩性高。
    FgHh07ObvBiST5po
        4
    FgHh07ObvBiST5po  
       2025 年 4 月 7 日
    实测拉垮
    Kisesy
        5
    Kisesy  
       2025 年 4 月 7 日
    原因是这个

    Llama4 的训练存在严重问题已经向 GenAI 提交辞职
    https://www.1point3acres.co/bbs/thread-1122600-1-1.html
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2571 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 11:04 PVG 19:04 LAX 03:04 JFK 06:04
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86