开源大模型的“源”到底是什么? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ztm0929
V2EX    问与答

开源大模型的“源”到底是什么?

  •  
  •   ztm0929 2024-07-25 19:06:35 +08:00 2130 次点击
    这是一个创建于 530 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我们都知道开源指的是开放源代码,理论上来说,任何人都可以通过源码仓库实现自构建、自部署、自托管,做出跟原作者类似的应用。 那么大型语言模型的“源”指的是什么?

    英文太烂看不懂 hugging face 里的说明 我目前理解的只有数据集(一大堆结构化的文本),其他的诸如参数、训练方法、预训练模型具体指的是啥?除了前述这些,还有遗漏的吗?

    巧合的是那年 Llama 在 2 月开源,百度文心、阿里通义和腾讯混元都先后实现了“全链路自研”,我比较好奇 Llama 自己是依赖哪位前者?它有声明学习对象吗?

    更想引出一个一直疑惑的点,各种五花八门的开源许可证到底是国际通用的、具有实际效力的条款文件,还是纯粹的“君子协议”?

    11 条回复    2024-07-25 19:41:14 +08:00
    L5tEU4WX072p5P42
        1
    L5tEU4WX072p5P42  
       2024-07-25 19:12:51 +08:00 via Android
    码了,我也不懂
    malusama
        2
    malusama  
       2024-07-25 19:13:57 +08:00   2
    模型开源不都是开放下载模型权重么?
    mumbler
        3
    mumbler  
       2024-07-25 19:15:09 +08:00   2
    大模型开源的是权重文件,你可以用自己数据去微调这个权重,而不用从头去训练
    shinsekai
        4
    shinsekai  
       2024-07-25 19:18:09 +08:00   1
    训练好的模型参数+模型结构

    或者

    用于训练的数据集+训练参数+模型结构
    ztm0929
        5
    ztm0929  
    OP
       2024-07-25 19:21:56 +08:00
    @mumbler
    @malusama

    对,GPT 给我的解答也包含了这个,但如果以这个来定义为“开源”的话,其实各家都有付费服务(例如 OpenAI 的付费 fine-tune ),这么看开源的特色之处主要在于免费?
    mustcool
        6
    mustcool  
       2024-07-25 19:24:32 +08:00   1
    数据集基本都没开源
    mumbler
        7
    mumbler  
       2024-07-25 19:30:30 +08:00   1
    @ztm0929 #5 fine-tune 付费服务主要是为算力付费,模型都是免费的,至少现在没收你钱
    mumbler
        8
    mumbler  
       2024-07-25 19:30:51 +08:00
    @mustcool #6 数据集肯定有严重的版权问题,没法开源
    mumbler
        10
    mumbler  
       2024-07-25 19:38:05 +08:00   1
    @ztm0929 #5 开源的好处是模型可调,算力可控,你可以用自己的 GPU 本地部署开源模型,需要用的时候才开机,只需要付电费,便宜,而云端算力就算空闲你也要付 GPU 费,贵

    想体验下部署本地模型,目前最简单的方法是用 flashai.com.cn 提供的整合包,一键下载,开箱即用
    ztm0929
        11
    ztm0929  
    OP
       2024-07-25 19:41:14 +08:00
    @mumbler 哈哈好吧,比较可惜,现在主要是想体验通义 72b 和 llama70b
    关于     帮助文档     自助推广系统     博客    API     FAQ     Solana     1119 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 23ms UTC 23:22 PVG 07:22 LAX 15:22 JFK 18:22
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86