求助微信聊天记录训练 ai - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
MuskZhou
V2EX    机器学习

求助微信聊天记录训练 ai

  •  
  •   MuskZhou 1 月 2 日 3151 次点击
    这是一个创建于 85 天前的主题,其中的信息可能已经有所发展或是发生改变。
    如题所示,导出了大概 12 万条聊天记录,请问各位佬有什么好的办法训练让 ai 模仿吗
    19 条回复    2026-03-16 01:19:23 +08:00
    s609926202
        1
    s609926202  
       1 月 2 日 via iPhone
    同问,我想把聊天记录做成知识库,做成什么格式的( excel ,txt 等)最好
    liuzimin
        2
    liuzimin  
       1 月 2 日 via Android
    准备做秽土转生?
    qixinwuchen
        3
    qixinwuchen  
       1 月 2 日 via iPhone
    感兴趣,关注一下
    vovov
        4
    vovov  
       1 月 2 日 via iPhone
    我准备把聊天记录向量化,然后把匹配的数据用大模型来回答看看效果
    dji38838c
        5
    dji38838c  
       1 月 2 日
    这思路..
    你直接拿这个问题用 AI 不就行了
    lloovve
        6
    lloovve  
       1 月 2 日 via iPhone
    找到方案踢我一下,我也想转生一个
    okoklll
        7
    okoklll  
       1 月 2 日
    试试 Weclone
    https://docs.llamafactory.online/docs/documents/best-practice/weclone
    zisen
        8
    zisen  
       1 月 2 日
    euph
        9
    euph  
       1 月 2 日 via Android
    刚问了哈基米,感觉瓶颈还是在 gpu
    might1
        10
    might1  
       1 月 2 日 via Android
    更好奇是怎么导出来的微信聊天记录
    cxsz
        11
    cxsz  
       1 月 2 日
    同好奇怎么导出数据
    hafuhafu
        12
    hafuhafu  
       1 月 2 日   1
    需要自己清洗一下对话,去掉没用的信息,然后多次连续的消息拼成一个长句,最终应该变成 QA 形式的,你的对话是 Q ,对方的是 A 。
    然后用 LlamaFactory 之类的微调。
    之前稍微玩了一下,太久了忘了,反正看文档完事。
    jiandandkl
        14
    jiandandkl  
       1 月 3 日
    @okoklll 试过 weclone ,效果很不好
    MuskZhou
        15
    MuskZhou  
    OP
       1 月 3 日
    @might1 我的是 macOS ,微信回退到 3.8.0 然后用 wxdump
    MuskZhou
        16
    MuskZhou  
    OP
       1 月 3 日
    @cxsz 我的是 macOS ,微信回退到 3.8.0 然后用 wxdump
    okoklll
        17
    okoklll  
       1 月 3 日
    @jiandandkl 这个和数据质量关系还是挺大的,当时用的哪个模型呢
    kingmiao
        18
    kingmiao  
       2 月 10 日
    12 万条数据 数量不错了。
    这个需求大致是个微调个人风格,这个数据量完全够了,数据清洗多做做。数据洗不干净模型会瞎整的,可以 vibe coding 一个 python 脚本,注意只保留文本对话,数据格式处理成 ShareGPT ,因为是多轮对话,不要用 Alpaca ,那个是单轮的,学不会上下文的联系。
    然后就是看有没有显卡了,整个 8B 模型,效果就不错了,没有显卡可以整 colab 或者 kaggle 都有免费的算力。
    微调库可以用 unsloth ,这种任务跑起来快,方便导出
    cgsgeduo
        19
    cgsgeduo  
       12 天前
    直接用 rag 做成一个聊天 agent? 如果直接训练那么最好就是 SFT
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3175 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 23ms UTC 14:08 PVG 22:08 LAX 07:08 JFK 10:08
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86