
1 s609926202 1 月 2 日 via iPhone 同问,我想把聊天记录做成知识库,做成什么格式的( excel ,txt 等)最好 |
2 liuzimin 1 月 2 日 via Android 准备做秽土转生? |
3 qixinwuchen 1 月 2 日 via iPhone 感兴趣,关注一下 |
4 vovov 1 月 2 日 via iPhone 我准备把聊天记录向量化,然后把匹配的数据用大模型来回答看看效果 |
5 dji38838c 1 月 2 日 这思路.. 你直接拿这个问题用 AI 不就行了 |
6 lloovve 1 月 2 日 via iPhone 找到方案踢我一下,我也想转生一个 |
7 okoklll 1 月 2 日 试试 Weclone https://docs.llamafactory.online/docs/documents/best-practice/weclone |
8 zisen 1 月 2 日 @s609926202 json |
9 euph 1 月 2 日 via Android 刚问了哈基米,感觉瓶颈还是在 gpu |
10 might1 1 月 2 日 via Android 更好奇是怎么导出来的微信聊天记录 |
11 cxsz 1 月 2 日 同好奇怎么导出数据 |
12 hafuhafu 1 月 2 日 需要自己清洗一下对话,去掉没用的信息,然后多次连续的消息拼成一个长句,最终应该变成 QA 形式的,你的对话是 Q ,对方的是 A 。 然后用 LlamaFactory 之类的微调。 之前稍微玩了一下,太久了忘了,反正看文档完事。 |
14 jiandandkl 1 月 3 日 @okoklll 试过 weclone ,效果很不好 |
17 okoklll 1 月 3 日 @jiandandkl 这个和数据质量关系还是挺大的,当时用的哪个模型呢 |
18 kingmiao 2 月 10 日 12 万条数据 数量不错了。 这个需求大致是个微调个人风格,这个数据量完全够了,数据清洗多做做。数据洗不干净模型会瞎整的,可以 vibe coding 一个 python 脚本,注意只保留文本对话,数据格式处理成 ShareGPT ,因为是多轮对话,不要用 Alpaca ,那个是单轮的,学不会上下文的联系。 然后就是看有没有显卡了,整个 8B 模型,效果就不错了,没有显卡可以整 colab 或者 kaggle 都有免费的算力。 微调库可以用 unsloth ,这种任务跑起来快,方便导出 |
19 cgsgeduo 12 天前 直接用 rag 做成一个聊天 agent? 如果直接训练那么最好就是 SFT |