This topic created in 712 days ago, the information mentioned may be changed or developed.
可能是我做过三年的优化重构,又主持过一些创业项目,特别重视节能减排。
我拿 llama.cpp 在集显笔记本上跑 llama3 中文-4bit ,毫无压力。
准备将来有机会产线也这么干。
求问有没有这样的产线案例,服务器是怎么样的,体验如何?
2 replies 2024-05-18 18:38:19 +08:00  | | 1 june4 May 18, 2024 多大的模型,我的闲置老机上用 cpu 跑好慢,本来想用于给文章打标签,全文是肯定不行,但哪怕就标题和简介,也要要 20 秒一个。 |
 | | 2 Solix May 18, 2024 via iPhone 得看有多少人访问,并发 token 多少,再决定上多少 gpu 服务器 |