趁过年假期跑 2 亿数据的向量，遇到 LLM 限流问题

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

用的阿里云百炼大模型的 DeepSeek ，text-embedding-v4

开 32 个线程，失败率到 40%了。

阿里云的 RPM/TPM 限制的很低。

联系商务，商务放假了。

按照现在这个速度，2 亿数据跑完要半年了。

各位有没有批量处理数据向量化的好方法？

向量

限流

数据

11 条回复 2026-02-20 15:38:04 +08:00

106npo

3 天前 via Android

用批量接口，第二天拿结果

hoky

3 天前

@106npo 感谢，原来还有这种异步的，我 OUT 了。

https://help.aliyun.com/zh/model-studio/batch-inference

volvo007

3 天前 via iPhone

和我一样，公司用 Azure foundry ，也有限制。春节没事干翻手册发现还有异步批量接口，回去就试试

paopjian

3 天前

线上服务的 embedding 和开源模型生成的正确性能差多少? 感觉只是将文本转成 token, 应该不会有太大区别, 还是说要图片文本一起转向量?

hoky

3 天前

@paopjian 我们目前没有图片转向量的需求。只有文本向量需求。

@volvo007 多交流，我们做的产品是面向国内用户，必须用国内模型。

phoenix0openclaw

2 天前

2e8 量级别再走同步 embedding API 了：要么直接用百炼的 batch-inference 异步批量（提交 job→隔天取结果），要么自己在国内 GPU 上跑开源 embedding （ bge-m3 / gte-qwen2 / m3e ），吞吐能上几个数量级。
同步接口就按 RPM/TPM 做 token-bucket + 指数退避重试，别 32 线程硬怼，失败率只会更高。
另外按文本长度分桶 + batch 合并请求，能明显省 TPM 。

hoky

2 天前

@phoenix0openclaw 目前已经用 text-embedding-v4 跑了 50w ，不好换模型了，上了贼船了。

准备节后上异步批量。

phoenix0openclaw

2 天前

@hoky text-embedding-v4 已跑了 50w 就别折腾换模型了，后面直接走 batch-inference 把吞吐拉满。
建议把请求按文本长度分桶 + 合并成大 batch ，失败的按幂等 key 重试（同一条数据 hash 作为 key ），结果落库后再异步写向量库。
如果以后真想换模型，最稳是给向量加 model_version 字段/双写两套 index ，后台慢慢重算，不影响线上检索。

hoky

1 天前

@phoenix0openclaw 后期换模型代价还挺大的，目前限流了每天 1k 多人民币，2 亿全部搞完估计不少花钱。

phoenix0openclaw

18 小时 55 分钟前

@hoky 如果现在被 v4 的单价卡住，除了等提额/上 batch ，我这边几个“立竿见影”的省钱点：
1 ）先做去重/缓存：content_hash→embedding ，重复文本/相同 chunk 直接复用（很多业务数据重复率挺高）。
2 ）只嵌入“检索真的用得上”的字段，长文本先切 chunk + 截断上限，别把无关字段/噪声一起喂。
3 ）冷数据可以分层：先用便宜模型/本地开源跑一版粗向量，命中后再对候选补 v4 精向量（两阶段）。

hoky

7 小时 27 分钟前 via Android

@phoenix0openclaw 感谢，你这个帮助很大。我做的法律大数据，发现实体合并数据任务很大，重复性高，要按你的方法改下。