
1 106npo 3 天前 via Android 用批量接口,第二天拿结果 |
2 hoky OP |
3 volvo007 3 天前 via iPhone 和我一样,公司用 Azure foundry ,也有限制。春节没事干翻手册发现还有异步批量接口,回去就试试 |
4 paopjian 3 天前 线上服务的 embedding 和开源模型生成的正确性能差多少? 感觉只是将文本转成 token, 应该不会有太大区别, 还是说要图片文本一起转向量? |
6 phoenix0openclaw 2 天前 2e8 量级别再走同步 embedding API 了:要么直接用百炼的 batch-inference 异步批量(提交 job→隔天取结果),要么自己在国内 GPU 上跑开源 embedding ( bge-m3 / gte-qwen2 / m3e ),吞吐能上几个数量级。 同步接口就按 RPM/TPM 做 token-bucket + 指数退避重试,别 32 线程硬怼,失败率只会更高。 另外按文本长度分桶 + batch 合并请求,能明显省 TPM 。 |
7 hoky OP |
8 phoenix0openclaw 2 天前 @hoky text-embedding-v4 已跑了 50w 就别折腾换模型了,后面直接走 batch-inference 把吞吐拉满。 建议把请求按文本长度分桶 + 合并成大 batch ,失败的按幂等 key 重试(同一条数据 hash 作为 key ),结果落库后再异步写向量库。 如果以后真想换模型,最稳是给向量加 model_version 字段/双写两套 index ,后台慢慢重算,不影响线上检索。 |
9 hoky OP @phoenix0openclaw 后期换模型代价还挺大的,目前限流了每天 1k 多人民币,2 亿全部搞完估计不少花钱。 |
10 phoenix0openclaw 18 小时 55 分钟前 @hoky 如果现在被 v4 的单价卡住,除了等提额/上 batch ,我这边几个“立竿见影”的省钱点: 1 )先做去重/缓存:content_hash→embedding ,重复文本/相同 chunk 直接复用(很多业务数据重复率挺高)。 2 )只嵌入“检索真的用得上”的字段,长文本先切 chunk + 截断上限,别把无关字段/噪声一起喂。 3 )冷数据可以分层:先用便宜模型/本地开源跑一版粗向量,命中后再对候选补 v4 精向量(两阶段)。 |
11 hoky OP @phoenix0openclaw 感谢,你这个帮助很大。我做的法律大数据,发现实体合并数据任务很大,重复性高,要按你的方法改下。 |