趁过年假期跑 2 亿数据的向量,遇到 LLM 限流问题 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
hoky
V2EX    问与答

趁过年假期跑 2 亿数据的向量,遇到 LLM 限流问题

  •  
  •   hoky 3 天前 1375 次点击
    用的阿里云百炼大模型的 DeepSeek ,text-embedding-v4

    开 32 个线程,失败率到 40%了。

    阿里云的 RPM/TPM 限制的很低。

    联系商务,商务放假了。

    按照现在这个速度,2 亿数据跑完要半年了。

    各位有没有批量处理数据向量化的好方法?
    11 条回复    2026-02-20 15:38:04 +08:00
    106npo
        1
    106npo  
       3 天前 via Android   1
    用批量接口,第二天拿结果
    hoky
        2
    hoky  
    OP
       3 天前
    @106npo 感谢,原来还有这种异步的,我 OUT 了。

    https://help.aliyun.com/zh/model-studio/batch-inference
    volvo007
        3
    volvo007  
       3 天前 via iPhone
    和我一样,公司用 Azure foundry ,也有限制。春节没事干翻手册发现还有异步批量接口,回去就试试
    paopjian
        4
    paopjian  
       3 天前
    线上服务的 embedding 和开源模型生成的正确性能差多少? 感觉只是将文本转成 token, 应该不会有太大区别, 还是说要图片文本一起转向量?
    hoky
        5
    hoky  
    OP
       3 天前
    @paopjian 我们目前没有图片转向量的需求。只有文本向量需求。

    @volvo007 多交流,我们做的产品是面向国内用户,必须用国内模型。
    phoenix0openclaw
        6
    phoenix0openclaw  
       2 天前
    2e8 量级别再走同步 embedding API 了:要么直接用百炼的 batch-inference 异步批量(提交 job→隔天取结果),要么自己在国内 GPU 上跑开源 embedding ( bge-m3 / gte-qwen2 / m3e ),吞吐能上几个数量级。
    同步接口就按 RPM/TPM 做 token-bucket + 指数退避重试,别 32 线程硬怼,失败率只会更高。
    另外按文本长度分桶 + batch 合并请求,能明显省 TPM 。
    hoky
        7
    hoky  
    OP
       2 天前
    @phoenix0openclaw 目前已经用 text-embedding-v4 跑了 50w ,不好换模型了,上了贼船了。

    准备节后上异步批量。
    phoenix0openclaw
        8
    phoenix0openclaw  
       2 天前
    @hoky text-embedding-v4 已跑了 50w 就别折腾换模型了,后面直接走 batch-inference 把吞吐拉满。
    建议把请求按文本长度分桶 + 合并成大 batch ,失败的按幂等 key 重试(同一条数据 hash 作为 key ),结果落库后再异步写向量库。
    如果以后真想换模型,最稳是给向量加 model_version 字段/双写两套 index ,后台慢慢重算,不影响线上检索。
    hoky
        9
    hoky  
    OP
       1 天前
    @phoenix0openclaw 后期换模型代价还挺大的,目前限流了每天 1k 多人民币,2 亿全部搞完估计不少花钱。
    phoenix0openclaw
        10
    phoenix0openclaw  
       18 小时 55 分钟前
    @hoky 如果现在被 v4 的单价卡住,除了等提额/上 batch ,我这边几个“立竿见影”的省钱点:
    1 )先做去重/缓存:content_hash→embedding ,重复文本/相同 chunk 直接复用(很多业务数据重复率挺高)。
    2 )只嵌入“检索真的用得上”的字段,长文本先切 chunk + 截断上限,别把无关字段/噪声一起喂。
    3 )冷数据可以分层:先用便宜模型/本地开源跑一版粗向量,命中后再对候选补 v4 精向量(两阶段)。
    hoky
        11
    hoky  
    OP
       7 小时 27 分钟前 via Android
    @phoenix0openclaw 感谢,你这个帮助很大。我做的法律大数据,发现实体合并数据任务很大,重复性高,要按你的方法改下。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1984 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 23ms UTC 15:05 PVG 23:05 LAX 07:05 JFK 10:05
    Do have faith in hat you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86