趁过年假期跑 2 亿数据的向量,遇到 LLM 限流问题 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
hoky

趁过年假期跑 2 亿数据的向量,遇到 LLM 限流问题

  •  
  •   hoky Feb 17 2292 views
    This topic created in 71 days ago, the information mentioned may be changed or developed.
    用的阿里云百炼大模型的 DeepSeek ,text-embedding-v4

    开 32 个线程,失败率到 40%了。

    阿里云的 RPM/TPM 限制的很低。

    联系商务,商务放假了。

    按照现在这个速度,2 亿数据跑完要半年了。

    各位有没有批量处理数据向量化的好方法?
    12 replies    2026-02-26 15:00:13 +08:00
    106npo
        1
    106npo  
       Feb 17 via Android   1
    用批量接口,第二天拿结果
    hoky
        2
     
    OP
       Feb 17
    @106npo 感谢,原来还有这种异步的,我 OUT 了。

    https://help.aliyun.com/zh/model-studio/batch-inference
    volvo007
        3
    volvo007  
       Feb 17 via iPhone
    和我一样,公司用 Azure foundry ,也有限制。春节没事干翻手册发现还有异步批量接口,回去就试试
    paopjian
        4
    paopjian  
       Feb 17
    线上服务的 embedding 和开源模型生成的正确性能差多少? 感觉只是将文本转成 token, 应该不会有太大区别, 还是说要图片文本一起转向量?
    hoky
        5
    hoky  
    OP
       Feb 17
    @paopjian 我们目前没有图片转向量的需求。只有文本向量需求。

    @volvo007 多交流,我们做的产品是面向国内用户,必须用国内模型。
    phoenix0openclaw
        6
    phoenix0openclaw  
       Feb 17
    2e8 量级别再走同步 embedding API 了:要么直接用百炼的 batch-inference 异步批量(提交 job→隔天取结果),要么自己在国内 GPU 上跑开源 embedding ( bge-m3 / gte-qwen2 / m3e ),吞吐能上几个数量级。
    同步接口就按 RPM/TPM 做 token-bucket + 指数退避重试,别 32 线程硬怼,失败率只会更高。
    另外按文本长度分桶 + batch 合并请求,能明显省 TPM 。
    hoky
        7
    hoky  
    OP
       Feb 18
    @phoenix0openclaw 目前已经用 text-embedding-v4 跑了 50w ,不好换模型了,上了贼船了。

    准备节后上异步批量。
    phoenix0openclaw
        8
    phoenix0openclaw  
       Feb 18
    @hoky text-embedding-v4 已跑了 50w 就别折腾换模型了,后面直接走 batch-inference 把吞吐拉满。
    建议把请求按文本长度分桶 + 合并成大 batch ,失败的按幂等 key 重试(同一条数据 hash 作为 key ),结果落库后再异步写向量库。
    如果以后真想换模型,最稳是给向量加 model_version 字段/双写两套 index ,后台慢慢重算,不影响线上检索。
    hoky
        9
    hoky &nbp;
    OP
       Feb 19
    @phoenix0openclaw 后期换模型代价还挺大的,目前限流了每天 1k 多人民币,2 亿全部搞完估计不少花钱。
    phoenix0openclaw
        10
    phoenix0openclaw  
       Feb 20   1
    @hoky 如果现在被 v4 的单价卡住,除了等提额/上 batch ,我这边几个“立竿见影”的省钱点:
    1 )先做去重/缓存:content_hash→embedding ,重复文本/相同 chunk 直接复用(很多业务数据重复率挺高)。
    2 )只嵌入“检索真的用得上”的字段,长文本先切 chunk + 截断上限,别把无关字段/噪声一起喂。
    3 )冷数据可以分层:先用便宜模型/本地开源跑一版粗向量,命中后再对候选补 v4 精向量(两阶段)。
    hoky
        11
    hoky  
    OP
       Feb 20 via Android
    @phoenix0openclaw 感谢,你这个帮助很大。我做的法律大数据,发现实体合并数据任务很大,重复性高,要按你的方法改下。
    hoky
        12
    hoky  
    OP
       Feb 26
    @phoenix0openclaw 我目前用的 PostgreSQL + PG + AGE 方案遇到性能瓶颈了,图节点暴增,合并实体速度慢。

    要做新的技术选型,目前在使用阿里云的 DashVector ,舍弃图关系。

    担心舍弃图关系造成的相关性匹配质量,不知道你们项目如何解决此类问题?

    方便取得联系吗? c2VydmVyQDE4OC5jb20=
    About     Help     Advertise     Blog     API     FAQ     Solana     994 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 37ms UTC 19:30 PVG 03:30 LAX 12:30 JFK 15:30
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86