大家在做目标检测落地时会考虑用 VL 大模型直接做识别吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
monstericeer
V2EX    程序员

大家在做目标检测落地时会考虑用 VL 大模型直接做识别吗?

  •  1
     
  •   monstericeer 5 小时 5 分钟前 1180 次点击

    最近在测试 Qwen3-VL ,Doubao-seed-2 这类的目标识别能力,尤其是豆包在很多复杂场景不需要训练就能标注得非常准确,能够在用法上更加灵活,对比 yolo 需要大量的训练数据,不断迭代。 想请教各位是否有尝试过用大模型做自动标注辅助 yolo 训练,或者直接用在生产环境?

    15 条回复    2026-04-02 13:13:06 +08:00
    iasnull
        1
    iasnull  
       4 小时 58 分钟前 via Android
    看具体场景,各有优劣。比如最近的大模型在单字符级别的识别能力比较差,在比较大且明显的 2d 特征物体的识别能力就很厉害,能抗噪声和失真。
    giserd
        2
    giserd  
       4 小时 55 分钟前
    VL 模型开销远高于 yolo 之类的目标识别,单纯目标识别还是感觉 yolo 更靠谱
    nno
        3
    nno  
       4 小时 54 分钟前
    对延迟敏感的不会用;不敏感的会用;
    stinkytofux
        4
    stinkytofux  
       4 小时 54 分钟前
    标注必须准确 yolo 的检测效果才好, 现阶段大模型标注还必须人工检查, 如果一张一张的检查, 调整标注, 还不如直接人工标. 因为修改更麻烦, 所以我们还是人工标.
    cryptovae
        5
    cryptovae  
       4 小时 52 分钟前
    yolo 快,训练数据量上来,准确度提升
    VL 模型慢,有幻觉,看你怎么取舍了
    timeance
        6
    timeance  
       4 小时 3 分钟前
    工业检测不会,最多用大模型来辅助识别小模型;常见的两个场景是
    1. 比如小模型识别不了的异形体,大模型做标注然后转人工
    2. 产线部署的时候用人工大模型来标注数据,也就是大模型教小模型怎么做
    DigitalG
        7
    DigitalG  
       4 小时 1 分钟前
    做过类似的尝试,试了市面上的 VLM 。忽略检测速度问题,只考虑效果的话。只判断分类或者有无的话,姑且还行。但如果使用提示词明确要求 VL 大模型给出障碍物和像素坐标,那就谈不上多准确。能给出的更多是语义信息,图里有什么,没什么,但在什么位置就不容里准确了。 做分类可以,做检测不行。

    可以辅助标注,人去优化标注框
    WithoutSugarMiao
        8
    WithoutSugarMiao  
       3 小时 21 分钟前
    @DigitalG 我们这面是做工业场景的,之前用 yolo ,现在用 gemini3.0 最近换成了 3.1 。即便给像素坐标也非常准确。而且是很复杂的工业零件。
    visper
        9
    visper  
       3 小时 12 分钟前
    yolo 快啊。
    monstericeer
        10
    monstericeer  
    OP
       2 小时 39 分钟前
    我这边是无人机高空场景,除了日常的目标识别外,需要做大量的语义分割/变化监测,在往大模型这方面探索。
    monstericeer
        11
    monstericeer  
    OP
       2 小时 36 分钟前
    @WithoutSugarMiao seed2.0 的像素坐标比较准,但是会有概率遗漏,gemini3.1 准确率怎么样?有没有考虑对 qwen-vl 微调之类的
    xiaomushen
        12
    xiaomushen  
       1 小时 43 分钟前
    这得多慢多贵啊
    commoccoom
        13
    commoccoom  
       46 分钟前
    @monstericeer 老哥,我们也在做无人机巡检项目。你们那里 UOM 审批好过吗?
    monstericeer
        14
    monstericeer  
    OP
       35 分钟前
    @commoccoom 不好弄
    commoccoom
        15
    commoccoom  
       25 分钟前
    @monstericeer 看来都麻烦,只有他们公安自己的方便。有些单位还去东部战区审批飞行
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4755 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 21ms UTC 05:38 PVG 13:38 LAX 22:38 JFK 01:38
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86