大家在做目标检测落地时会考虑用 VL 大模型直接做识别吗？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

请不要在回答技术问题时复制粘贴 AI 生成的内容

最近在测试 Qwen3-VL ，Doubao-seed-2 这类的目标识别能力，尤其是豆包在很多复杂场景不需要训练就能标注得非常准确，能够在用法上更加灵活，对比 yolo 需要大量的训练数据，不断迭代。想请教各位是否有尝试过用大模型做自动标注辅助 yolo 训练，或者直接用在生产环境？

大模型

目标检测

15 条回复 2026-04-02 13:13:06 +08:00

iasnull

4 小时 58 分钟前 via Android

看具体场景，各有优劣。比如最近的大模型在单字符级别的识别能力比较差，在比较大且明显的 2d 特征物体的识别能力就很厉害，能抗噪声和失真。

giserd

4 小时 55 分钟前

VL 模型开销远高于 yolo 之类的目标识别,单纯目标识别还是感觉 yolo 更靠谱

nno

4 小时 54 分钟前

对延迟敏感的不会用；不敏感的会用；

stinkytofux

4 小时 54 分钟前

标注必须准确 yolo 的检测效果才好, 现阶段大模型标注还必须人工检查, 如果一张一张的检查, 调整标注, 还不如直接人工标. 因为修改更麻烦, 所以我们还是人工标.

cryptovae

4 小时 52 分钟前

yolo 快，训练数据量上来，准确度提升
VL 模型慢，有幻觉，看你怎么取舍了

timeance

4 小时 3 分钟前

工业检测不会，最多用大模型来辅助识别小模型；常见的两个场景是
1. 比如小模型识别不了的异形体，大模型做标注然后转人工
2. 产线部署的时候用人工大模型来标注数据，也就是大模型教小模型怎么做

DigitalG

4 小时 1 分钟前

做过类似的尝试，试了市面上的 VLM 。忽略检测速度问题，只考虑效果的话。只判断分类或者有无的话，姑且还行。但如果使用提示词明确要求 VL 大模型给出障碍物和像素坐标，那就谈不上多准确。能给出的更多是语义信息，图里有什么，没什么，但在什么位置就不容里准确了。做分类可以，做检测不行。

可以辅助标注，人去优化标注框