
最近在测试 Qwen3-VL ,Doubao-seed-2 这类的目标识别能力,尤其是豆包在很多复杂场景不需要训练就能标注得非常准确,能够在用法上更加灵活,对比 yolo 需要大量的训练数据,不断迭代。 想请教各位是否有尝试过用大模型做自动标注辅助 yolo 训练,或者直接用在生产环境?
1 iasnull 4 小时 58 分钟前 via Android 看具体场景,各有优劣。比如最近的大模型在单字符级别的识别能力比较差,在比较大且明显的 2d 特征物体的识别能力就很厉害,能抗噪声和失真。 |
2 giserd 4 小时 55 分钟前 VL 模型开销远高于 yolo 之类的目标识别,单纯目标识别还是感觉 yolo 更靠谱 |
3 nno 4 小时 54 分钟前 对延迟敏感的不会用;不敏感的会用; |
4 stinkytofux 4 小时 54 分钟前 标注必须准确 yolo 的检测效果才好, 现阶段大模型标注还必须人工检查, 如果一张一张的检查, 调整标注, 还不如直接人工标. 因为修改更麻烦, 所以我们还是人工标. |
5 cryptovae 4 小时 52 分钟前 yolo 快,训练数据量上来,准确度提升 VL 模型慢,有幻觉,看你怎么取舍了 |
6 timeance 4 小时 3 分钟前 工业检测不会,最多用大模型来辅助识别小模型;常见的两个场景是 1. 比如小模型识别不了的异形体,大模型做标注然后转人工 2. 产线部署的时候用人工大模型来标注数据,也就是大模型教小模型怎么做 |
7 DigitalG 4 小时 1 分钟前 做过类似的尝试,试了市面上的 VLM 。忽略检测速度问题,只考虑效果的话。只判断分类或者有无的话,姑且还行。但如果使用提示词明确要求 VL 大模型给出障碍物和像素坐标,那就谈不上多准确。能给出的更多是语义信息,图里有什么,没什么,但在什么位置就不容里准确了。 做分类可以,做检测不行。 可以辅助标注,人去优化标注框 |
8 WithoutSugarMiao 3 小时 21 分钟前 @DigitalG 我们这面是做工业场景的,之前用 yolo ,现在用 gemini3.0 最近换成了 3.1 。即便给像素坐标也非常准确。而且是很复杂的工业零件。 |
9 visper 3 小时 12 分钟前 yolo 快啊。 |
10 monstericeer OP 我这边是无人机高空场景,除了日常的目标识别外,需要做大量的语义分割/变化监测,在往大模型这方面探索。 |
11 monstericeer OP @WithoutSugarMiao seed2.0 的像素坐标比较准,但是会有概率遗漏,gemini3.1 准确率怎么样?有没有考虑对 qwen-vl 微调之类的 |
12 xiaomushen 1 小时 43 分钟前 这得多慢多贵啊 |
13 commoccoom 46 分钟前 @monstericeer 老哥,我们也在做无人机巡检项目。你们那里 UOM 审批好过吗? |
14 monstericeer OP @commoccoom 不好弄 |
15 commoccoom 25 分钟前 @monstericeer 看来都麻烦,只有他们公安自己的方便。有些单位还去东部战区审批飞行 |