如果你做过 segmentation,可能默认用了太久 argmax - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
爱意满满的作品展示区。
lev1s

如果你做过 segmentation,可能默认用了太久 argmax

  •  3
     
  •   lev1s 7 days ago 758 views

    最近 AI 圈聊 agent 、workflow 、MCP 聊得很热,我最近反而回头看了一个很土的地方:image segmentation 最后那一步,到底是不是应该那么理所当然地 argmax

    如果你做过这类任务,流程基本都差不多:模型吐出 per-pixel logits 或 probability map ,插值回原图尺寸,然后 argmax 或 threshold 出 mask 。SegFormer 、DeepLab 、UPerNet 这类语义分割模型是这样,很多把 SAM 或别的视觉 backbone 接到语义分割结果上的链路,最后也还是这一步。写久了之后,很容易把它当成一个收尾动作,而不是一个值得单独优化的决策规则。

    但 image segmentation 偏偏不是一个只看局部对错的任务。线上或者论文里真正看的,通常是 mIoU / mDice 这类整体 overlap 指标,而 argmax / threshold 更像是逐像素做贪心决策。每个 pixel 单独看都没问题,不代表整张 mask 的全局指标最优,尤其是小物体、边界、遮挡和一些碎区域,常常就是在最后这一步开始丢。

    我最近在参与 RankSEG 这条线,做的事情其实很朴素:不改训练,不碰模型权重,只重写“怎么把概率图变成最终 mask”这一步。换句话说,就是把 pipeline 里默认的 probs.argmax(dim=1) 换成一个更贴 segmentation 指标的后处理。对已经有现成推理链路的人来说,改动点非常明确,不是另起一套系统。

    这个项目我觉得值得发出来,也主要是因为它有点工程杠杆。现在 PyTorch native 的概率图流程可以接,Transformers 那种 processor -> model -> outputs -> postprocess 的链路也可以接。理论线也不是空口白话:原始工作是 JMLR 2023 ,RMA 加速版见 arXiv 2510.15362,仓库材料把它标成了 NeurIPS 2025 。公开材料里,VOC 上 SegFormer 相对 argmax 有 +1.02 mIoU,ADE20K 上 UPerNet 有 +0.98 mIoU,医疗分割里 LiTS / KiTS 还更明显。重点不在于“又多一篇分割论文”,而在于你不用重训,只是把最后一步重做一遍,就可能把已经训练好的模型再榨一点出来。

    我把仓库、文档和可直接跑的入口放下面了。如果你正好做 segmentation ,可以很快试一下;如果你不做这个方向,我其实也更想聊另一个问题:你们自己的模型链路或者规则系统里,有没有这种“前面很复杂,最后一步却长期默认处理”的地方?

    仓库:https://github.com/rankseg/rankseg

    文档:https://rankseg.readthedocs.io/en/latest/

    Colab:https://colab.research.google.com/github/Leev1s/rankseg/blob/feat/transformers-adapter/notebooks/rankseg_with_transformers.ipynb

    Hugging Face Space:https://huggingface.co/spaces/statmlben/rankseg

    如果想先看效果,大概是这种感觉:

    5 replies    2026-04-21 20:03:59 +08:00
    RecLusIveF
        1
    RecLusIveF  
       7 days ago via iPhone
    最近刚好在做这方面的工作,和楼主有同样的想法,只不过是把全局性的这个概念放到模型内部去做了一些优化,参考了 mask2former 及 Eomt 这类分割模型的设计,不再是 per-pixel 的去出 logits ,能提升一些整体性的效果,明天立马就去试试楼主的这个方案
    lev1s
        2
    lev1s  
    OP
       6 days ago
    @RecLusIveF 欢迎尝试欢迎 star ~
    dyyd993
        3
    dyyd993  
       6 days ago
    感谢楼主,不知道点云可不可以接
    dyyd993
        4
    dyyd993  
       6 days ago
    @lev1s 涨了一个点,这下凑够创新点了,希望论文能过
    lev1s
        5
    lev1s  
    OP
       6 days ago
    @dyyd993 哈哈哈哈哈恭喜 欢迎 star
    About     Help     Advertise     Blog     API     FAQ     Solana     972 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 19:56 PVG 03:56 LAX 12:56 JFK 15:56
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86