想在本地部署 OCR 服务,解析美团的外卖订单截图,求推荐一个好用的 OCR 模型 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
EchoPrince

想在本地部署 OCR 服务,解析美团的外卖订单截图,求推荐一个好用的 OCR 模型

  •  1
     
  •   EchoPrince 9 days ago 3843 views

    公司做的是美团业务,需要定期解析一批美团的订单截图(也有一些是手机相机拍的订单页面图片),提取出其中的订单号码。 我试用了下腾讯的 ocr 识别成功率很高,就是太贵了,图片量很大遭不住。哪位老哥研究过 OCR ,能不能推荐一个适合本地部署的,公司有 5060 显卡。

    48 replies    2026-04-28 09:21:38 +08:00
    superhuai
        1
    superhuai  
       9 days ago
    偷偷摸摸用之前微信提取的那个 ocr , 应该不要钱。
    Wao
        2
    Wao  
       9 days ago
    deepseek ocr
    Mogugugugu
        3
    Mogugugugu  
       9 days ago   1
    Paddle OCR 试试
    66beta
        4
    66beta  
       9 days ago
    听上去 Gemini 本地模型 Gemma 4 就能做?而且显卡错错有余
    Leon6868
        5
    Leon6868  
       9 days ago
    也许用多模态大模型比普通 OCR 好,收集拍摄的订单图片对于基于文字分隔的 OCR 而言还是太难了
    raptor
        6
    raptor  
       9 days ago
    @Mogugugugu 百度这个确实还行
    diudiuu
        7
    diudiuu  
       9 days ago
    gemma+ocr 一套

    https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF/tree/main

    mmproj-BF16.gguf 这个是图片模型
    honda720
        8
    honda720  
       9 days ago
    Paddle OCR 就是干这个的,5060 应该能搞个稍微好点的
    xyooyx
        9
    xyooyx  
       9 days ago
    Topdu/OpenOCR 前段时期试了个小型的,效果不错
    defunct9
        10
    defunct9  
       9 days ago
    mmproj-BF16.gguf 这个是多模态用的,https://rendoumi.com/posts/20260409-gemma4_install/
    wnpllrzodiac
        11
    wnpllrzodiac  
       9 days ago   1
    rapid OCR
    cheng6563
        12
    cheng6563  
       9 days ago
    跑个 qwen 看效果怎样。
    labubu
        13
    labubu  
       9 days ago
    百度 Paddle server 版本
    iorilu
        14
    iorilu  
       9 days ago
    关注下, 模型太多了

    现在有什么排行榜或确认的评测, 那几个模型领先吗
    TuringGooner
        15
    TuringGooner  
       9 days ago
    之前不是有大佬逆向出来一个微信的 OCR 组件,纯算法的
    Seanfuck
        16
    Seanfuck  
       9 days ago
    Paddle OCR 基本上最强,有 cpu 版本,有现成的容器镜像。
    picone
        17
    picone  
       9 days ago
    paddle OCR ,性能也不错
    BlueSkyXN
        18
    BlueSkyXN  
       9 days ago
    我一般用 MAC 自带的
    pandaPapa
        19
    pandaPapa  
       9 days ago
    deepseek ocr 好像免费的
    SmallBlueZhao
        20
    SmallBlueZhao  
       9 days ago
    第一次看见帖子里面推荐百度家的东西比别家的多。。。
    whitewatercn
        21
    whitewatercn  
       9 days ago
    之前试过,paddle-ocr-vl1.5 足够好用,且开销不大,跟着这两个教程玩就足够了

    先部署 https://forum.beginner.center/t/topic/2677

    再调用 https://forum.beginner.center/t/topic/2681
    whitewatercn
        22
    whitewatercn  
       9 days ago
    @SmallBlueZhao #20
    有一说一百度在 ocr 方面的积淀很深,不知道多少年前就开始提供 ocr api 了,大模型出来以前,他们的 api 就很好用
    tianjiyao
        23
    tianjiyao  
       9 days ago
    @SmallBlueZhao 这个你别说 paddle OCR 是这个 行业的翘首。。。百度这个是真的不错。更加厌恶肉饼了。。。。。 多好的牌。。打成这样子稀烂
    ShawnShi
        24
    ShawnShi  
    PRO
       9 days ago
    https://aistudio.baidu.com/paddleocr 提供免费服务 效果不错的
    mashimaroinfo1
        25
    mashimaroinfo1  
       9 days ago
    这个事儿我亲手试过, 最精准的是 GLM-OCR(GGUF), 好像 0.9b 。

    次一等(但更快)RapidOCR 。

    别信 Tesseract OCR, 各种意外错误。

    Les1ie
        26
    Les1ie  
       9 days ago
    直接用 paddleocr ,或者用基于他而开的框架 rapidOCR 。开发和部署都超级简单,不吃资源,比如我上个月搓的简易验证码识别,简单粗暴又高效 https://github.com/IanSmith123/easy_captcha :)
    livelyyongheng1
        27
    livelyyongheng1  
       9 days ago
    那必然是 paddle
    NizumaEiji
        28
    NizumaEiji  
       9 days ago
    paddle ocr 吧 日常用比较稳
    没必要上多模态的 llm 吧
    AiBoy
        29
    AiBoy  
       9 days ago
    识别中文手写最强的是谁呢?
    superPONY
        30
    superPONY  
       9 days ago
    巧了,最近在做的项目刚好测了几个多模态/OCR 模型,你可以参考我的项目 readme 文档,https://github.com/RAGDock/RAGDock 。有用的的话求个 Star 哈哈哈
    andlp
        31
    andlp  
       9 days ago
    yolo 效果比大模型好
    定位订单的区域,针对这个字体识别,然后只识别 0-9 这 10 个数字 效果比什么大模型都要好的多
    berry10086
        32
    berry10086  
       9 days ago   1
    easyocr 也可以
    miaomiao888
        33
    miaomiao888  
       9 days ago
    @AiBoy 合合 OCR
    SanjinGG
        34
    SanjinGG  
       8 days ago
    rapidocr
    Selenium39
        35
    Selenium39  
       8 days ago
    llmocr
    latelan
        36
    latelan  
       8 days ago
    @defunct9 这个跑起来吃力么,小龙虾用着咋样啊
    fork3rt
        38
    fork3rt  
       8 days ago
    Paddle OCR VL 即可
    ukoudai
        39
    ukoudai  
       8 days ago
    你直接使用 macos,自带 视觉识别的 ,速度还贼快
    lyhiving
        40
    lyhiving  
       8 days ago
    识别中文手写最强的是谁呢?
    defunct9
        41
    defunct9  
       8 days ago
    @latelan 魔怔了吧,龙虾已经过时了。
    fenildf
        42
    fenildf  
       8 days ago
    @whitewatercn 这种在 windows 下有法部署吗?
    fenildf
        43
    fenildf  
       8 days ago
    @superPONY 已 star 。看起来挺好。想自己试试,发现缺指导文件 BUILD_GUIDE.md
    EchoPrince
        44
    EchoPrince  
    OP
       8 days ago
    @berry10086 今天简单试了下,手机截图准确率很高了,但是相机拍摄的照片有时候订单号中间会缺失 3-4 位数字
    fenildf
        45
    fenildf  
       7 days ago
    @EchoPrince 相机应该分辨率更高吧。不过可能被环境影响了
    whitewatercn
        46
    whitewatercn  
       5 days ago
    @fenildf #42 windows 没试过,但是最简单的就是上 docker 吧,只要能启动 paddleocr 就行
    fenildf
        47
    fenildf  
       2 days ago
    @whitewatercn 好的,谢谢
    PersueYan
        48
    PersueYan  
       1 day ago
    @ukoudai macos 自带的程序名字是啥
    About     Help     Advertise     Blog     API     FAQ     Solana     1145 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 111ms UTC 23:07 PVG 07:07 LAX 16:07 JFK 19:07
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86