做了一个破解字体反爬虫的小工具 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
ZAXON

做了一个破解字体反爬虫的小工具

  •  
  •   ZAXON
    zxjlm 2020 年 12 月 17 日 3147 次点击
    这是一个创建于 1952 天前的主题,其中的信息可能已经有所发展或是发生改变。

    找了一份面向监狱编程的实习工作,在破解某个网址的字体反爬虫的时候,觉得这种反爬虫思路很是新奇,主要就是做映射字典这种精神污染的工作过于折磨,宁愿去搞 js 逆向,至少能让自己感觉是在干技术活儿

    所以为了避免话半天的时间去做映射字典,我花了一天的时间做了一个破解工具()

    部了个Demo,有兴趣的可以玩玩,用的是阿里云的学生机,配置抗不住,所以加了个文件限制,即使是这样也不知道能撑住几个人一起用,崩了的话可以看看github上面的.

    希望这个小工具能够给和我从事同样工作的人们提供到帮助

    第 1 条附言    2020 年 12 月 18 日

    另外OCR的图片都是uni956C.png这种理想情况下的,OCR识别率不高会不会是过拟合了,我在这方面也只是有所了解,不知道有没有大佬给个优化方向

    5 条回复    2020-12-18 18:23:18 +08:00
    daiqiangbudainiu
        1
    daiqiangbudainiu  
       2020 年 12 月 17 日
    好东西,看之前先顶一下
    leafleave
        2
    leafleave  
       2020 年 12 月 17 日
    所以进能够使用网站提供的小样本进行测试
    错别字:进→仅
    ZAXON
        3
    ZAXON  
    OP
       2020 年 12 月 18 日
    @leafleave 嗯,目前是依赖于 chineseocr_lite 做本地的 OCR,不过也提供了百度的接口,有条件的话用第三方接口识别率可能会更高。
    我也不知道现在国内的 OCR 哪家比较厉害,计划是再加一个腾讯的接口。
    毕竟 OCR 不能保证 100%的识别率,这也是做成 web 服务的原因,最后必须要经过一次人工核对的。
    leafleave
        4
    leafleave  
       2020 年 12 月 18 日
    有没有可能在 ocr 之后再利用输入法的词库检测出来可能的错别字,再尝试匹配其他相近的字符,这样可以提高准确率
    ZAXON
        5
    ZAXON  
    OP
       2020 年 12 月 18 日
    @leafleave 本质上这是通过将字体文件(fft\woff\woff2)中的每个字转换为 png 图片,来后针对每一张图片做 OCR 。有兴趣的话可以看看[实现思路]( https://blog.harumonia.moe/font-antispider-cracker/)。

    最终是对含有单个字的图片进行识别,而不是对一段话的识别。

    你说的这个思路倒是可以通过引进不同的 OCR 方式来检测出有争议的识别结果。
    其实目前程序的设计还是有问题的。比如如果使用了第三方 OCR 做增补,这个增补只是针对本地 OCR 没识别出来的图片,而不是本地 OCR 识别错的图片(蛋疼的是这个错误只有人工能判断)。诸如此类的,我计划等周末再琢磨琢磨提高准确率的方法。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1113 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 31ms UTC 18:24 PVG 02:24 LAX 11:24 JFK 14:24
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86