请问用 Node 的爬虫朋友,有遇到过偶然出现中文变成方块问号字符的情况吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wontoncc
V2EX    Node.js

请问用 Node 的爬虫朋友,有遇到过偶然出现中文变成方块问号字符的情况吗?

  •  
  •   wontoncc 2013-05-19 19:14:17 +08:00 6329 次点击
    这是一个创建于 4593 天前的主题,其中的信息可能已经有所发展或是发生改变。
    估计是变成坏掉的不完整的UTF-8字符了,求解决方案。

    另外,估计不是编码问题,因为出现问题的字符是随机的,并不固定。
    第 1 条附言    2013-05-20 22:28:23 +08:00
    https://github.com/wontoncc/cnbetaCC 代码仓库在这边,主要是 worker 和 processor 做爬取信息的处理。
    第 2 条附言    2013-05-21 16:49:07 +08:00
    重新写了一遍抓取的代码,用 stream 和原生 buffer 处理,并没有出现这个问题;
    估计是 bufferhelper 模块的问题:https://github.com/JacksonTian/bufferhelper
    有点可笑的是,bufferhelper 这个模块本身就是为了防止 chunk 拼接的时候被阶段的问题…

    我自己的处理方案是:
    var buf = Buffer(0);
    ...
    res.on('data', function(chunk){ ... buf = Buffer.concat([buf,chunk]); ... });
    res.on('end', function(){ ... buf = Buffer(0); });

    于是这贴可以结了,感谢各位的指教。
    15 条回复    1970-01-01 08:00:00 +08:00
    chemzqm
        1
    chemzqm  
       2013-05-19 19:30:26 +08:00   1
    可能抓到的是gzip版本,设置请求头 Accept-Encoding:deflate
    wontoncc
        2
    wontoncc  
    OP
       2013-05-19 19:54:14 +08:00
    @chemzqm 刚刚测试了一下,还是不行。会不会跟用了 iconv-lite 转码有关?
    orzfly
        3
    orzfly  
       2013-05-19 19:59:23 +08:00   1
    随机的?话说js好像不支持0~0xFFFF之外的字符。
    inaction
        4
    inaction  
       2013-05-19 20:55:38 +08:00 via Android   1
    @wontoncc 对,有些字符没对应,比如 []
    inaction
        5
    inaction  
       2013-05-19 21:02:15 +08:00
    测试:刚才明明发的中文字符:〖〗,变成了[]
    skydiver
        6
    skydiver  
       2013-05-19 21:04:37 +08:00
    @inaction v2ex确实会转化这个字符。。。不知是不是L大不喜欢这个符号。。。
    wontoncc
        7
    wontoncc  
    OP
       2013-05-19 22:24:32 +08:00
    @inaction
    @orzfly

    那请问还有什么处理GBK的方法?
    juicy
        8
    juicy  
       2013-05-20 14:39:27 +08:00   1
    会不会是你本机缺少相应的字符库,而抓到的数据本身是没问题的?也许在其他有相应字符库的机子上是显示正常的?
    wontoncc
        9
    wontoncc  
    OP
       2013-05-20 16:14:02 +08:00
    @juicy 刚刚测试了一下,并不是这个问题。
    而且因为是随机的缘故,本来有些字这次请求完好,下一次请求却坏到了。如果是字库问题应该一直都看不到才对。
    juicy
        10
    juicy  
       2013-05-20 20:41:07 +08:00
    @wontoncc 那会不会是源头就是坏的呢。。。没准用别的语言爬也是这样的结果。。
    leafduo
        11
    leafduo  
       2013-05-20 21:10:03 +08:00   1
    贴代码吧
    wontoncc
        12
    wontoncc  
    OP
       2013-05-20 22:28:43 +08:00
    @leafduo 已经附上了。
    wontoncc
        13
    wontoncc  
    OP
       2013-05-21 16:50:58 +08:00
    @chemzqm
    @orzfly
    @inaction
    @juicy
    @leafduo

    非常感谢各位,问题已经解决了。请见 APPEND。
    juicy
        14
    juicy  
       2013-05-21 18:18:14 +08:00
    恭喜楼主攻克难题~~~
    chemzqm
        15
    chemzqm  
       2013-05-21 20:42:34 +08:00
    给他提个issue吧,方便其他人。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5246 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 46ms UTC 07:54 PVG 15:54 LAX 23:54 JFK 02:54
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86