有什么简便办法判断网页是哪国语言? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
akann
V2EX    问与答

有什么简便办法判断网页是哪国语言?

  •  
  •   akann 2012-04-04 23:59:58 +08:00 6396 次点击
    这是一个创建于 5006 天前的主题,其中的信息可能已经有所发展或是发生改变。
    在有些论坛里发言的甚至不知道说的是哪国语言,用谷歌翻译都无从做起。
    7 条回复    1970-01-01 08:00:00 +08:00
    akann
        1
    akann  
    OP
       2012-04-05 00:10:01 +08:00
    这个问题搜索引擎上搜了都找不到答案,看来还是比较难,但问的人还是挺多的,看来还是有需求的,实际上可以用个数据挖掘引擎就可以判断的,但好像现在还没有网站做这个。
    akann
        2
    akann  
    OP
       2012-04-05 00:25:08 +08:00
    zxwind
        3
    zxwind  
       2012-04-05 00:28:49 +08:00
    @akann 随便敲了一行乱码

    fsdcw fwdf df wf fwe. fwef wefaqfa jojfewnf lfw?

    判断出来是Polish
    akann
        4
    akann  
    OP
       2012-04-05 00:45:32 +08:00
    @zxwind 哈哈,我敲进去,判断也不准确,判断是葡萄牙语或者菲律宾语,看来这个问题的确还是挺难的。
    kafka0102
        5
    kafka0102  
       2012-04-05 02:27:13 +08:00
    @akann 语言识别是个技术问题了。技术上来说是个分类问题。这方面的online api可能有一些,如果是工具包的话,tika对英文类语种支持的不错。语言识别最麻烦的是多语言混合的情况,比如一篇中文技术文章,结果以代码为主,中文很少,自然就倾向于识别成英文,但实际要处理成中文。我现在就是在tika的基础上,对亚洲语系的语料做了些处理,计算分类的概率时加了些判断,尽量让目标的中文页面识别准确些。
    raptium
        6
    raptium  
       2012-04-05 02:33:47 +08:00 via iPad
    chrome 猜得挺准的啊
    akann
        7
    akann  
    OP
       2012-04-05 03:41:06 +08:00
    @raptium chrome是根据页面源码的charset决定的,问题是同一个charset的页面可能会有多种语言啊,比如一个网站的charset一般都是一个,但是上这个网站的人可能使用多种语言,chrome就无能为力了。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5060 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 35ms UTC 08:31 PVG 16:31 LAX 00:31 JFK 03:31
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86