为做个程序员英语字典,我处理了 StackOverflow 和 HackerNews10 年 5 千万条数据 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
kuokyong
V2EX    程序员

为做个程序员英语字典,我处理了 StackOverflow 和 HackerNews10 年 5 千万条数据

  •  
  •   kuokyong
    kkyon 2019-12-10 20:29:21 +08:00 5803 次点击
    这是一个创建于 2205 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有点标题党,不过都说都真实的。英语技能对开发员人员至关重要。所有人都不喜欢背单词,但更惨的是背住的单词发现没怎么用,又慢慢地忘记了。本来计划给自己做个开发人员常用单词表,感觉可能对其它人也有用,所以就发布开源出来。单词解释部分还没完成,后面会逐渐添加。

    单词列表托管在 Github 上,一共将近 3000 个。

    https://github.com/kkyon/Simple-IT-English

    单词主要来自:StackOverflow 和 HackerNews.

    Source|Newest Post|Oldest Post|Row Count|Size --------|--------------|---------------|------------|---- HackerNews comments|2015-10-13 08:44:02 UTC|2006-10-09 19:51:01 UTC|8399417|3.41 GB HackerNews stories|2015-10-13 08:44:34 UTC|2006-10-09 18:21:51 UTC|1959809|402.71 MB StackOverflow answers|2019-09-01 05:22:21.463 UTC|2008-08-01 13:16:49.127 UTC|27665009|22.27 GB StackOverflow questions|2019-09-01 05:23:41.743 UTC|2008-08-03 21:38:52.623 UTC|18154493|28.13 GB

    29 条回复    2019-12-13 13:53:52 +08:00
    exhades
        1
    exhades  
       2019-12-10 20:37:40 +08:00 via Android
    感谢分享
    resist
        2
    resist  
       2019-12-10 21:00:16 +08:00
    感谢,太懒了我,有注释就更好了,手动狗头
    kuokyong
        3
    kuokyong  
    OP
       2019-12-10 21:16:22 +08:00
    @resist 后面会添加解释和例子
    secondwtq
        4
    secondwtq  
       2019-12-10 21:28:50 +08:00
    @kuokyong 嗯,能把单词出现的句子加上会更好
    不过这个总觉得很难做 … 一是数据量很大,二是社区不比媒体,很多句子都是网络语言,其实不适合作为例句
    kuokyong
        5
    kuokyong  
    OP
       2019-12-10 21:33:03 +08:00
    @secondwtq 是有点难度,SO 数据量有点大,还有筛选出来句子,需要找个算法排优先级。后面会找时间尝试一下。
    SquirrelMAN
        6
    SquirrelMAN  
       2019-12-10 21:33:11 +08:00
    很有价值!
    jdhao
        7
    jdhao  
       2019-12-10 21:34:09 +08:00 via Android
    f1ren2es
        8
    f1ren2es  
       2019-12-10 23:09:24 +08:00
    支持~
    ddzzhen
        9
    ddzzhen  
       2019-12-10 23:10:51 +08:00 via Android
    赞,英语四级卡线路过
    dr1q65MfKFKHnJr6
        10
    dr1q65MfKFKHnJr6  
       2019-12-10 23:12:07 +08:00
    hannhuan
        11
    hannhuan  
       2019-12-10 23:45:17 +08:00   3
    太好了,第一个单词不是 Abandon。
    zhoudaiyu
        12
    zhoudaiyu  
    PRO
       2019-12-10 23:48:23 +08:00
    第一个 aaron 就不认识 doge
    ClericPy
        13
    ClericPy  
       2019-12-11 00:17:52 +08:00
    不错, 以前想过这些语料可以做什么, 你开了个好头, 也给国外这些主动开源自家数据的站点点赞, 比自己抓省太多时间了, 也避免服务器压力太大

    除了列表... 能有其他功能不

    1. 词典功能
    2. 按热度排序
    3. 按逆文本频率+热度排序
    4. 常错词
    5. 词向量找近义词
    6. 生僻词
    7. 自造词
    8. 共现词
    9. 长尾关键词
    10. 热点趋势图? 关键词热度变化曲线
    11. 词云?
    12. 我好无聊
    secondwtq
        14
    secondwtq  
       2019-12-11 00:26:04 +08:00
    @zhoudaiyu aaron 是人名吧 ... 知名人物如 Aaron Swartz
    嘛这也是 ... xref 都出来了,还有 Adobe 公司应该是得名于一条叫 Adobe 的河,我查了下 adobe 本身好像也是单词但是估计这个语料里的 adobe 指的是 adobe 公司 ... 还有 jekyll 啥的
    不过这种词总体不多,估计楼主要把频率更少的词也放进去就不好处理了
    xiangjian
        15
    xiangjian  
       2019-12-11 00:32:31 +08:00
    0726
        16
    0726  
       2019-12-11 00:37:46 +08:00 via iPhone
    牛皮哈
    KentY
        17
    KentY  
       2019-12-11 00:40:32 +08:00   1
    readme 里的英语问题挺多的.
    如果得空了改进一下.
    wwb721
        18
    wwb721  
       2019-12-11 09:43:02 +08:00
    太棒了,之前做过把 typescript lib 下的 zh-cn 的 diagnostic messages 中的单词切割出来去重,也能学到好多东西。
    whisperer
        19
    whisperer  
       2019-12-11 09:47:31 +08:00
    如果能跟 @lijy91 的「一路背单词」合作一下就好了,/t/608958
    做成一个单词本方便学习
    kuokyong
        20
    kuokyong  
    OP
       2019-12-11 10:14:20 +08:00
    @whisperer 太棒了。 我试一下联系 @lijy91
    bofei
        21
    bofei  
       2019-12-11 10:53:42 +08:00
    怎么没有中文啊
    cloudopt
        22
    cloudopt  
       2019-12-11 10:54:51 +08:00
    欢迎直接引用 Cloudopt 词典。如 https://s.cloudopt.net/search?q=aggregate&time_range=&language=zh-CN&category=dict
    ,方便大家点击查找。词典功能是没有任何广告的,我们也不靠这个功能盈利。
    kuokyong
        23
    kuokyong  
    OP
       2019-12-11 11:04:59 +08:00
    @bofei 还在补充。
    vjnjc
        24
    vjnjc  
       2019-12-11 12:48:30 +08:00
    哈哈哈这个思路不错,喜欢
    vjnjc
        25
    vjnjc  
       2019-12-11 12:49:55 +08:00
    要是能按照频次从高到低降序排就更好了,我只背前 500 个~
    RSDTE
        26
    RSDTE  
       2019-12-11 12:56:29 +08:00
    我只背前 500 个 +1
    lijy91
        27
    lijy91  
       2019-12-11 14:28:20 +08:00
    @kuokyong
    @whisperer
    我来了
    la2la
        28
    la2la  
       2019-12-11 17:25:28 +08:00
    收藏了 不看系列
    kuokyong
        29
    kuokyong  
    OP
       2019-12-13 13:53:52 +08:00
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3040 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 11:41 PVG 19:41 LAX 03:41 JFK 06:41
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86