我们做了一个在线词云小工具 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
graetdk
23.15D
V2EX    分享创造

我们做了一个在线词云小工具

  •  
  •   graetdk 2017-09-07 11:38:58 +08:00 12793 次点击
    这是一个创建于 3031 天前的主题,其中的信息可能已经有所发展或是发生改变。

    为什么要做这样一个小工具呢?最大的一个原因就是,我要用。

    写文章也好,做一些自然语言分析也好,词云在很多时候是必不可少的,一方面它挺好看,一方面,它以非常直观的方式让我看到最核心的关键点。

    在此之前,我并没有找到这样一个工具,能够让我轻松的得到好看的词云图。有的工具能够做出挺好看的词云图,但是太难用了,注册登录验证手机号,设置纬度设置数值,还要导入一大堆东西,最后才能看到我要的图。有些工具倒是很简单(比如知乎很多人推荐的 Wordle 等),但是出来的效果,惨不忍睹。

    我想要的非常简单,就是把长文本放进来,你给我数据和图表,并且,稍微好看一点。

    基于上面的需求,我们做了一个词云小工具:NiucoData词云小工具

    这个小工具的特性就是,简单,好看。我们并没有做太花哨的功能,例如自定义形状什么的,对于数据分析而言,这根本没什么卵用。

    打开(无需登录,注册),复制文本,点击按钮

    词性统计

    不同词性的词频

    可轻度编辑,实时生成的词云图

    PS:我们自己实现了一个分词系统,分词的效果应该比市面上绝大多数免费产品要好一些

    希望能帮到对数据分析有需求的同学:纽扣词云

    37 条回复    2019-05-17 14:43:29 +08:00
    codinm
        1
    codinm  
       2017-09-07 11:52:56 +08:00
    怎么实现的、
    qiayue
        2
    qiayue  
    PRO
       2017-09-07 11:59:05 +08:00
    用了一下很不错
    qiayue
        3
    qiayue  
    PRO
       2017-09-07 12:00:57 +08:00
    有人问能不能画上等高线,方便看
    yunkchen
        4
    yunkchen  
       2017-09-07 12:22:07 +08:00
    jeffson
        5
    jeffson  
       2017-09-07 12:57:00 +08:00
    怎么做的?
    50vip
        6
    50vip  
       2017-09-07 13:21:00 +08:00
    这个接口是什么?

    http://123.206.62.247/wordcloud/
    graetdk
        7
    graetdk  
    OP
       2017-09-07 13:34:48 +08:00 via Android
    @50vip 我们的服务器
    graetdk
        8
    graetdk  
    OP
       2017-09-07 13:35:59 +08:00 via Android
    @yunkchen 这个是纯粹为了样式,对数据分析基本没用
    touzi
        9
    touzi  
    PRO
       2017-09-07 13:36:12 +08:00
    用不了
    cuebyte
        10
    cuebyte  
       2017-09-07 13:41:36 +08:00
    用不了 + 1
    graetdk
        11
    graetdk  
    OP
       2017-09-07 13:43:46 +08:00
    @cuebyte 稍等一下,好像没想到会有这么多人用,服务器宕掉了 Orz
    cuebyte
        12
    cuebyte  
       2017-09-07 13:52:48 +08:00
    @graetdk ,帖子目前也就 300+量
    aurora1625
        13
    aurora1625  
       2017-09-07 13:54:35 +08:00
    不支持英文吗?随便丢了一个英文文本,词云没有显示
    graetdk
        14
    graetdk  
    OP
       2017-09-07 13:56:33 +08:00
    @cuebyte 我还在其他地方发了一下~
    graetdk
        15
    graetdk  
    OP
       2017-09-07 13:58:17 +08:00
    @aurora1625 英文都过滤了(英文的词云工具已经有不少了)


    @cuebyte PS:已经好了
    polythene
        16
    polythene  
       2017-09-07 14:38:29 +08:00
    楼主用的什么 UI,挺漂亮的
    graetdk
        17
    graetdk  
    OP
       2017-09-07 14:47:12 +08:00
    @polythene 没有用框架,自己做的
    inmyfree
        18
    inmyfree  
       2017-09-07 16:03:42 +08:00
    刚刚试了一下,把一个大概 2M 的文本考进去,额,结果死了。。。。
    FarAhead div class="fr">     19
    FarAhead  
       2017-09-07 16:10:24 +08:00
    SuAlien
        20
    SuAlien  
       2017-09-07 16:13:31 +08:00
    挺不错的
    graetdk
        21
    graetdk  
    OP
       2017-09-07 16:22:34 +08:00
    @inmyfree 2M 应该过百万字了~那实在是有点多了,我们目前十几万字应该没问题
    Thiece
        22
    Thiece  
       2017-09-07 16:53:33 +08:00
    @graetdk 希望能提供上传文件的方式,如果因为数据内容过多非及时展示也没关系,列队处理然后发送到用户邮箱的方式,或则生成一个唯一链接。
    另外如果可以和你家的主线产品联动分析实用性会得到提升。
    再接下来就是分析网站或者指定链接内容数据了。
    然后就是收集用户分析的数据进行数据分析。
    完美!
    rebill
        23
    rebill  
       2017-09-07 17:03:08 +08:00
    要是能增加一下感情色彩就好了
    dreamwar
        24
    dreamwar  
       2017-09-07 17:06:55 +08:00
    挺好用的
    graetdk
        25
    graetdk  
    OP
       2017-09-07 17:10:15 +08:00
    @Thiece 你的需求这么旺盛?!
    ETO
        26
    ETO  
       2017-09-07 17:29:14 +08:00
    @graetdk
    @Thiece 哈哈哈哈
    graetdk
        27
    graetdk  
    OP
       2017-09-07 17:29:14 +08:00
    @rebill 是指情感判断吗?
    yiwanGwan
        28
    yiwanGwan  
       2017-09-07 17:30:43 +08:00
    会写文章的程序员,了不得
    Thiece
        29
    Thiece  
       2017-09-07 18:19:18 +08:00
    @graetdk 上传文件分析和列队处理这个需求真的可以考虑一下。论文方面使用可以有参考价值。
    Thiece
        30
    Thiece  
       2017-09-07 18:21:52 +08:00
    @graetdk 服务器处理速度有限,再处理较多数据的时候,让用户等待一个 loading 圈真的很不礼貌,并且会失去耐心。
    cncqw
        31
    cncqw  
       2017-09-08 00:50:29 +08:00


    资瓷一个
    graetdk
        32
    graetdk  
    OP
       2017-09-08 09:19:14 +08:00
    @Thiece 我们后期可能会考虑推整体的高级服务,可能就会支持大文本的异步处理
    josherich
        33
    josherich  
       2017-09-08 13:45:03 +08:00
    词云中的代词,数次,介词等似乎作用较小,可以选择忽略;另外除了词频,可以用一些 topic modelling 方法计算权重。
    my3157
        34
    my3157  
       2017-09-08 15:52:33 +08:00
    413 Request Entity Too Large
    luili
        35
    luili  
       2017-09-11 08:00:33 +08:00
    试用了下 很不错
    LeonKennedy
        36
    LeonKennedy  
       2019-05-17 10:05:47 +08:00
    谷歌过来的。都是两年前了。前端用的什么开发的,样式挺好看的
    graetdk
        37
    graetdk  
    OP
       2019-05-17 14:43:29 +08:00
    @LeonKennedy 自己做的,前端没有用轮子
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2680 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 15:17 PVG 23:17 LAX 07:17 JFK 10:17
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86