做了一个股市的舆情分析接口,有感兴趣的么? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
RangerWolf
V2EX    分享创造

做了一个股市的舆情分析接口,有感兴趣的么?

  •  
  •   RangerWolf 2018-01-08 16:57:12 +08:00 9671 次点击
    这是一个创建于 2907 天前的主题,其中的信息可能已经有所发展或是发生改变。

    做了的事情:

    • 每天不停的抓某论坛上面股市相关的人的发言
    • 人工标注了接近 3W 条数据 自身需要, 不是讨论大盘的都被认定成股市无关
    • 训练了一个分类模型, 判断这一条语句的结果:
      • 无关或无用
      • 看涨
      • 看跌

    目前自己用的感觉:

    • 不能直接预测股市涨跌(废话,也不是目标)
    • 看涨看跌感觉还是比较准的, 只不过对那种转折语句判断确实容易出问题
    • 蛮多实际上有用的

    一个简陋的 demo

    http://stock.flyml.net/
    在最底下有测试窗口

    PS:目前还是很容易挂的, 不要黑我。。。

    第 1 条附言    2018-01-08 18:18:59 +08:00
    有兴趣可以邮件联系:yang.rangerwolf AT G 妹儿
    75 条回复    2018-01-16 18:39:53 +08:00
    ljsh0102
        1
    ljsh0102  
       2018-01-08 17:01:19 +08:00
    全是看平或无用
    chinajik
        2
    chinajik  
       2018-01-08 17:39:42 +08:00
    有兴趣,觉得不错
    tmkook
        3
    tmkook  
    PRO
       2018-01-08 17:43:29 +08:00
    就这量涨不起来!明天还得跌回去

    这句话都说看平或无用,是不是训练量不够?
    takato
        4
    takato  
       2018-01-08 17:52:32 +08:00 via iPhone   2
    这东西放在五六年前其实效果非常好。
    qdwang
        5
    qdwang  
       2018-01-08 18:01:23 +08:00 via iPhone   1
    时间长了你会发现舆情和行情没有相关性
    quickma
        6
    quickma  
       2018-01-08 18:04:33 +08:00
    这个没法对操作进行指导呀,只能当成分析大众的工具。
    RangerWolf
        7
    RangerWolf  
    OP
       2018-01-08 18:07:02 +08:00
    @takato 能说一下现在不好的原因吗?
    RangerWolf
        8
    RangerWolf  
    OP
       2018-01-08 18:17:16 +08:00
    @tmkook 现在最大的问题就是 很多确实是有用的, 被判定成无用了。
    我单独把你这句话“现在最大的问题就是 很多确实是有用的, 被判定成无用了。” 喂给了判定涨跌的模型, 结果是看跌, 概率 0.91
    RangerWolf
        9
    RangerWolf  
    OP
       2018-01-08 18:18:08 +08:00
    @x7395759 是的~ 我也没指望能通过 AI 把股市变成我的提款机
    RangerWolf
        10
    RangerWolf  
    OP
       2018-01-08 18:20:13 +08:00
    @qdwang 我们另外还有一个在调优的模型, 增加判断这一条记录是长线还是短线

    之前人工觉得, 对短线, 特别是股灾, 还是有一些作用的
    fe619742721
        11
    fe619742721  
       2018-01-08 18:21:18 +08:00
    跌是不可能跌的,
    这句话被判定成 跌 ,概率 0.97 。。。哈哈 好好玩
    RangerWolf
        12
    RangerWolf  
    OP
       2018-01-08 18:25:50 +08:00
    @fe619742721 haha~ 误判是一定存在的

    总有人工智障的时候, 在正文也提到过目前确实有这种问题。 否定的、转折的。。。

    希望有大神能一起来搞。
    takato
        13
    takato  
       2018-01-08 18:31:05 +08:00 via iPhone
    @RangerWolf 大家都开始使用的时候,信号会减弱,最后会淹没在噪声之中。
    code4life
        14
    code4life  
       2018-01-08 18:33:50 +08:00
    看起来不错,楼主继续加油
    takato
        15
    takato  
       2018-01-08 18:35:30 +08:00 via iPhone
    @RangerWolf 另外当开始使用这套系统的时候,自身就会成为一个市场信号,这个信号同样会被其他系统捕捉,最后会变成“谁掉头更快”、“谁对信号更敏感”就能吃掉别人的斗争。
    hqtc
        16
    hqtc  
       2018-01-08 18:38:05 +08:00
    @takato 哈哈,让我想起了雪球大 V 概念股。。一次调仓公布马上拉升。。。
    AlwaysBee
        17
    AlwaysBee  
       2018-01-08 18:47:52 +08:00   1
    有一个叫 查舆情 的网站,很强大,认识这个网站的创始人
    qdwang
        18
    qdwang  
       2018-01-08 19:56:46 +08:00
    @RangerWolf 以前也做过一些类似的系统,但是并没有太成功,可能是水平有限。

    希望你们能通过这个找到属于自己的圣杯:)
    RangerWolf
        19
    RangerWolf  
    OP
       2018-01-08 20:09:40 +08:00 via Android
    @code4life 感谢 哈哈
    RangerWolf
        20
    RangerWolf  
    OP
       2018-01-08 20:11:06 +08:00 via Android
    @hqtc 能稍微详细说说? 不是很
    chinvo
        21
    chinvo  
       2018-01-08 20:17:13 +08:00
    你的微博接口貌似挂了
    guanaco
        22
    guanaco  
       2018-01-08 20:26:51 +08:00 via iPhone
    这个内用,大多数人是不赚钱的,也就是说大多数舆情是错的
    guanaco
        23
    guanaco  
       2018-01-08 20:27:40 +08:00 via iPhone
    没用,手滑出的错字
    guanaco
        24
    guanaco  
       2018-01-08 20:32:06 +08:00 via iPhone
    还不如写个爬研究员的微信公众号有用,这个楼主能做一个?
    hqtc
        25
    hqtc  
       2018-01-08 20:33:59 +08:00
    @RangerWolf “另外当开始使用这套系统的时候,自身就会成为一个市场信号”。这句话不是很难理解吧。就是你这个系统预测出的结果,将会对市场产生影响。当然前提是有一定的关注量,就像雪球上的很多大 V 组合一样,他买的票为什么涨,因为大家看到他买了纷纷跟进。。

    我 15 年被收割一波之后 9 月开始抓个股数据,抓了一年的,现在废弃了

    t/276786
    RangerWolf
        26
    RangerWolf  
    OP
       2018-01-08 21:28:54 +08:00
    @chinvo 亲,你说的微博接口是什么? 我没看懂你的意思
    RangerWolf
        27
    RangerWolf  
    OP
       2018-01-08 21:29:57 +08:00
    @guanaco 爬公众号的代码应该也不少了吧? 可能还没完全看懂你的意思
    RangerWolf
        28
    RangerWolf  
    OP
       2018-01-08 21:32:15 +08:00
    @hqtc 其实我指的是 “一次调仓公布马上拉升。。。”

    不过你前面回复的话,感觉也解释了这一句话
    guests
        29
    guests  
       2018-01-08 21:41:27 +08:00   1
    挺有意思的项目。

    明天大盘多半凶多吉少预测结果:跌, 概率 0.702844
    明天大盘晴转阴预测结果:涨, 概率 0.658135 X
    大盘涨跌都很正常,平常心看待预测结果:看平或无用, 概率 0.583144
    大盘明天是割肉行情预测结果:涨, 概率 0.566443 X
    hlwjia
        30
    hlwjia  
    PRO
       2018-01-08 21:44:27 +08:00 via iPhone
    搭车问:谁有股票市场的数据实时接口的吗?
    hlwjia
        31
    hlwjia  
    PRO
       2018-01-08 21:45:11 +08:00 via iPhone
    @AlwaysBee 他们有股票的数据价格的接口吗?
    AlwaysBee
        32
    AlwaysBee  
       2018-01-08 21:46:41 +08:00
    @hlwjia 做舆情分析的,你可以咨询一下他们,官网应该有联系方式的
    chinvo
        33
    chinvo  
       2018-01-08 21:51:02 +08:00
    @RangerWolf #26 大概是我理解错了,以为你这个会有连续数据,15 分钟和 1 小时数据都是 N/A。仔细想想其实这个“大 V ”和“消息”是不连续的,没人发帖就不会有数据。
    RangerWolf
        34
    RangerWolf  
    OP
       2018-01-08 22:09:58 +08:00
    @chinvo 是的~ 抓的数据本身就是不连续的
    RangerWolf
        35
    RangerWolf  
    OP
       2018-01-08 22:11:05 +08:00
    @guests 还是样本不足

    我再想想办法,多谢
    guanaco
        36
    guanaco  
       2018-01-08 22:19:58 +08:00 via iPhone   1
    @RangerWolf 得到研究员发布的最新研报是有作用的,舆情跟踪各大股票论坛,每只个股加入自选股的数量变化是最有效的
    huijian222
        37
    huijian222  
       2018-01-08 22:22:48 +08:00
    人工标注 3W 条。。。楼主也是牛逼。。。
    RangerWolf
        38
    RangerWolf  
    OP
       2018-01-08 22:27:15 +08:00
    @huijian222 数据为王 没有数据没办法
    其实还是花了不少钱请人一起标注的
    RangerWolf
        39
    RangerWolf  
    OP
       2018-01-08 22:28:01 +08:00
    @guanaco 不知道方便分享一下完整的研报?
    guanaco
        40
    guanaco  
       2018-01-08 22:33:27 +08:00 via iPhone
    @RangerWolf 我也在找这个
    hlwjia
        41
    hlwjia  
    PRO
       2018-01-08 23:14:45 +08:00 via iPhone
    @AlwaysBee 谢谢
    nasmatic
        42
    nasmatic  
       2018-01-09 01:03:30 +08:00
    git 上有个项目通过 google NLP api 分析 Trump 的 twitter 的情绪来对接交易的,LZ 可以参考下。名字好像叫 trump2cash
    admirez
        43
    admirez  
       2018-01-09 06:16:17 +08:00 via iPhone
    真的还不如好好研究买点好股票放着,或者资金大一点抢东方红
    yougezai
        44
    yougezai  
       2018-01-09 09:21:51 +08:00   1
    方向没毛病啊,能不能增加板块,关键字 这类的
    ming7435
        45
    ming7435  
       2018-01-09 09:37:33 +08:00
    沪指 10000 点居然是看平或无用
    RangerWolf
        46
    RangerWolf  
    OP
       2018-01-09 09:50:11 +08:00
    @yougezai 感谢, 下一步就是逐步的细化
    Felldeadbird
        47
    Felldeadbird  
       2018-01-09 09:54:01 +08:00
    如果可以针对指定板块就更加美滋滋了。
    tmkook
        48
    tmkook  
    PRO
       2018-01-09 10:39:05 +08:00   2
    http://ai.baidu.com/tech/nlp/sentiment_classify
    还不如用百度的,我觉得分析的比你准确多了
    Clarencep
        49
    Clarencep  
       2018-01-09 11:15:36 +08:00


    这个 AI 简直是 zz...
    RangerWolf
        50
    RangerWolf  
    OP
       2018-01-09 11:47:49 +08:00
    @Clarencep 很尴尬~
    继续加油了
    radiolover
        51
    radiolover  
       2018-01-09 11:50:40 +08:00   1
    在中国,金融大数据舆情分析行业的水很深,假观点其实比真观点要多
    Jackliu
        52
    Jackliu  
       2018-01-09 12:38:24 +08:00   1
    hlwjia
        53
    hlwjia  
    PRO
       2018-01-09 13:20:25 +08:00 via iPhone
    @Jackliu 赞!谢谢分享
    takato
        54
    takato  
       2018-01-09 13:23:23 +08:00 via iPhone
    @radiolover 把信号稀释到 random 水平就可以了。
    Artists
        55
    Artists  
       2018-01-09 13:24:08 +08:00
    股票这玩意儿是人多说了算吗?
    BlueFly
        56
    BlueFly  
       2018-01-09 14:21:30 +08:00
    「一盈二平七亏」的零和游戏的股票市场

    你跟我说随大流?
    TangMonk
        57
    TangMonk  
       2018-01-09 14:37:11 +08:00 via Android
    @Artists 买的人多了就涨吧
    Artists
        58
    Artists  
       2018-01-09 14:40:53 +08:00
    @TangMonk #57 请参考 56 楼
    yun
        59
    yun  
       2018-01-09 15:16:05 +08:00
    谢楼主分享,看了楼主网站,你的这个股市分析是用 Zepplin + Cassandra 做出来的吗?
    RangerWolf
        60
    RangerWolf  
    OP
       2018-01-09 15:35:30 +08:00   1
    @yun 不是啊~ flask + echarts
    liujm
        61
    liujm  
       2018-01-09 16:07:19 +08:00
    @RangerWolf 请问你的舆情分析算法实现用什么来做的? jieba + tf-idf +分类算法?
    RangerWolf
        62
    RangerWolf  
    OP
       2018-01-09 16:33:39 +08:00
    @liujm 只能说是基于开源类库 加了一些自己的脑洞~
    kingda
        63
    kingda  
       2018-01-09 16:45:49 +08:00
    mark 下
    liujm
        64
    liujm  
       2018-01-09 17:30:55 +08:00
    @RangerWolf 主要是我有时候也会做类似的文本分类,感觉否定+情感词开源类库不太准确
    RangerWolf
        65
    RangerWolf  
    OP
       2018-01-09 18:58:52 +08:00
    @liujm 之前测试过 jieba 分词的时候增加股市相关词库 发现效果反而下降了
    也不知道为什么。。。

    另外就是转折关系 双重否定 没有什么太好的办法 目前
    enzohobmg
        66
    enzohobmg  
       2018-01-09 19:52:07 +08:00
    有想法总是好的
    tttty
        67
    tttty  
       2018-01-10 11:01:04 +08:00
    @RangerWolf 情感分析的接口用的哪里的?
    RangerWolf
        68
    RangerWolf  
    OP
       2018-01-10 11:03:45 +08:00
    @tttty 股市的是自研的
    oneFan
        69
    oneFan  
       2018-01-10 20:48:43 +08:00
    撸主这个想法也可以用在其他领域 比如足球彩票?
    RangerWolf
        70
    RangerWolf  
    OP
       2018-01-11 08:09:23 +08:00
    @oneFan 理论上是吧~ 不过没有玩过足彩 也没有相关数据
    wizardforcel
        71
    wizardforcel  
       2018-01-12 14:19:14 +08:00 via Android   1
    大多数人都在瞎 jb 预测。整合的时候最好设定个阈值,然后按照论坛声望加权。
    RangerWolf
        72
    RangerWolf  
    OP
       2018-01-12 19:03:41 +08:00
    @wizardforcel 其实已经做了
    这部分数据跟统计结果没有公开而已

    也是花了非常非常多的时间跟精力做出来的东西
    BeForever
        73
    BeForever  
       2018-01-15 15:25:20 +08:00
    您链接挂啦。。挂啦。。。啦、、、
    RangerWolf
        74
    RangerWolf  
    OP
       2018-01-15 16:23:33 +08:00
    @BeForever 今天早上就发现了 一直没得空处理 哎
    多谢提醒
    BeForever
        75
    BeForever  
       2018-01-16 18:39:53 +08:00
    @RangerWolf 不客气~坐等您处理好了去学习哈哈哈
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1333 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 17:07 PVG 01:07 LAX 09:07 JFK 12:07
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86