爬虫真的有法律风险吗,个人弄了一个爬取晨星国内基金的爬取,然后对数据进行聚合,过滤,分析,输出,但是并不商用 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
jackyLu
V2EX    程序员

爬虫真的有法律风险吗,个人弄了一个爬取晨星国内基金的爬取,然后对数据进行聚合,过滤,分析,输出,但是并不商用

  •  
  •   jackyLu
    jackluson 2022-11-14 11:09:01 +08:00 11949 次点击
    这是一个创建于 1136 天前的主题,其中的信息可能已经有所发展或是发生改变。

    table

    其实就是爬取所有的国内场外基金某一个季度的数据,然后重点关注你需要的数据,比如晨星评级,持仓股,总资产等等。根据你的指标过滤,整合汇总,输出。这样就可以分析出高晨星评价的基金,还有就是哪些股票是基金重仓股。有了很多个季度的数据之后,就可以分析出变化趋势来。

    做这个项目一直忐忑不安的。万一真的触碰到法律了,还是就麻烦的。各位 V2EX 们可以讨论,给给建议

    68 条回复    2022-11-16 18:25:40 +08:00
    jackyLu
        1
    jackyLu  
    OP
       2022-11-14 11:09:57 +08:00
    Rache1
        2
    Rache1  
       2022-11-14 11:11:17 +08:00   4
    信则有,不信则无。
    fengjianxinghun
        3
    fengjianxinghun  
       2022-11-14 11:13:39 +08:00
    欲加之罪 何患无辞
    Mark24
        4
    Mark24  
       2022-11-14 11:14:11 +08:00
    欲加之罪 何患无辞
    vzong
        5
    vzong  
       2022-11-14 11:15:17 +08:00
    欲加之罪 何患不整你
    4BVL25L90W260T9U
        6
    4BVL25L90W260T9U  
       2022-11-14 11:16:44 +08:00   15
    自己用当然无所谓啦,除非你把对方网站爬挂了。不过,放 GitHub 上你跟我说自己用?
    FallenTy
        7
    FallenTy  
       2022-11-14 11:16:52 +08:00   2
    你自己搞搞可能人家还不在意,传播多了就看人家想什么时候搞你了
    Features
        8
    Features  
       2022-11-14 11:32:41 +08:00
    放 gayhub 干嘛? 怕官方找不到你?
    jackyLu
        9
    jackyLu  
    OP
       2022-11-14 11:33:13 +08:00
    @FallenTy 有这种案例吗
    jackyLu
        10
    jackyLu  
    OP
       2022-11-14 11:35:50 +08:00
    @ospider 个人做这个东西本意也是出自于分享,还有就是对基金感兴趣,但是也是爬传播广了,有一定风险
    pengtdyd
        11
    pengtdyd  
       2022-11-14 11:36:09 +08:00
    对于公开的数据,一般只要不弄垮对方服务器,基本没问题。
    jackyLu
        12
    jackyLu  
    OP
       2022-11-14 11:38:08 +08:00
    @pengtdyd 这些都是公开的数据,而且我一般是一个季度爬取一次
    Ionian
        13
    Ionian  
       2022-11-14 11:49:47 +08:00
    没事吧 你大可以说这个是自己手动整理的 公开数据没说不让整理吧
    HunSiKing
        14
    HunSiKing  
       2022-11-14 11:50:35 +08:00
    有法律风险的事情, 你还放 GitHub 上, , 这是什么操作?
    liuidetmks
        15
    liuidetmks  
       2022-11-14 11:50:51 +08:00
    你要是把这个系统搞崩了,就会找你。

    而且这类数据应该是要收费的。
    Jooooooooo
        16
    Jooooooooo  
       2022-11-14 11:52:31 +08:00
    别人报警你就得喝一壶.
    newmlp
        17
    newmlp  
       2022-11-14 11:53:42 +08:00
    自己玩玩就行了,不要传播
    zcjfesky
        18
    zcjfesky  
       2022-11-14 11:55:02 +08:00 via Android
    晨星数据库账号一个一年收费 15 万左右
    你自己玩没事,拿出来传播,做大了之后对方一告一个准
    baleeny
        19
    baleeny  
       2022-11-14 11:58:20 +08:00
    还发出来问。。。是怕别人找不到你吗
    bt7vip
        20
    bt7vip  
       2022-11-14 12:00:04 +08:00 via Android
    自己爬没风险,自己爬自己用没风险,自己爬自己几个朋友分析没风险,自己爬上传 gayhub 你是怕别人找不到你
    westoy
        21
    westoy  
       2022-11-14 12:01:35 +08:00
    这不叫怕, 这叫骑脸输出.......
    penzi
        22
    penzi  
       2022-11-14 12:08:42 +08:00 via Android   2
    中国程序员的法律意识我感觉无限趋近于 0
    HugoChao
        23
    HugoChao  
       2022-11-14 12:11:27 +08:00   2
    刑不可知 威不可测
    exiahan
        24
    exiahan  
       2022-11-14 12:39:02 +08:00 via Android   2
    Ga2en
        25
    Ga2en  
       2022-11-14 12:43:01 +08:00
    先自己问着,然后顺便放出来让别人用。

    啧啧
    yopv2
        26
    yopv2  
       2022-11-14 12:56:33 +08:00
    但凡是爬虫 没授权给你 就看他啥时候逮你了,什么挂不挂的 对方随时可以给你整出来
    Frankcox
        27
    Frankcox  
       2022-11-14 12:59:04 +08:00
    @yopv2 纯好奇,要是爬国外 porn 网站呢?尤其是那种泄露 onlyfan 这种。
    darkengine
        28
    darkengine  
       2022-11-14 13:00:34 +08:00
    你是怕别人不知道么。。。还放个仓库
    ragnaroks
        29
    ragnaroks  
       2022-11-14 13:03:10 +08:00
    在国内除了搜索引擎,爬虫没有合法的,自己闷声大发财吧。
    NoDocCat
        30
    NoDocCat  
       2022-11-14 13:38:06 +08:00
    刑事你, 与你何干?
    SleepyRaven
        31
    SleepyRaven  
       2022-11-14 13:38:20 +08:00
    猜测是因为 issue 里那个老外想和你合作,所以楼主才来这里问一下有没有风险吗
    fournoas
        32
    fournoas  
       2022-11-14 13:39:48 +08:00
    口袋罪,想治你就治你
    6ufq0VLZn0DDkL80
        33
    6ufq0VLZn0DDkL80  
       2022-11-14 13:42:03 +08:00   10
    看似是提问,其实是来打广告的
    KKLeon
        34
    KKLeon  
       2022-11-14 13:44:39 +08:00 via Android
    @maggch97 张口就来?
    msg7086
        35
    msg7086  
       2022-11-14 13:44:40 +08:00   1
    只要不公开,不让人知道,就没什么大问题。
    如果公开,那就不能让人知道是你干的。
    比如说账号不能和你的个人信息关联起来,不要发帖宣传,等等。
    aoling
        36
    aoling  
       2022-11-14 13:55:35 +08:00
    @luxuemin2108 你发地址出来是出于炫耀推广的,不是真正的提出问题
    gesse
        37
    gesse  
       2022-11-14 15:29:13 +08:00
    jinzhongyuan
        38
    jinzhongyuan  
       2022-11-14 15:46:49 +08:00
    你这问题不小啊
    jackyLu
        39
    jackyLu  
    OP
       2022-11-14 16:52:52 +08:00
    @gesse 这个是什么来的
    fank99
        40
    fank99  
       2022-11-14 17:37:51 +08:00
    别碰个人的任何信息,例如:身份找、手机号、姓名、住址,在这个基础上,控制访问频率,风险会大大减少
    lisxour
        41
    lisxour  
       2022-11-14 17:42:55 +08:00
    1. 采集本就公开的数据
    2. 没违反网站反爬虫采集规则、Robots 协议、转载声明、数据使用说明等
    3. 不涉及个人信息倒卖

    那么基本就没啥问题
    MMMMMMMMMMMMMMMM
        42
    MMMMMMMMMMMMMMMM  
       2022-11-14 18:24:55 +08:00
    挂代理爬,他没证据的
    x86
        43
    x86  
       2022-11-14 18:25:52 +08:00
    我拷,刑呀
    ScoutWang
        44
    ScoutWang  
       2022-11-14 19:03:47 +08:00
    面向监狱编程
    zictos
        45
    zictos  
       2022-11-14 19:04:03 +08:00
    @lisxour #41 要账号登录但账号是免费注册的算公开吗?
    byte404
        46
    byte404  
       2022-11-14 19:07:37 +08:00 via Android
    爬虫自己藏着用就行了,还放出来瑟,我身边好几个被搞,你传 github 他们报警也能找到你
    stroh
        47
    stroh  
       2022-11-14 21:08:20 +08:00
    我前前前同事就是这么进去的,关了半年,出来,找工作没人要,自己开饭馆了
    xingHI
        48
    xingHI  
       2022-11-14 21:19:43 +08:00   7
    判断爬虫行为是否违法。从法律专业角度来看,首先要看爬取行为本身是否合法,然后是对于数据的使用是否合法。
    OP 爬取晨星国内基金的数据,从技术方法来看采用模拟登陆然后获取数据的方式,并未去破坏晨星国内基金的平台正常使用,可以看作是用户正常登陆后,记录所看到的内容,并非采用入侵等方式,所以爬取行为合法。然后再来看对于数据的使用,从目前来看 OP 将其公布在 Github 上,并演示了简单的分析;对于公布数据这个行为,晨星国内基金的数据也是通过合法爬虫的方式来获取,其属于不完全独创性的数据库(法律上暂未明确),但楼主的简单分析显然是合理使用行为,不构成侵权,但将数据公布在 Github 上具有一定法律风险。

    来自计算机+法律双专业学生的建议:只公开技术方法,不公开数据本身。
    lijiangang886
        49
    lijiangang886  
       2022-11-14 21:28:49 +08:00
    说的这么详细,你到底是来咨询爬虫法律风险的还是来推销你的项目的?
    Weixiao0725
        50
    Weixiao0725  
       2022-11-14 21:43:06 +08:00
    看这 fork 数量比 star 还要多。。
    RuralHunter
        51
    RuralHunter  
       2022-11-14 21:43:57 +08:00
    爬取公开的数据根本没问题,不要听楼上那些神神经经瞎扯的。
    stonesirsir
        52
    stonesirsir  
       2022-11-14 22:04:38 +08:00
    这个吧,据说爬国外没事,国内的的话就。。。
    luojiyin87
        53
    luojiyin87  
       2022-11-14 22:31:57 +08:00
    未经授权,都是违法。
    Aloento
        54
    Aloento  
       2022-11-14 22:32:58 +08:00
    这种事情还是建议你人在国外再干
    llldean
        55
    llldean  
       2022-11-15 01:01:17 +08:00
    看来企查查和天眼查还是牛逼阿
    interim
        56
    interim  
       2022-11-15 02:20:19 +08:00
    @maggch97 地图炮又开起来了?
    likang8210
        57
    likang8210  
       2022-11-15 08:36:07 +08:00
    sqlalchemy.exc.ProgrammingError: (pymysql.err.ProgrammingError) (1146, "Table 'fund_work.fund_morning_manager_assoc' doesn't exist") 运行 11 的时候,少了表
    weeei
        58
    weeei  
       2022-11-15 09:04:25 +08:00
    @Frankcox 如果触犯当地法律,这属于跨国的网络犯罪。最多网上封你号,抓不了你。
    Joeith
        59
    Joeith  
       2022-11-15 09:11:57 +08:00
    先 folk 为敬
    cheng6563
        60
    cheng6563  
       2022-11-15 09:54:54 +08:00
    你看这个口袋又大又宽
    2bNot2b
        61
    2bNot2b  
       2022-11-15 11:08:48 +08:00
    @xingHI #48 计算机 和 法律是自己修了两门专业吗?
    wannaw
        62
    wannaw  
       2022-11-15 11:25:32 +08:00 via Android
    ccjy778899
        63
    ccjy778899  
       2022-11-15 11:42:29 +08:00 via iPhone   1
    国内你讲法律?严格立法,普遍违法。选择执法。问题是,他们会不会拿你执法,如果要对你执法,你肯定违法,怎么弄都违法
    yangchao4228
        64
    yangchao4228  
       2022-11-15 13:08:53 +08:00
    @Joeith 先 start 为敬[狗头]
    xingHI
        65
    xingHI  
       2022-11-15 15:15:37 +08:00
    @2bNot2b 是的
    2bNot2b
        66
    2bNot2b  
       2022-11-15 15:29:10 +08:00
    @xingHI #65 已经开始工作了吗?能否加个 vx 聊一聊
    nuk
        67
    nuk  
       2022-11-16 03:23:18 +08:00
    没人告就没人管,不管违法不违法,前提是要匿名,没有你的信息怎么告?
    xingHI
        68
    xingHI  
       2022-11-16 18:25:40 +08:00
    @2bNot2b 快毕业了,我的邮箱: [email protected]
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2976 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 36ms UTC 12:11 PVG 20:11 LAX 04:11 JFK 07:11
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86