帮朋友找个有爬虫,数据处理经验的人,远程兼职就可以。 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
外包信息请发到 /go/outsourcing 节点。
不要把相同的信息发到不同的节点
ShadowFiendYan
V2EX    酷工作

帮朋友找个有爬虫,数据处理经验的人,远程兼职就可以。

  •  
  •   ShadowFiendYan 2023-03-13 09:59:04 +08:00 3492 次点击
    这是一个创建于 1011 天前的主题,其中的信息可能已经有所发展或是发生改变。

    朋友公司业务上遇到瓶颈,原有的数据爬取不是很精准,爬到数据很多重复内容。 想找个有这方面经验的人帮忙解决问题。

    有兴趣的老哥可以加绿色软件:TXNwb3dlcndhbmc=

    27 条回复    2023-03-14 16:37:04 +08:00
    jstony
        1
    jstony  
       2023-03-13 10:11:07 +08:00
    肯定刑
    sherlockwhite
        2
    sherlockwhite  
       2023-03-13 10:11:18 +08:00
    肯定刑
    mastcer
        3
    mastcer  
       2023-03-13 10:15:46 +08:00
    必须刑
    JZ8ZW193q6W9Awgy
        4
    JZ8ZW193q6W9Awgy  
       2023-03-13 10:18:56 +08:00
    楼上几位说刑的是啥意思?不让爬数据吗 ?
    yaoliyc
        5
    yaoliyc  
       2023-03-13 10:20:35 +08:00
    爬虫写的好
    colinzhao
        6
    colinzhao  
       2023-03-13 10:30:03 +08:00
    牢房蹲到老
    x86
       7
    x86  
       2023-03-13 10:31:48 +08:00
    @xixibb #4 即便的互联网上公开的数据也不是说随便爬的,一搞一个准太多案例了
    herozzm
        8
    herozzm  
       2023-03-13 10:50:10 +08:00
    刑的话 今日 x 条是不是牢底坐穿了
    aeli
        9
    aeli  
       2023-03-13 10:52:10 +08:00
    @herozzm 你爬下今日头条的数据试试,看看他们的法务会不会让你刑。

    人家是有靠山的爬,和你去打工的一样么
    fiypig
        10
    fiypig  
       2023-03-13 10:52:36 +08:00
    重复内容就加个中间件做筛选不就可以啊
    ShadowFiendYan
        11
    ShadowFiendYan  
    OP
       2023-03-13 10:53:19 +08:00
    这个东西感觉没有清晰边界, 欲加之罪何患无辞。就跟快播一样。 各位老哥自己斟酌哈。 话说如果真追究,是开发人员担责,还是公司法人担责呢。
    ShadowFiendYan
        12
    ShadowFiendYan  
    OP
       2023-03-13 10:54:40 +08:00
    @fiypig 公司技术不行,他们公司是在小城市。 技术上解决不了重复数据问题了, 哈哈
    herozzm
        13
    herozzm  
       2023-03-13 10:59:10 +08:00
    @aeli gov 现在都强调资源数据共享,先搞清楚爬的什么吧,万一 op 公司就是有背景,而且是爬的公开合法数据呢,以来就 “刑”也是太绝对了
    herozzm
        14
    herozzm  
       2023-03-13 11:00:01 +08:00
    @ShadowFiendYan 爬过的加入 redis 记录,做一下数据清洗和筛选,入库的时候针对几个关键点做一下比对基本就行了
    abcbuzhiming
        15
    abcbuzhiming  
       2023-03-13 11:07:49 +08:00
    @herozzm 今日头条是多大的背景?你有多大背景?人家被抓住了有整个律师团队可以搞庭外和解,你的背景做得到吗?
    abcbuzhiming
        16
    abcbuzhiming  
       2023-03-13 11:11:44 +08:00
    @ShadowFiendYan 你的法律知识应该更新,法律边界非常清晰:

    爬一切没有得到 [授权] 的数据都是非法的!!!
    爬一切没有得到 [授权] 的数据都是非法的!!!
    爬一切没有得到 [授权] 的数据都是非法的!!!

    明白吗?都是非法,授权给你的数据还需要你去爬吗?你直接找数据持有方拿硬盘拷不方便吗?还是说你是和百度一样专业做搜索引擎的?能严格执行爬虫 bot 协议?

    另外法律早就定的很清楚,法人逃不掉,做开发的程序员一样要完蛋。就看对面搞不搞你,一旦搞你,证据到位的情况下一搞一个准
    abcbuzhiming
        17
    abcbuzhiming  
       2023-03-13 11:17:21 +08:00
    @ShadowFiendYan 大量出现重复数据其实就是已经被发现定位了,人家的技术团队针对性的在吐伪装数据给你,识相点要么自己收手,你继续对抗下去,对面肯定会准备线下搞你的。

    爬虫和反爬在现在国内环境下已经是政治问题,不要以为用技术能解决政治问题,这是很多技术人员的错觉。
    sadfQED2
        18
    sadfQED2  
       2023-03-13 11:19:48 +08:00 via Android
    提供一个参考,蛋壳以前爬自如的数据,自如发现以后报警。产品经理跟研发都进去了,按时间算最近应该快出来了。
    abcbuzhiming
        19
    abcbuzhiming  
       2023-03-13 11:24:48 +08:00   5
    @herozzm 你的法律知识应该更新:
    公开数据,不等于授权数据。明白吗?人家数据是公开的,但是人家那是在特定条件下的公开,比如,web 访问,app 访问,不代表允许你拿爬虫去爬。更进一步,搞清楚 [授权] 的概念,那些搞爬虫的公司,把别人的数据拿回来干嘛的?自己心里没点数吗?只是看看而已?不见得吧,爬虫最危险的问题,就在于你拿了别人的数据,做了什么,这几乎是所有被判刑的爬虫人员最后无法抵赖的,人家没授权你用它的数据干这个,你干了,等死,尤其这一点是很多干爬虫的程序员完全控制不了的他们往往就傻乎乎的帮人把数据采集了,人家转头把数据干了非法的用途,程序员是要背锅的。为啥前面那么多说 [肯定刑] 的,这 tm 都是血的教训,程序员傻乎乎的写代码,结果出事了立刻就被卖了。

    最后, [gov 现在都强调资源数据共享] 人家强调的是政务部门之间的数据共享,人家可不是允许你拿爬虫去爬人家的数据。
    abcbuzhiming
        20
    abcbuzhiming  
       2023-03-13 11:28:11 +08:00
    最后,和楼主说一句,现在这个大环境还敢搞爬虫的,而且搞的技术还不错的,基本要么就是大公司的核心团队有法务保护的那种,要么就是黑产的,无论是哪一种,都不是楼主你随便在公开论坛能花点小钱请到的。普通的程序员现在还敢玩爬虫的,基本就是刚出来混没经验也没人教的愣头青。
    lookStupiToForce
        21
    lookStupiToForce  
    2023-03-13 11:33:08 +08:00   1
    具体刑不刑,推荐胆大的都可以以身试法逝逝

    github[.]com/HiddenStrawberry/Crawler_Illegal_Cases_In_China
    www[.]guantao[.]com/sv_view[.]aspx?TypeId=218&Id=1655&Fid=t8:218:8
    westoy
        22
    westoy  
       2023-03-13 11:33:14 +08:00
    @herozzm

    新闻平台吃资质, 还容易出事, 自古以来, 在那个没有备案, 论坛随便开的年代, 做垃圾站的都不做新闻采集站的

    今日 X 条敢做这个背景就已经很硬了
    luckbbs
        23
    luckbbs  
       2023-03-13 16:04:15 +08:00
    重复数据的是被故意掺沙子了。可刑
    ShadowFiendYan
        24
    ShadowFiendYan  
    OP
       2023-03-13 16:05:31 +08:00
    @luckbbs 那到不是,是因为这条信息在多个网站上都有。
    wzw
        25
    wzw  
       2023-03-13 19:51:50 +08:00 via iPhone
    那些垃圾站,采集的,会有问题?目前好多吧! 另外,采集英文 sf/amazon 太多了吧
    christin
        26
    christin  
       2023-03-13 20:26:20 +08:00 via iPhone
    @sadfQED2 真正的商战果然朴实无华
    mashihua
        27
    mashihua  
       2023-03-14 16:37:04 +08:00
    是 URL 没有去重吧
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4179 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 00:12 PVG 08:12 LAX 16:12 JFK 19:12
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86