有没有可能自动抓取网上文章并自动在自己的网站发布? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
zippera
V2EX    程序员

有没有可能自动抓取网上文章并自动在自己的网站发布?

  •  
  • nbsp; zippera
    zippera 2013-06-23 10:25:09 +08:00 12314 次点击
    这是一个创建于 4559 天前的主题,其中的信息可能已经有所发展或是发生改变。
    比如网站做好并设置好之后,每天自动到九点、startupnews类似的网站上抓取十篇文章附带评论,然后自动发布到自己的网站,全程无人监守。

    能否实现?有没有已经实现的?
    freed
        1
    freed  
       2013-06-23 10:26:46 +08:00
    XX小偷? 这类小偷程序应该可以吧..
    shiweifu
        2
    shiweifu  
       2013-06-23 10:28:59 +08:00
    写个爬虫不就行了
    twamix
        3
    twamix  
       2013-06-23 11:01:58 +08:00
    火车头 AND ET2
    jjplay
        4
    jjplay  
       2013-06-23 11:32:53 +08:00
    http://www.demo2.org/ 高端反向代理采集
    zippera
        5
    zippera  
    OP
       2013-06-23 14:19:27 +08:00
    @freed Could you name one please ?
    zippera
        6
    zippera  
    OP
       2013-06-23 14:20:26 +08:00
    @jjplay 感谢,能否撰文介绍一下相关知识或原理,或者推荐几篇相关文章?
    zippera
        7
    zippera  
    OP
    2013-06-23 14:21:09 +08:00
    @twamix 多谢,我了解下
    xieren58
        8
    xieren58  
       2013-06-23 14:21:18 +08:00
    http://www.17qingsong.com/ 全自动,无人值守
    zippera
        9
    zippera  
    OP
       2013-06-23 14:25:16 +08:00
    @xieren58 感谢,能否撰文介绍一下相关知识或原理,或者推荐几篇相关文章?
    yaotian
        10
    yaotian  
       2013-06-23 14:38:59 +08:00
    刚搞得,连域名都没有。 10秒抓一次。
    http://zhengyaotian.com:9999
    huip
        11
    huip  
       2013-06-23 14:51:31 +08:00
    这个应该很容易实现吧,把抓取的数据存储到数据库,然后在写一个中间件就可以了。
    zippera
        12
    zippera  
    OP
       2013-06-23 14:56:52 +08:00
    @yaotian
    @huip 有没有更详细的介绍?我也想做
    lyklykkkkkkk
        13
    lyklykkkkkkk  
       2013-06-23 15:04:23 +08:00
    许多据说『月入几万』的垃圾站就是这么干的,收集文章+挂广告
    xieren58
        14
    xieren58  
       2013-06-23 15:24:05 +08:00
    @lyklykkkkkkk 对呀,我的那小站,每个月也能赚点~学那么多,不能变现,那也是白学~谁让生在天朝呢。一套房子压死很多程序猿了~
    yaotian
        15
    yaotian  
       2013-06-23 15:40:48 +08:00
    @xieren58 你那站靠广告?收入每月多少?
    xieren58
        16
    xieren58  
       2013-06-23 15:42:25 +08:00
    @yaotian 没多少,ip平时一般有3k,百度有10几块一天,加上有淘宝,亚马逊,一号店那些,一个月至少几百,上千,没啥问题~
    akira
        17
    akira  
       2013-06-23 17:31:37 +08:00
    肯定可以啊。。。不然你以为各种垃圾站怎么来的,还有各种采集软件,都是谁买的
    yaotian
        18
    yaotian  
       2013-06-23 18:19:22 +08:00
    @xieren58 不错呀。 网站复制50个,那么收入可以不用上班了
    yaotian
        19
    yaotian  
       2013-06-23 18:28:10 +08:00
    上面介绍的那个临时的站大家就别访问了, 和域名连上了 http://sche.mobi/
    xieren58
        20
    xieren58  
       2013-06-23 18:35:37 +08:00
    @yaotian 我也想~
    yaotian
        21
    yaotian  
       2013-06-23 18:41:38 +08:00
    @xieren58 你那站3k ip, 应该不会占太多资源,一个linode可以复制好几个呢,加油
    xieren58
        22
    xieren58  
       2013-06-23 18:46:52 +08:00
    @yaotian 买不起vps,放在免费的heroku呢,大家都没想到吧~我就投入一个域名钱而已~
    huazhouji
        23
    huazhouji  
       2013-06-23 18:55:21 +08:00 via iPhone
    垃圾站不是很容易被搜索引擎降权之类的吗?需要采集后做什么处理吗?还是采集的渠道有讲究?望赐教
    efi
        24
    efi  
       2013-06-23 19:20:04 +08:00
    有没有可能自动抓取网上邮箱并自动向邮箱发送广告?
    lovejoy
        25
    lovejoy  
       2013-06-23 19:20:16 +08:00
    最讨厌这种网站,尤其是有些完全是关键字没有内容的网站
    zippera
        26
    zippera  
    OP
       2013-06-23 20:25:37 +08:00
    @efi 这个有,所以很多人把邮箱做成图片。
    yaotian
        27
    yaotian  
       2013-06-23 22:59:33 +08:00
    @xieren58 真没看出来,不错。 我们建友情链接吧? 目前 http://sche.mobi 已经搞得相对满意了。
    timothyye
        28
    timothyye  
       2013-06-23 23:00:43 +08:00
    这类的程序很多的
    quake0day
        29
    quake0day  
       2013-06-24 00:25:24 +08:00
    这个自己写都不难,Python基础的urllib,urllib2库就能搞定。至于定时,用Crontab控制就行了。
    PrideChung
        31
    PrideChung  
       2013-06-24 00:51:02 +08:00
    建议你不要做这种无耻的行为。
    xieren58
        32
    xieren58  
       2013-06-24 01:12:52 +08:00
    @yaotian 友情链接已经搞好,我的网站叫17轻松,你改改名字~
    tarsier
        33
    tarsier  
       2013-06-24 01:25:46 +08:00 via Android
    不是我自视清高,我觉得在这里讨论垃圾站采集站复制别人内容来赚钱的行为不好。
    xiiing
        34
    xiiing  
       2013-06-24 07:36:36 +08:00
    网上原创文章并不多,很多门户网站也是转来转去的。转的时候加上来源是不是好一些?
    zippera
        35
    zippera  
    OP
       2013-06-24 08:01:54 +08:00 via Android
    @PrideChung 想到这个问题时纯粹是从技术角度出发的,也想练练手。看到大家讨论才意识到有些垃圾站是这么来的。但是,美味阅读这样的网站不也是采集来的吗?
    zippera
        36
    zippera  
    OP
       2013-06-24 08:02:40 +08:00 via Android
    @xiiing 从道德法律角度都是必要的
    zippera
        37
    zippera  
    OP
       2013-06-24 08:03:40 +08:00 via Android
    @timothyye 能否举例几个?
    zippera
        38
    zippera  
    OP
       2013-06-24 08:04:18 +08:00 via Android
    @quake0day 好,我了解下,谢谢
    timothyye
        39
    timothyye  
       2013-06-24 10:27:56 +08:00
    @zippera google关键词 “自动 采集 程序”
    yaotian
        40
    yaotian  
       2013-06-24 10:52:26 +08:00
    @xieren58 已改。

    我仔细的看了你的站,有些细节做的很不错,能运行在免费主机上,相当了不起。

    鼓励你给大家开一帖,讨论站长运营。比如如何让你不降级,让搜索引擎更多收录,等等
    xieren58
        41
    xieren58  
       2013-06-24 10:55:07 +08:00
    @yaotian 我也是菜鸟,以前只是写代码,刚开始做站长不久,没啥经验呢~
    PrideChung
        42
    PrideChung  
       2013-06-24 13:08:39 +08:00 via iPhone
    @zippera 美味爱读的网摘是ugc,并非自动采集。不过我觉得这样还是有问题,因为无论网站还是用户都没有得到原文作者的授权。
    按照著作权法,全文转载是需要经过作者首肯的,即使保留了署名也需要作者同意。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5259 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 43ms UTC 07:52 PVG 15:52 LAX 23:52 JFK 02:52
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86