OpenAI 是没钱买代理服务器吗?竟然来白嫖我的 GitHub/ArXiv 镜像服务器爬取数据用于训练 GPT - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
请不要在回答技术问题时复制粘贴 AI 生成的内容
tfu

OpenAI 是没钱买代理服务器吗?竟然来白嫖我的 GitHub/ArXiv 镜像服务器爬取数据用于训练 GPT

  •  
  •   tfu Jun 30, 2025 4153 views
    This topic created in 303 days ago, the information mentioned may be changed or developed.

    由于众所周知的原因,国内访问 Github 和 ArXiv 比较缓慢,于是乎我就搭建了一个镜像服务器用于加速访问,主要是自用为主,也没咋宣传,谁成想竟然被 OpenAI 发现了,通过我的镜像服务器去爬取 Github 和 Arxiv 上的数据,于是乎就疯狂收到 Cloudflare 发送的告警邮件,起初还不太在意,觉得只是临时几天访问量多了些,过几天应该就好了,可是没想到过了几个星期还是每天不停的收到告警邮件,我顿时感觉不对劲,赶紧登录 Cloudflare 后台看了一下访问记录,不看不知道,一看吓一跳,好家伙,全是 OpenAI ( CloseAI )的 GPTBot 访问的,合着把我的镜像服务器当成了免费的代理使用了...(虽然我也是白嫖 Cloudflare 的 Workers 服务搭建的镜像服务器/手动狗头)

    Log 截图

    21 replies    2025-07-04 12:52:17 +08:00
    tyzandhr
        1
    tyzandhr  
       Jun 30, 2025
    加个 robots.txt?
    skiy
        2
    skiy  
       Jun 30, 2025
    @tyzandhr 好像这种爬虫无视 robots 规则的。之前看到过文章。
    MIUIOS
        3
    MIUIOS  
       Jun 30, 2025
    @tyzandhr 爬虫可不在乎 robots 的
    moefishtang
        4
    moefishtang  
       Jun 30, 2025
    这样的爬虫需要好好教训一下了
    BAN 掉 OpenAI 的 UA 好啦
    iisboy
        5
    iisboy  
       Jun 30, 2025
    @totoro52 #3
    那这种乱爬违法不?
    404www
        6
    404www  
       Jun 30, 2025
    镜像代码能发一下吗
    yafoo
        7
    yafoo  
       Jun 30, 2025 via Android
    不止 openai 吧,现在是各种 ai 都来爬
    aloxaf
        8
    aloxaf  
       Jul 1, 2025
    它不关心是不是代理,是个网站就会爬
    since2021
        9
    since2021  
       Jul 1, 2025
    还是挺乖的,写了自己是 bot
    我一般把带 bot, spider 这类似的都拒绝了
    noyidoit
        10
    noyidoit  
       Jul 1, 2025   2
    @iisboy 同样是被爬,对比美团和博客园的案例,可以得出结论:强者爬弱者“不违法”,弱者爬强者违法
    ljl024
        11
    ljl024  
       Jul 1, 2025
    可是两个图里面给 url 打码,host 都不打码。是要转型做公益代理了吗?
    MIUIOS
        12
    MIUIOS  
       Jul 1, 2025
    @iisboy 国内违法(数据脱敏的话很难定性),国外不知道
    xpy123993
        13
    xpy123993  
       Jul 1, 2025
    这个网段有毒,有好几个 ip 会无视 robots.txt 不停地爬虫。我 5MB 的 cgit 每天被爬 1GB 的流量,后来直接把这个网段禁了。
    xiyuesaves
        14
    xiyuesaves  
       Jul 1, 2025
    能不能通过识别 ua 来给他的语料里投毒?
    zhlxsh
        15
    zhlxsh  
       Jul 1, 2025 via iPhone
    @xiyuesaves 快进到买一堆 vps 给 openai 下毒打广告
    ragnaroks
        16
    ragnaroks  
       Jul 1, 2025
    我靠,刚发帖子就看到你这个了,我最近也是被 chatgpt 爬了,不过我是 docker hub 镜像代理,全部服务器加起来差不多被爬了 9 TiB 流量
    tfu
        17
    tfu  
    OP
       Jul 2, 2025
    tfu
        18
    tfu  
    OP
       Jul 2, 2025
    @ljl024 卧槽,没注意到图片里面还有个 host ,感谢提醒,今晚下班回家后就赶紧改掉
    404www
        19
    404www  
       Jul 2, 2025
    @tfu #17 谢谢
    beyondstars
        20
    beyondstars  
       Jul 4, 2025
    怎么证实的确是来自 openai 的,user-agent 没用任何认证机制(任何 client 可以 claim 自己是任何 user-agent 不受约束),只能查到这个 ip 地址由 microsoft 宣告,也可能是 azure 上运行的爬虫实例,但未必是微软官方的。
    beyondstars
        21
    beyondstars  
       Jul 4, 2025
    s/没用任何/没有任何
    About     Help     Advertise     Blog     API     FAQ     Solana     2786 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 59ms UTC 15:35 PVG 23:35 LAX 08:35 JFK 11:35
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86