Go 语言写的爬虫如何模拟登录 T-Mobile 官网?求帮忙分析一下 T-Mobile 登录逻辑 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
The Go Programming Language
http://golang.org/
Go Playground
Go Projects
Revel Web Framework
rv54ntjwfm3ug8

Go 语言写的爬虫如何模拟登录 T-Mobile 官网?求帮忙分析一下 T-Mobile 登录逻辑

  •  
  •   rv54ntjwfm3ug8 2021 年 7 月 18 日 3361 次点击
    这是一个创建于 1735 天前的主题,其中的信息可能已经有所发展或是发生改变。
    account.t-mobile.com/signin/v2/

    第一次用 Go 写爬虫,需要爬一些 T-Mobile 登录后可见的数据,但 T-Mobile 登录逻辑我好像看不懂,登录前请求头里的 Authorization 是从哪里获取的,这个密码又是怎么加密的呢?折腾了两天怎么模拟登录都是 500 错误,它们 cookies 的有效期又只有 15 分钟。用 Selenium 的话太慢了,除了 Selenium 外还有什么好办法么?
    14 条回复    2021-07-24 11:30:12 +08:00
    wangbenjun5
        1
    wangbenjun5  
       2021 年 7 月 18 日
    爬虫写的好,牢饭吃得饱
    learningman
        2
    learningman  
       2021 年 7 月 18 日   1
    "登录前请求头里的 Authorization 是从哪里获取的"
    XMLHttpRequest 或者 fetch 的参数,js 生成的
    但是我觉得你这个都搞不懂,多半也就不用指望能自己破解了。。。
    playniuniu
        3
    playniuniu  
       2021 年 7 月 19 日
    推荐你用 rod 这个项目,比 selenium 快不少

    https://github.com/go-rod/rod
    vone
        4
    vone  
       2021 年 7 月 19 日
    JWT 做的登录认证,其实就是 Base64URL 编码。
    我从 account.t-mobile.com/signin/v2/的请求(未登录)中随便拿了一个请求的 authorization:
    Bearer eyJraWQiOiI0NDY3MzUxNy04MTc4LTJjYTMtOWU3MC1mZTZiYjg4YjU2OTIiLCJ0eXAiOiJKV1QiLCJhbGciOiJSUzI1NiJ9.eyJzdWIiOiJTSURXZWIiLCJydCI6IntcInNlZ21lbnRhdGlvbklkXCI6XCJUSVRBTlwifSIsImRlYWxlckNvZGUiOiIiLCJpc3MiOiJodHRwczpcL1wvYXBpLnQtbW9iaWxlLmNvbVwvb2F1dGgyXC92NiIsIm1hc3RlckRlYWxlckNvZGUiOiIiLCJhdXRoVGltZSI6IjE2MjY2NjAyMDcwMTgiLCJzdG9yZUlkIjoiIiwidXNuIjoiOTFhZGJlZDEtYWRiYy1jYTdlLTkzZjQtMmQzMmZjMmIxM2VhIiwiYXVkIjoiU0lEV2ViIiwic2VuZGVySWQiOiIiLCJuYmYiOjE2MjY2NjAyMDcsInNjb3BlIjoiIiwiY25mIjoiLS0tLS1CRUdJTiBQVUJMSUMgS0VZLS0tLS1NSUlCSWpBTkJna3Foa2lHOXcwQkFRRUZBQU9DQVE4QU1JSUJDZ0tDQVFFQXJhVENxSU55c2tldmRCMmlcL1wvV2ttSWhQTHNJcFRvdFN6Z2FJRm94ZFdocGFQQ0NnSkNcL1hsTk9tT0lPQU5ubVZxalpMY3pjSU8xOHlFM3N4UHBXWktOdEgyY0grS1FtaFgrV05NeVNTMWhlem81WWpRcnJka1JhK1hXeFN1ZXl2WXZmNlBTRmtUXC9sZlpESlhUY1hET3g4WlYrMWF0QVp6U1JFbTFVbGpCRVZuODg0T2tUUDh6SENlRFJ3UXFpQ09ZWnZFdkxoTnBRdXk5K0hmMG9Zc0FQcVNTTGdHdmtuXC9RYjVMMytocmlzOWxSQTh1SXlIU0Uxc2F0WU1FcjFWbUUyWExyMkpOOTVaalc2eU50Q0lVSE1aN2MxUHF6emwrcUMzbGVrbHpXRWh5WjBhbWc4SkE2VTlRZEhtdm5La1RWaVZkNlphYWgwOHJKM3VLTkw3Z2xRSURBUUFCLS0tLS1FTkQgUFVCTElDIEtFWS0tLS0tIiwiYXBwbGljYXRpb25JZCI6IiIsImV4cCI6MTYyNjY2MzgwNywiaWF0IjoxNjI2NjYwMjA3LCJjaGFubmVsSWQiOiIiLCJqdGkiOiI4MzlmOWIyYy1lYzRhLWJkODctODU1Mi1lNjk1NDhiYTBlNTkifQ.VL3ycdnrwGyNdN_p201muTg7SUBVNUs6xZdR3B7oEAjask-pWtA2h_9M91I_u1hHkHRoriV1wd1UUPTdJ7DGcWGQtJ2dhb3s_IwpJu_ppY8nnEHhAz8O7fhGOeBpXxlI_W6FEulCznh-c5El3DcHBDccIYiU2xgPcGBQDOv7zU5e3YslOvOFCzLLLgNnRSQDRirf_nKZPOdn79TtL5OzgPiY85OP5YJcJYqAD2QUtOekML59s8Y--wbrTQudS_9uqMOSDFttaF6FzH8hOw0q7-rq-MlrumIQQgPAQxHHFdjy6o3fpo6lDKLSyGYhI90G_Zi4JyeFwpx0p4OHTuG7DQ


    JWT 有三段信息( Header.Payload.Signature ),用符号 “.”分割,分别用 Base64URL 解码。

    Header:
    {"kid":"44673517-8178-2ca3-9e70-fe6bb88b5692","typ":"JWT","alg":"RS256"}
    Payload:
    {"sub":"SIDWeb","rt":"{\"segmentationId\":\"TITAN\"}","dealerCode":"","iss":"https:\/\/api.t-mobile.com
    Signature:乱码

    解码地址:
    https://base64.guru/standards/base64url/decode
    ch2
        5
    ch2  
       2021 年 7 月 19 日
    最简单的做法是用 selenium 打开登录,然后把 cookie 拿下来用 cookie 爬
    失效了就再开一次,不要自己模拟。综合两种方法的优点
    rv54ntjwfm3ug8
        6
    rv54ntjwfm3ug8  
    OP
       2021 年 7 月 19 日 via iPhone   1
    @learningman #2: 这个网站的 js 都做了压缩和混淆,根本找不到 fetch 。
    @ch2 #5: 早上尝试了 selenium,但这个网站有大量对自动化程序的检测,尝试了好几种办法都没绕过。
    @vone #4: 这个网站 initSession 请求头中还有大量的 x-mag09e7sc- 这样的东西,请问是怎么产生的?也与 JWT 有关么?
    learningman
        7
    learningman  
       2021 年 7 月 19 日 via Android
    @theklf4 找不到说明你的水平有问题,毕竟 js 想要发出请求,只能用这两个 API,他没法换别的。
    triplelift
        8
    triplelift  
       2021 年 7 月 19 日
    爬虫最省事的方法还是用 puppeteer 。静态工具碰到 js 加载的内容就搞不定了,其他语言的 cdp 实现功能也不够强大。
    ch2
        9
    ch2  
       2021 年 7 月 19 日
    @theklf4 #6 不要用 selenium 直接开 webdriver,用命令行开个 chrome,指定 remote-debug 。然后再用 selenium 去控制,这样就能绕过自动化检测,本质上跟你手动开浏览器没区别
    rv54ntjwfm3ug8
        10
    rv54ntjwfm3ug8  
    OP
       2021 年 7 月 19 日 via iPhone   1
    @ch2 #9: 一样的,而且我发现即使是 selenium 开的 Chrome,不做任何处理也能正常手动登录。但即使是手动开的 Chrome,一旦 selenium 对页面做了任何操作(即使只是点击了输入框)手动输入密码登录也会失败。
    zoain
        11
    zoain  
       2021 年 7 月 19 日 via iPhone
    @theklf4 chromedriver 会往 dom 里面插入类似标识符的 api,chromedriver 需要修改一下。
    zoain
        12
    zoain  
       2021 年 7 月 19 日 via iPhone
    @theklf4 其中包含 navigator.webdriver 以及 一串 cdc_开头的变量
    ch2
        13
    ch2  
       2021 年 7 月 21 日
    @theklf4 #10 那你就写个 chrome 插件,让插件当内鬼
    lysS
        14
    lysS  
       2021 年 7 月 24 日
    @theklf4 selenium 都不行,理论上来说你模拟请求更难
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2958 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 43ms UTC 06:29 PVG 14:29 LAX 23:29 JFK 02:29
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86