requests get 下来是乱码咋解决求大佬

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 2991 days ago, the information mentioned may be changed or developed.

查U 是这样的乱码 encoding 显示 None utf-8 也没用有没有什么办法能变显示正常

乱码

encoding

utf-8

34 replies 2018-02-21 01:50:16 +08:00

WillTimeCondense

Feb 20, 2018 via Android

锟斤拷锟斤拷业锟斤拷台锟斤拷锟斤拷锟侥碉拷锟斤拷锟斤拷锟斤拷锟?锟斤拷锟斤拷锟斤拷锟斤拷

Carseason

Feb 20, 2018 via iPhone

你是不是用了 zip 的标头导致文本压缩了

Sylv

Feb 20, 2018 via iPhone

信息不足，请提供 url 和代码，否则只能是瞎猜。

zyxbcde

Feb 20, 2018 via Android

中文乱码还是全乱码，还有你们不睡么

lhx2008

Feb 20, 2018 via Android

可能原来是 gbk 吧？

rieuse

Feb 20, 2018 via Android

请提供 url 方便其他人帮你测试

wisej

Feb 20, 2018 via Android

@zyxbcde 我滴龟龟所以你是这么早就起了？

SakuraKuma

Feb 20, 2018 via Android

开了 gzip 结果没 unzip?

ila

Feb 20, 2018 via iPhone

show we your code

mcxiaoke

Feb 20, 2018 via iPhone

response.encoding=utf8 or gb18030

seanhuai

Feb 20, 2018 via Android

gbk...

KKKKKK

Feb 20, 2018 via Android

1 没代码 2 没能复现错误

jakeyfly

Feb 20, 2018

url = 'http://live.titan007.com/vbsxml/bfdata.js?r=007' + str(int(time.time())) + '000'

headers = {
'Accept': '*/*',
'Accept-Encoding': 'gzip, deflate',
'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,ja;q=0.7,zh-TW;q=0.6',
'Cookie':'bfWin007FirstMatchTime=2018,1,19,08,00,00;
win007BfCookie=0^0^1^1^1^1^1^0^0^0^0^0^1^2^1^1^0^1^1',
'Host': 'live.titan007.com',
'Proxy-Connection': 'Proxy-Connection',
'Referer': 'http://live.titan007.com/',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}

jakeyfly

Feb 20, 2018

@rieuse 大佬贴了 URL 跟头了求看看

jakeyfly

Feb 20, 2018

@mcxiaoke 大佬请问怎么测出来的用什么方法跪求

Carseason

Feb 20, 2018 via iPhone

Accept-Encoding': 'gzip, deflate',
删了这行

Sylv

Feb 20, 2018

r = requests.get(url, headers=headers)
r.encoding = 'gbk'
print r.text

jakeyfly

Feb 20, 2018

@Sylv 大佬请问再碰到这种问题要怎么试编码用什么库还是什么方法

jakeyfly

Feb 20, 2018

@Carseason 删过了没用因为这条不起作用

jakeyfly

Feb 20, 2018

@Sylv 我感觉目标网止返回的是一个类 json 的数据我用.json 无法解析但是复制到 vscoce 用 VSCODE 格式化一下却变成 JSON 了不知道在 python 层面有没有办法也这样弄一下要是可以就太方便了

Sylv

Feb 20, 2018

@jakeyfly
一般中文网站出现乱码问题，编码基本都是 GBK (GB18030)，特别当服务器是 Windows 的时候。
更通用点的方法是用 chardet.detect(r.content) 尝试检测下编码。

我这边返回的是个 js 文件，不是 json 数据，不过这个 js 文件的运行结果貌似是个 json 数据。

jakeyfly

Feb 20, 2018

@Sylv JS 只懂一点点如何得到 JSON 文件呢我现在用正则提取有点麻烦要好几步

axlecho

Feb 20, 2018 via Android

用 postman 试试一般都是 gzip 的问题

rieuse

Feb 20, 2018 via Android

@jakeyfly 成功了吗？没成功的话，加微-信，rieuse 免费给你看看我也是做爬虫的。

rieuse

Feb 20, 2018 via Android

html = requests.get(url,headers=headers).content.decode('gbk')
这样就可以了

jakeyfly

Feb 20, 2018

@rieuse 大佬求指导加微信不

rieuse

Feb 20, 2018 via Android

不是大佬，我目前爬虫实习生~ 微信就是昵称

flowfire

Feb 20, 2018 via iPhone

@ila us

wisej

Feb 20, 2018

我来梳理一下吧：

首先 requests 里关于获取编码的几个函数：
1. `get_encodings_from_content`：utils.py 中定义，譬如从 HTML head 的 meta 中获取 charset
2. `get_encoding_from_headers`：从响应头的 Content-Type 来猜测
3. `chardet.detect`：编码自动检测工具

然后 requests 处理编码方式的流程是这样的：
1. 首先看响应头的 Content-Type 里是否包含 charset,有就设置并返回
2. 若 Content-Type 里没有 charset，但是 MIME 是 text/*，则直接设置编码为 ISO-8859-1 （这一点 requests 是为了遵循 RFC2616/3.7.1 ）
3. 当第 1、2 点都不符合时，encoding 为空，才使用 chardet.detect 自动检测

**问题所在**：
第二点导致国内很多网站的编码方式被认为是 ISO-8859-1，在西方国家，没啥大问题。但是在亚洲很多国家，将会出现乱码

具体讨论可以看： https://github.com/requests/requests/issues/1604

PS：
1. 好像 RFC2616 中将默认编码设为 ISO-8859-1 已经被弃用了。然后 requests 上关于这个问题貌似还在讨论...（ https://github.com/requests/requests/issues/2086 ）

2. 很多人可能会疑问，为什么 requests 处理编码问题里没有用`get_encodings_from_content`，Lukasa 解释是这样的：
> Our position on this has been that we're not a HTML library, we're a HTTP library, and therefore examining the body of the request is outside our remit.

当然，你可以自行调用嘛：
```
import requests
from requests.utils import get_encodings_from_content

r = requests.get('http://baike.baidu.com/view/115789.htm')
codings = get_encodings_from_content(r.content)
if codings:
r.encoding = codings[0]
```

rieuse

Feb 20, 2018 via Android

提取方式用 python 去执行 js 代码，js 加入自己的提取逻辑。python 执行 js 代码方式也有很多，可以用 python 开个线程调用 nodejs 来做或者用 execjs PyExecJS....

jakeyfly

Feb 20, 2018

@wisej 感谢大佬

jakeyfly

Feb 20, 2018

@rieuse js 没学过只会 JQUERY 这种东西原生 JS 感觉好难

Daniel65536

Feb 20, 2018

爬虫编码这块，推荐用这个：

encoding = r.encoding
if encoding in [None, 'ISO-8859-1']:
----encodings = requests.utils.get_encodings_from_content(r.text)
----if encodings:
--------encoding = encodings[0]
----else:
--------encoding = r.apparent_encoding
return r.content.decode(encoding)

chardet.detect 的调用在 requests 里被包裹了一层，用 r.apparent_encoding 可以调用到。

dangyuluo

Feb 21, 2018

gzip?

requests get 下来是乱码 咋解决求大佬

requests get 下来是乱码咋解决求大佬