scrapy采集—爬取中文乱码，gb2312转为utf-8

时间：2024年04月03日

编辑：佚名

有段时间没怎么使用scrapy了，最近采集一个网页，发现网页编码是gb2312,
一开始就取搜索了下，发现各种操作都有，有在settings中设置
# FEED_EXPORT_ENCODING = 'utf-8'
FEED_EXPORT_ENCODING = 'GB2312'
有在spider中设置response.body的encoding的,而我用的是response.xpath,到这里发现问题也还是不能够解决，
最后发现在Download MinddleWares中有个process_response方法，在下载器中间件中将返回的请求数据修改编码即可完成
response = HtmlResponse(url=response.url, body=response.body, encoding='utf-8')
return response

查询nginx日志状态码大于400的请求并打印整行 Python中的logger和handler到底是个什么？ python3拉勾网爬虫之（您操作太频繁，请稍后访问） xpath 获取meta里的keywords及description的方法 python向上取整以50为界 scrapy xpath遇见乱码解决 scrapy爬取后中文乱码,解决word转为html 时cp1252编码问题 scrapy采集—爬取中文乱码，gb2312转为utf-8

猜你需要