博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python3中文字符编码问题
阅读量:4330 次
发布时间:2019-06-06

本文共 538 字,大约阅读时间需要 1 分钟。

最近在进行网络爬虫时,被中文的编码问题搞得很头疼,特别是在windows环境下。

 

1.爬取到的中文网页内容,在解析时出现解析错误

一般情况下,我们都是用urllib中的相关函数,进行web页面的爬取,然后进行相关处理。

但是经常在处理中文web时,对文本内容的处理,经常出现一些编码错误。

为了彻底解决这个问题,一般是先编码再解码,但是还是会儿出现一些问题……

后来,我的解决办法:

使用requests库,很好地支持非英文字符。

import requests

response = requests.get(url)

response.encoding = 'utf-8'      #显示地制定网页编码,一般情况下可以不用

html = response.text  #html的内容都是用utf-8的编码规则编码的

bsobj = BeautifulSoup(html, 'html.parser')

 

2.中文编码输出到文件中

只需在打开文件时,传入相应的关键字参数即可

fileobj = open(file,'w',encoding='utf-8')

其它流程不变

转载于:https://www.cnblogs.com/flyinghorse/p/5785023.html

你可能感兴趣的文章
C6748和音频ADC连接时候的TDM以及I2S格式问题
查看>>
UIView的layoutSubviews,initWithFrame,initWithCoder方法
查看>>
STM32+IAP方案 实现网络升级应用固件
查看>>
用74HC165读8个按键状态
查看>>
jpg转bmp(使用libjpeg)
查看>>
linear-gradient常用实现效果
查看>>
sql语言的一大类 DML 数据的操纵语言
查看>>
VMware黑屏解决方法
查看>>
JS中各种跳转解析
查看>>
JAVA 基础 / 第八课:面向对象 / JAVA类的方法与实例方法
查看>>
Ecust OJ
查看>>
P3384 【模板】树链剖分
查看>>
Thrift源码分析(二)-- 协议和编解码
查看>>
考勤系统之计算工作小时数
查看>>
4.1 分解条件式
查看>>
Equivalent Strings
查看>>
flume handler
查看>>
收藏其他博客园主写的代码,学习加自用。先表示感谢!!!
查看>>
H5 表单标签
查看>>
su 与 su - 区别
查看>>