python3中文字符编码问题-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

python3中文字符编码问题

阅读量：4330 次

发布时间：2019-06-06

本文共 538 字，大约阅读时间需要 1 分钟。

最近在进行网络爬虫时，被中文的编码问题搞得很头疼，特别是在windows环境下。

1.爬取到的中文网页内容，在解析时出现解析错误

一般情况下，我们都是用urllib中的相关函数，进行web页面的爬取，然后进行相关处理。

但是经常在处理中文web时，对文本内容的处理，经常出现一些编码错误。

为了彻底解决这个问题，一般是先编码再解码，但是还是会儿出现一些问题……

后来，我的解决办法：

使用requests库，很好地支持非英文字符。

import requests

response = requests.get(url)

response.encoding = 'utf-8' #显示地制定网页编码，一般情况下可以不用

html = response.text　　#html的内容都是用utf-8的编码规则编码的

bsobj = BeautifulSoup(html, 'html.parser')

2.中文编码输出到文件中

只需在打开文件时，传入相应的关键字参数即可

fileobj = open(file,'w',encoding='utf-8')

其它流程不变

转载于:https://www.cnblogs.com/flyinghorse/p/5785023.html

你可能感兴趣的文章

C6748和音频ADC连接时候的TDM以及I2S格式问题

UIView的layoutSubviews，initWithFrame,initWithCoder方法

STM32+IAP方案实现网络升级应用固件

用74HC165读8个按键状态

jpg转bmp（使用libjpeg）

linear-gradient常用实现效果

sql语言的一大类 DML 数据的操纵语言

VMware黑屏解决方法

JS中各种跳转解析

JAVA 基础 / 第八课：面向对象 / JAVA类的方法与实例方法

P3384 【模板】树链剖分

Thrift源码分析（二）-- 协议和编解码

考勤系统之计算工作小时数

4.1 分解条件式

Equivalent Strings

收藏其他博客园主写的代码，学习加自用。先表示感谢！！！

H5 表单标签

su 与 su - 区别

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-10-07 00:16:13 当前IP: 3.143.25.6 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我