加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

深入浅出领略Python“乱码”题目

发布时间:2019-01-22 07:58:10 所属栏目:建站 来源:丁彦军
导读:在爬取某网站时,网页的源代码呈现了中文乱码题目。之前关于爬虫乱码有各式百般的题目,本日与各人一路总结下关于收集爬虫的乱码处理赏罚。留意,这里不只是中文乱码,还包罗一些如日文、韩文 、俄文、藏文之类的乱码处理赏罚,由于他们的办理方法 是同等的,故在

根基思绪三步走:确定源网页的编码A---gbk、措施通过编码B---ISO-8859-1对源网页数据还原、同一转换字符的编码C-utf-8。至于为啥为呈现同一转码这一步呢? 收集爬虫体系数据来历许多,不行能行使数据时,再转化为其原始的数据,倘使这样做是很废事的。以是一样平常的爬虫体系都要对抓取下来的功效举办同一编码,从而在行使时做到同等对外,利便行使。

好比假如我们想讲网页数据生涯下来,则会将起转为utf-8,代码如下:

  1. with open("a.txt",'w',encoding='utf-8') as f: 
  2.     f.write(html) 

四、总结

关于收集爬虫乱码题目,本文不只给出了一个办理方案,还深入到个中的道理,由此题目引申出许多故意思的题目,如,utf-8、gbk、gb2312的编码方法奈何的?为什么这样转化就可以办理题目?

【编辑保举】

  1. Python爬取房产数据,在舆图上揭示!
  2. 力压Java、C说话!Python获2018年度编程说话
  3. 怎样用Python举办数据说明?
  4. 你想要的 Python 编程能力,我都给你清算好了
  5. 还没买到票?快试试这个Python开源器材,支持多使命抢票
【责任编辑:武晓燕 TEL:(010)68476606】
点赞 0

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读