深入浅出领略Python“乱码”题目

发布时间：2019-01-22 07:58:10 所属栏目：建站来源：丁彦军

导读：在爬取某网站时，网页的源代码呈现了中文乱码题目。之前关于爬虫乱码有各式百般的题目，本日与各人一路总结下关于收集爬虫的乱码处理赏罚。留意，这里不只是中文乱码，还包罗一些如日文、韩文、俄文、藏文之类的乱码处理赏罚，由于他们的办理方法是同等的，故在

根基思绪三步走：确定源网页的编码A---gbk、措施通过编码B---ISO-8859-1对源网页数据还原、同一转换字符的编码C-utf-8。至于为啥为呈现同一转码这一步呢? 收集爬虫体系数据来历许多，不行能行使数据时，再转化为其原始的数据，倘使这样做是很废事的。以是一样平常的爬虫体系都要对抓取下来的功效举办同一编码，从而在行使时做到同等对外，利便行使。

好比假如我们想讲网页数据生涯下来，则会将起转为utf-8，代码如下：

with open("a.txt",'w',encoding='utf-8') as f: 
    f.write(html)

四、总结

关于收集爬虫乱码题目，本文不只给出了一个办理方案，还深入到个中的道理，由此题目引申出许多故意思的题目，如，utf-8、gbk、gb2312的编码方法奈何的?为什么这样转化就可以办理题目?

【编辑保举】

Python爬取房产数据，在舆图上揭示！
力压Java、C说话！Python获2018年度编程说话
怎样用Python举办数据说明？
你想要的 Python 编程能力，我都给你清算好了
还没买到票？快试试这个Python开源器材，支持多使命抢票

【责任编辑：武晓燕 TEL：（010）68476606】
点赞 0

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

SEO排名难做的四大原因	在保持网站优化的同时
网站SEO优化的几个技巧	网站原创内容怎么写？