深入浅出领略Python“乱码”题目
发布时间:2019-01-22 07:58:10 所属栏目:建站 来源:丁彦军
导读:在爬取某网站时,网页的源代码呈现了中文乱码题目。之前关于爬虫乱码有各式百般的题目,本日与各人一路总结下关于收集爬虫的乱码处理赏罚。留意,这里不只是中文乱码,还包罗一些如日文、韩文 、俄文、藏文之类的乱码处理赏罚,由于他们的办理方法 是同等的,故在
根基思绪三步走:确定源网页的编码A---gbk、措施通过编码B---ISO-8859-1对源网页数据还原、同一转换字符的编码C-utf-8。至于为啥为呈现同一转码这一步呢? 收集爬虫体系数据来历许多,不行能行使数据时,再转化为其原始的数据,倘使这样做是很废事的。以是一样平常的爬虫体系都要对抓取下来的功效举办同一编码,从而在行使时做到同等对外,利便行使。 好比假如我们想讲网页数据生涯下来,则会将起转为utf-8,代码如下:
四、总结 关于收集爬虫乱码题目,本文不只给出了一个办理方案,还深入到个中的道理,由此题目引申出许多故意思的题目,如,utf-8、gbk、gb2312的编码方法奈何的?为什么这样转化就可以办理题目? 【编辑保举】
点赞 0 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |