数据科学家的呼吁行能力
副问题[/!--empirenews.page--]
技能沙龙 | 邀您于8月25日与国美/AWS/转转三位专家配合切磋小措施电商拭魅战
对付许大都据科学家来说,数据操纵起始于Pandas或Tidyverse。从理论上看,这个观念没有错。事实,这是为什么这些器材起首存在的缘故起因。然而,对付脱离符转换等简朴使命来说,这些选项凡是也许是过于重量级了。 故意把握呼吁行应该在每个开拓职员的手艺链上,出格是数据科学家。进修shell中的前因后果无能否定地会让你更高效。除此之外,呼吁行还在计较方面有一次巨大的汗青记录。譬喻,awk - 一种数据驱动的剧本说话。Awk初次呈现于1977年,它是在传奇的K&R一书中的K,Brian Kernighan的辅佐下呈现的。在本日,约莫50年之后,awk如故与每年呈现的新书保持相干联! 因此,可以必定的是,对呼吁行技能的投入不会很快贬值的。 我们交涉及的内容
文件编码老是棘手的题目。今朝大部门文件都是回收的 UTF-8 编码。要想相识 UTF-8 的魔力,可以看看这个优越的视频。尽量云云,偶然辰我们照旧会收到非 UTF-8 编码的文件。这种环境下就必要实行转码。iconv 就是这种状况下的救世主。iconv 是一个简朴的措施,可以输入某种编码的文本,然后以另一种编码输出。
常用选项:
HEAD 假如你是重度Pandas的用户,那么你会对head很认识。凡是在处理赏罚新数据时,我们想要做的第一件事就是相识毕竟存在那些对象。这会引起Panda启动,读取数据,然后挪用df.head() - 很费劲,至少可以说。head,不必要任何符号,将输出文件的前10行。head真正的手段在于彻查破除操纵。 譬喻,假如我们想将文件的脱离符从逗号改变为pipe通配符。一个快速测试将是:head mydata.csv | sed 's/,/|/g'
有效的选项:
TR呼吁 Tr相同于翻译,它是基于文件整理的一个强盛行使的器材。一个抱负的用法是替代文件中的脱离符。
Tr的另一个特征是在你的处理赏罚中配置上全部的[:class:]变量。包罗:
可以将这些多样化的变量链接在一路,构成一个强盛的措施。下面是一个基于字数统计的措施,用来搜查你的README文件是否行使太过。
其它一个例子用于正则表达式
有效的选项:
WC 字数统计。它的代价首要表此刻行使 -l 参数可以举办行数统计。
个用这个器材来验证各个呼吁的输出其实利便。因此,假如我们要在文件中转换脱离符,然后运行 wc -l,验证总行数是沟通的。假如差异,我们就知道必然是那边堕落了。 常用选项:
SPLIT呼吁 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |