2019五大顶尖数据科学GitHub项目和Reddit热帖

发布时间：2019-03-01 14:03:43 所属栏目：建站来源：读芯术

导读：没有什么比GitHub和Reddit更得当数据科学了。 GitHub是托管代码的终极一站式平台，它善于于简化团队成员之间的协作进程。大都领先的数据科学家和组织行使GitHub来开源他们的库和框架。因此，我们不只可以或许实时相识规模的最新成长，还可以在本身的呆板上复

副问题[/!--empirenews.page--]

没有什么比GitHub和Reddit更得当数据科学了。

GitHub是托管代码的终极一站式平台，它善于于简化团队成员之间的协作进程。大都领先的数据科学家和组织行使GitHub来开源他们的库和框架。因此，我们不只可以或许实时相识规模的最新成长，还可以在本身的呆板上复制模子。

Reddit的接头与该频谱的目标沟通，领先的研究职员和才能横溢的人才聚积在一路，接头和揣度呆板进修和数据科学的最新主题和打破。

从这两个平台中，我们可以进修许多对象。本文先容了2019年以来最新的开源GitHub库和Reddit接头。

GitHub项目

1. Flair (最先辈的NLP库)

（https://github.com/zalandoresearch/flair）

2018年是天然说话处理赏罚（NLP）的分水岭。像ELMo和谷歌的BERT这样的库就是打破性的版本。正如Sebastian Ruder所说，“NLP的ImageNet时候已经到来”！

Flair是另一个优越的NLP库，易于领略和实现。它最好的部门是什么？它很是先辈。

Flair由Zalando Research基于PyTorch开拓并开源。该库在普及的NLP使命上优于早年的要领：

这里，F1是精确度评估指标。

2. face.evoLVe – 高机强人脸辨认库

（https://github.com/ZhaoJ9014/face.evoLVe.PyTorch）

此刻的数据科学规模，应用于计较机视觉的面部辨认算法无处不在。

face.evoLVe是一个基于PyTorch的“高机强人脸辨认库”。它为面部相干说明和应用措施提供全面的成果，包罗：

· 面部对齐（检测、地标定位、仿射调动）

· 数据预处理赏罚（譬喻，扩充、数据均衡、类型化）

· 各类主干（譬喻，ResNet、DenseNet、LightCNN、MobileNet等）

· 各类丧失（譬喻，Softmax、Center、SphereFace、AmSoftmax、Triplet等）

· 进步机能的一系列能力（譬喻，培训改造、模子调解、常识蒸馏等）。

该库是现实行使和陈设高机能深层识此外必备器材，尤其合用于研究职员和工程师。

3. YOLOv3

（https://github.com/wizyoung/YOLOv3_TensorFlow）

YOLO是用于执行工具检测使命的极其快速且精确的框架。它是在三年前推出的，而且从那往后经验了屡次迭代，每次都比上一次越发优异。

此存储库是在TensorFlow中实现的YOLOv3的完备管道，可以在数据集上行使，以实习和评估本身的工具检测模子。以下是此存储库的首要亮点：

· 高效的tf.data管道

· 重量转换器

· 极快的GPU非极大值克制（Non Maximum Suppression）

· 完备的培训渠道

· 通过K-means算法选择先前的锚箱

4. FaceBoxes: 高精确度的 CPU及时人脸检测器

（https://github.com/zisianw/FaceBoxes.PyTorch）

计较机视觉中最大的挑衅之一是打点计较资源。并不是每小我私人都有多个GPU。这是一个很难降服的障碍。

增强FaceBoxes。这是一种新奇的人脸检测要领，行使CPU在速率和精确度方面都示意出了令人印象深刻的机能。

该存储库在FaceBoxes的PyTorch中运行。它包括安装、实习和评估人脸检测模子的代码。不要再诉苦缺乏计较手段——本日就试试FaceBoxes吧！

5. Transformer-XL from Google AI

（https://github.com/kimiyoung/transformer-xl）

这是另一个改变游戏法则的NLP框架。看到其有Google AI团队的支持也不敷为奇（他们也是那些提出BERT的人）。

长间隔依靠性一向是NLP方面的棘手题目。纵然客岁取得了重大盼望，但这个观念还没有获得很好的办理。行使了RNN和Vanilla变压器，但它们还不足好。Google AI的Transformer-XL已经弥补了这个空缺。以下是关于这个库的一些要点：

· Transformer-XL可以或许进修长间隔依靠性，比RNN长约80％，比Vanilla Transformer长450％。

· 纵然在计较方面，Transformer-XL也比Vanilla Transformer快1800倍！

· 因为恒久依靠性建模，Transformer-XL在长序列中具有更好的夹杂机能（在猜测样本时更精确）。

此存储库包括TensorFlow和PyTorch中Transformer-XL的代码。看看你是否可以匹配（乃至击败）NLP中最先辈的功效！

Reddit 热帖

1. 数据科学家是新型营业说明师

（https://www.reddit.com/r/datascience/comments/aj6ohk/data_scientist_is_the_new_business_analyst/）

不要被问题中的热点话题所疑惑。这是对数据科学当前状态及其活着界各地的解说方法的当真接头。

在差异的数据科学脚色上确定特定标签老是很坚苦的。成果和使命各不沟通——那么谁应该精确地进修什么？该主题切磋教诲机构怎样仅涵盖根基观念并声称传授数据科学。

对付全部处于低级进修阶段的人——请务必赏识此接头。你将相识到许多关于雇用职员怎样对待持有认证或学位的隐藏候选人声称他们是数据科学家这一变乱。

虽然，你将相识贸易说明师的事变内容，以及与数据科学家的差异之处。

2. 数据科学中有什么对象让你大吃一惊

（https://www.reddit.com/r/datascience/comments/aczhjc/what_is_something_in_ds_that_has_blown_your_mind/）

数据科学让你感想赞叹的的一件事是什么？

在这个接头主题中有许多不行思议的理论和究竟会让你参加个中。以下是来自该帖子的几个很酷的谜底：

“天下上有几多处所可以用众所周知的漫衍来建模。许多事物都是正太漫衍的这一究竟让我认为我们正处于模仿中。“

“第一件引起我留意并敦促我从事数据科学奇迹的工作是美联航每年通过改变用于建造航行杂志的纸张范例来节减170,000的燃料。”

3. 顶尖数据科学家在职业生活早期致力于办理的题目

（https://www.reddit.com/r/MachineLearning/comments/afl3t1/d_machine_learning_people_what_are_some_things/）

大大都数据科学家很确定地说，他们在最初的日子里很难领略某些观念。乃至像估算缺失值那样简朴的工作也会成为荆棘中的费力事变。

这个主题是全部数据科学喜爱者的金矿。它由履历富厚的数据科学家构成，他们分享了本身怎样想法进修或相识最初难以把握的观念。个中一些乃至也许对你来说很认识：

· “最难的部门是进修差异范例的输入外形（DNN，RNN，CNN）怎样事变。我想我花了约莫20个小时来确定RNN的输入外形。“

· “每次都是，此刻如故布满挑衅，就是在体系上配置开拓情形。安装CUDA，Tensorflow，PyCharm。那些日子真是令人惊骇和绝望。“

· “设置TensorFlow以行使我的GPU可以或许运作，这必要数小时的谷歌搜刮和重复试验。”

4. 为什么深度进修收集可以获得很好的推广

（https://www.reddit.com/r/MachineLearning/comments/abj1mc/d_notes_on_why_deep_neural_networks_are_able_to/）

神经收集恒久以来一向有“黑匣子”的荣誉（它不再是真的了）。当观念扩展到深度神经收集（DNN）时，工作变得越发紊乱。这些DNN是很多最新技能成就的焦点，因此相识它们的事变道理至关重要。

这个主题中接头的一个要害题目是神经收集怎样深入推广。假如你有同样的设法，但对此没有谜底——筹备好大吃一惊吧！

该主题包罗深度进修专家提出的概念。包括了大量的链接和资源，以深入切磋该主题。但请留意，对神经收集的根基相识将有助于你更多地参加接头。

5. AMA 和 DeepMind的 AlphaStar 团队

（https://www.reddit.com/r/MachineLearning/comments/ajgzoc/we_are_oriol_vinyals_and_david_silver_from/）

当AlphaGo创作击败围棋冠军李世石时，谷歌的DeepMind震惊天下。他们又一次囊括而来！

其最新的算法AlphaStar在风行游戏的星际争霸2中受过实习。AlphaStar夸大将两位星际争霸球员放在一边，以10-1的上风赢告捷利。

这个Reddit接头主题是由两个DeepMind AlphaStar的建设者主持的AMA（Ask Me Anything）。他们与Reddit社区接头了各类百般的主题，表明白算法怎样事变，，行使了几多实习数据，硬件配置是什么样的，等等。

这个接头中有两个风趣的题目：

“为了到达今朝的程度，必要玩几多场角逐？可能换句话说：以你为例，有几多游戏是必要长达200年的进修？“

“实行了哪些其他要领？我知道人们对是否会涉及任何树搜刮、深层情形模子或分层RL技能感想很是好奇，它们好像都不行行；假如实行过，他们中的任何一个都取得了可观的盼望吗？”

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

SEO排名难做的四大原因	在保持网站优化的同时
网站SEO优化的几个技巧	网站原创内容怎么写？