加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

9个鲜为人知的Python数据科学库

发布时间:2018-12-11 20:53:54 所属栏目:教程 来源:Parul Pandey
导读:除了 pandas、scikit-learn 和 matplotlib,还要进修一些用 Python 举办数据科学的新能力。 Python 是一种令人赞叹的说话。究竟上,它是天下上增添最快的编程说话之一。它一次又一次地证明白它在各个行业的开拓者和数据科学者中的浸染。Python 及其库的整
副问题[/!--empirenews.page--]

/uploads/allimg/c181211/15445251N20410-1U21.jpg

除了 pandas、scikit-learn 和 matplotlib,还要进修一些用 Python 举办数据科学的新能力。

Python 是一种令人赞叹的说话。究竟上,它是天下上增添最快的编程说话之一。它一次又一次地证明白它在各个行业的开拓者和数据科学者中的浸染。Python 及其库的整个生态体系使其成为全天下用户的适当选择,无论是初学者照旧高级用户。它乐成和受接待的缘故起因之一是它的一组强盛的库,使它云云动态和快速。

在本文中,我们将看到 Python 库中的一些数据科学器材,而不是那些常用的器材,如 pandas、scikit-learn 和 matplotlib。固然像 pandas、scikit-learn 这样的库是呆板进修中最常想到的,可是相识这个规模的其他 Python 库也长短常有辅佐的。

Wget

提取数据,尤其是从收集中提取数据,是数据科学家的重要使命之一。Wget 是一个免费的器材,用于从收集上非交互式下载文件。它支持 HTTP、HTTPS 和 FTP 协议,以及通过 HTTP 署理举办会见。由于它长短交互式的,以是纵然用户没有登录,它也可以在靠山事变。以是下次你想下载一个网站可能网页上的全部图片,wget 会提供辅佐。

安装:

  1. $ pip install wget

例子:

  1. import wget
  2. url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'
  3.  
  4. filename = wget.download(url)
  5. 100% [................................................] 3841532 / 3841532
  6.  
  7. filename
  8. 'razorback.mp3'

钟摆

对付在 Python 中处理赏罚日期时刻感想沮丧的人来说, Pendulum 库是很有辅佐的。这是一个 Python 包,可以简化日期时刻操纵。它是 Python 原生类的一个更换品。有关具体信息,请参阅其文档。

安装:

  1. $ pip install pendulum

例子:

  1. import pendulum
  2.  
  3. dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto')
  4. dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver')
  5.  
  6. print(dt_vancouver.diff(dt_toronto).in_hours())
  7.  
  8. 3

不服衡进修

当每个种别中的样本数险些沟通(即均衡)时,大大都分类算法会事变得最好。可是实际糊口中的案例中布满了不服衡的数据集,这也许会影响到呆板进修算法的进修和后续猜测。荣幸的是,imbalanced-learn 库就是为了办理这个题目而建设的。它与 scikit-learn 兼容,而且是 scikit-learn-contrib 项目标一部门。下次碰着不服衡的数据集时,可以实行一下。

安装:

  1. pip install -U imbalanced-learn
  2. # or
  3. conda install -c conda-forge imbalanced-learn

例子:

有关用法和示例,请参阅其文档 。

FlashText

在天然说话处理赏罚(NLP)使命中整理文本数据凡是必要替代句子中的要害词或从句子中提取要害词。凡是,这种操纵可以用正则表达式来完成,可是假如要搜刮的术语数到达数千个,它们也许会变得很贫困。

Python 的 FlashText 模块,基于 FlashText 算法,为这种环境提供了一个吻合的更换方案。FlashText 的最佳部门是运行时刻与搜刮项的数目无关。你可以在其 文档 中读到更多关于它的信息。

安装:

  1. $ pip install flashtext

例子:

提取要害词:

  1. from flashtext import KeywordProcessor
  2. keyword_processor = KeywordProcessor()
  3.  
  4. # keyword_processor.add_keyword(<unclean name>, <standardised name>)
  5.  
  6. keyword_processor.add_keyword('Big Apple', 'New York')
  7. keyword_processor.add_keyword('Bay Area')
  8. keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.')
  9.  
  10. keywords_found
  11. ['New York', 'Bay Area']

更换要害词:

  1. keyword_processor.add_keyword('New Delhi', 'NCR region')
  2.  
  3. new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.')
  4.  
  5. new_sentence
  6. 'I love New York and NCR region.'

有关更多示例,请参阅文档中的 用法 一节。

恍惚处理赏罚

这个名字听起来很稀疏,可是 FuzzyWuzzy 在字符串匹配方面是一个很是有效的库。它可以很轻易地实现字符串匹配率、令牌匹配率等操纵。对付匹配生涯在差异数据库中的记录也很利便。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读