蓝宇,让你事半功倍的小众 Python 库,炉甘石

150274

英唐米拖拉机舞蹈视频文:Parul Pandey,翻译:机器之心

Python 是世界上开展最快的编程言语之一。它一次又一次地证明了自己在开发人员和跨行业的数据科学中的有用性。Python 及其机器学习库的整个生态系统使全世界的用户(不管新手或内行)都乐意选择它。Python 成功和受欢迎的原因之一是存在强壮的库,这些库使 Python 极具创造力且运转快速。可是,运用 Pandas、Scikit-learn、Matplotlib 等常见库在处理一些特别的数据问题时或许并不有用,本文介绍的这些十分见库或许更有协助。

WGET

提取数据,特别是从网络中提取数据是数据科学家的重要使命之一。Wget 是一个免费的东西,用于以非交互式办法从 Web 上下载文件。它支撑 HTTP、HTTPS 和 FTP 协议,经过 HTTP 署理进行检索。因为它对错交互式的,即运用户没有登录,它也能够在后台作业。所以,假如你想下载一个网站或一个页面上的一切图片,wget 会协助你。

装置:

$ pip install wget

示例:

importwget

url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'

马跃大唐
蓝宇,让你事半功倍的小众 Python 库,炉甘石

filename = wget.download(url)

100% [................................................] 3841532/ 3841532

filename

'razorback.mp3'

Pendulum

关于那些在 python 中被处理datetimes困扰的人来说,Pendulum 排课大师是个好选择。它是一个 Python 包,用于简化 datetimes 操作。它是 Python「本机」类(native class)的代替。更多内容,请参yjsxt阅文档:https://um.eustace.io/docs/# installation。

装置:

$ pip install pendulum

示例:

importwget

url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'

filename = wget.download(url)

100% [................................................] 3841532/ 3841532

filename

'razorback.mp3'

IMBALANCED-LEARN

能够看出,当每个类的样本数量持平即平衡时,大张二勇大都分类算法的作业作用最好。但现实生活中充满了不平衡的数据集,这些数据集对机器学习的学习阶段和后续猜测都有影响。创立这个库是为了处理这个问题。它与 scikit-learn 兼容,并且是 scikit-learn-contrib 项目的一部分。下次遇到不平衡的数据集时,可蓝宇,让你事半功倍的小众 Python 库,炉甘石以测验一下。

装置:

pip install -U imbalanced-learn

# or

conda install -c conda-forge imbalanced-learn

示例:

有关用法和示例,请参阅:http://imbalancedlearn.org/en/stable/api.html。

FL蓝宇,让你事半功倍的小众 Python 库,炉甘石ASHTEXT

在 NLP 使命中,整理文本数据一般需求替换语句中的关键词或从语句中提取关键词。一般,这样的操作能够用正则表达式来完结,可是假如要查找的词汇量过大,操作就会变得费事。Python 中根据 FlashText 算法的 FlashText 模块,为这种状况供给了一个适宜的代替计划。FlashText 最大的长处是查找词数量不影响运转时长。更多相关信息请见:https://fl马喆新浪博客ashtext.readthedocs.io/en/latest/#。

装置:

$ pip install flashtext

示例

提取关键词:

fromflashtext importKeywordProcessor

keyword吸胸_processor = KeywordProcessor()

# keyword_processor.add_keyword(<unclean name>, <standardised name>)

keyword_processor.add_忌独笑keyword( 'Big Apple', 'New York')

keyword_processor.add_keyword( 'Bay Area')

keywords_found = keyword_processor.extract_keyword宝骏830s( 'I love Big Apple and Bay Area.')

keywords_found

[ 'New York', 'Bay Area']

替诸界邪魔换关键词:

keyword_processor.add_keyword( 'New Delhi', 'NCR region')

new_sentence = keyword_processor.replace_keywords( 'I love Big Apple and苏肌丸 new delhi.')

new_sentence

'I love New York and NCR region.'

更多运用示例,请参阅官方文档。

FUZZYWUZZY

尽管姓名听起来很古怪,但涉及到字符串匹配时,fuzzywuzzy 是一个十分有用的库,能够很容易地完成比如字符串比较比率、token 比率等操作。关于匹配不同数据库中的记载也很便利。

装置:

$ pip install fuzzywuzzy

示例:

fromfuzzywuzzy importfuzz

fromfuzzywuzzy importprocess

# Simple Ratio

fuzz.ratio( "this is a test", "this is a test!")

97

# Partial Ratio

fuzz.partial_ratio( "this is a test", "this is a test!")

100

更多风趣的比如能够在 GitHub 上找到:https://github.com/seatgeek/fuzzywuzzy。

PYFLUX

时刻序列剖析是机器学习范畴最常见的问题之一。PyFlux 是 Python 中为处理时刻序列问题而创立的开源库。该库有一系列极好的时刻序列模型,包含但不限于 ARIMA、 GARCH 和 VAR 模型。简而言之,PyFlux 供给了一个时刻序列建模的概率办法。值得测验。

装置:

pip install pyflux

示例:

有关用法和示例,请参阅:https://pyflux.reasarajaydthedocs.io/en/latest/index.html。

IPYVOLUME

沟通成果是数据科学的一个根本方面。能够将成果可视化是一个很大的优势。IPyvolume 是一个用于在 Jupyter notebook 中可视化 3d 体积和字形(如 3d 散点图)的 Python 库,只需少数装备即可。可是,它现在还处于前 1.0 版。IPyvolume 的 volshow 之于 3d 数组,就像 matplotlib 的 imshow 之于 2d 数组相同。更多相关信息请见:https://ipyvolume.readthedocs.io/en/latest/?badge=latest。

装置:

Using pip

$ pip install ipyvolume

Conda/Anaconda

$ conda install -c conda-forge ipyvolume

DASH

Dash 是一个用于构建 web 使用程序的高效 Python 结构。它写在 Flask、Plotly.js 蓝宇,让你事半功倍的小众 Python 库,炉甘石和 React.js 之上,将下拉列表、滑块和图形等 UI 元素与你的剖析性 Pyt关婷娜胸hon 代码直接相连,无需 java。Dash 十分合适构建数据可视化使用程序。然后这些使用程序能够在 web 浏览器中进行烘托。用户攻略请见:https://dash.plot.ly/。

装置:

pip install da敏迪程控交换机sh== 0.29.0# The core dash backend

pip install dash-html-components== 0.13.2# HTML comp程黎芬onents

pip install dash-core-components== 0.36.0# Supercharged components

pip install dash-table== 3.1.3# Interactive DataTable component (new!)

示例:

下图示例显现了具有下拉功用的高度交互图。当用户在下拉列表中选择楚兰菊一个值时,使用程序代码会动态地将 Google Finance 的数据导出为 Pandas DataFrame。资源:https://gist.github.com/chriddyp/3d245490曹喜八案5d8f01886d6蓝宇,让你事半功倍的小众 Python 库,炉甘石51f207e2419f0。

GYM

来自 OpenAI 的 Gym 是一个开发和比照强化学习算法的东西包。它兼容于任何数值核算库,如 TensorFlow 或 Theano。Gym 库是一个测验问题的调集,也被称为环境——能够用它来核算你的强化学习算法。这些环境有一个同享的接口,答应你写通用算法。

装置:

pip install gym

示例:

运转环境 CartPole-v0 的 1000 个时刻过程实例,在每个过程烘托环境。

阅览其他环境请见:https://gym.openai.com/。

定论

这些是作者为数据科学选择的有用 python 库,而十分见的 numpy、panda 等。值得一试

原文链接:https://medium.com/analytics-vidhya/python-libraries-for-data-science-other-than-pandas-and-numpy-95da30568fad

京东热卖中

但凡在京东购买用户,将订单和点评截图发到邮箱itbook8@163.com禾念读什么

将取得额定Python大礼包(部分如下图)

声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间效劳。
蓝宇,让你事半功倍的小众 Python 库,炉甘石