你与数据科学家只差这26条Python技巧

大数据
作者 Peter Gleeson 是一名数据科学家,日常工作几乎离不python。一路走来,他积累了不少有用的技巧和tips,现在就将这些技巧分享给大家。这些技巧将根据其首字母按A-Z的顺序进行展示。

Python是目前世界上***的编程语言之一。因为:

  1. 它容易学习
  2. 它用途超广
  3. 它有非常多的开源支持(大量的模块和库)

作者 Peter Gleeson 是一名数据科学家,日常工作几乎离不python。一路走来,他积累了不少有用的技巧和tips,现在就将这些技巧分享给大家。这些技巧将根据其首字母按A-Z的顺序进行展示。

[[256548]]

ALL OR ANY

Python之所以成为这么一门受欢迎的语言一个原因是它的可读性和表达能力非常强。Python也因此经常被调侃为“可执行的伪代码”。不信你看:

  1. x = [TrueTrueFalse
  2. if any(x): 
  3.     print("At least one True"
  4. if all(x): 
  5.     print("Not one False"
  6. if any(x) and not all(x): 
  7.     print("At least one True and one False"

BASHPLOTIB

你想要在控制台绘图嘛?

  1. $ pip install bashplotlib 

现在,你的控制台中就可以有图了。

COLLECTIONS

Python有一些很棒的默认数据类型,但是有时候他们并不会像你所希望的那样发挥作用。

幸运的是,Python 标准库提供了collection模块。它让你可以使用更为多样数据类型。

  1. from collections import OrderedDict, Counter 
  2. # Remembers the order the keys are added! 
  3. x = OrderedDict(a=1, b=2, c=3) 
  4. # Counts the frequency of each character 
  5. y = Counter("Hello World!"

DIR

面对一个Python对象,你是否曾想过可以直接看到其属性?你也许可以试试以下的代码:

  1. >>> dir() 
  2. >>> dir("Hello World"
  3. >>> dir(dir) 

这是运行Python的时候一个非常有用的功能,用于动态探索你所使用的对象和模块。更多详情,可以查看这里:https://docs.python.org/3/library/functions.html#dir

EMOGI

对的,你没看错!

  1. $ pip install emoji 

用python来创建表情包,你也可以。

  1. from emoji import emojize 
  2. print(emojize(":thumbs_up:")) 

:+1:

FROM_GUTURE_IMPORT

Python非常受欢迎,这也就导致了它的版本更新非常快,新的版本往往会有很多新特性。你不更新,就无法使用。

然而,不要害怕。__future__ 模块可以让你导入未来版本的功能。有点像时空穿梭有木有!

  1. from __future__ import print_function 
  2. print("Hello World!"

GEOPY

对于程序猿来说地理可能是一个非常有挑战性的领域。但是,geopy模块则让它变得非常简单。

  1. $ pip install geopy 

它通过提取一系列不同地理编码服务的api来工作,让你能够获得一个地方的完整街道地址、纬度、经度,甚至海拔。

这里面同时还包含一个有用的“距离”类别。它能使用你选定的度量去计算了两个地点之间的距离。

  1. from geopy import GoogleV3 
  2. place = "221b Baker Street, London" 
  3. location = GoogleV3().geocode(place) 
  4. print(location.address) 
  5. print(location.location) 

HOWDOI

有时候你碰到了一个编程问题,觉得自己之前明明见过它的解决方法,但是却记不起来具体是怎么样的了。于是你想要去StackOverflow上找,但又不想离开这个终端。这个时候,你需要下面这个工具——howdoi

  1. $ pip install howdoi 

你所遇到的任何问题都可以问它,它会尽他所能给你返回一个答案。

  1. $ howdoi vertical align css 
  2. $ howdoi for loop in java 
  3. $ howdoi undo commits in git 

需要注意的是——它只从StackOverflow最顶端的答案中抓取代码。所以它给你返回的不总是最有用的信息...

  1. $ howdoi exit vim 

INSPECT

Python的inspect模块用于收集Python对象的信息,可以获取类或函数的参数的信息,源码,解析堆栈等等。

下方的代码样例使用了 inspect.getsource() 来打印它自身的源码。同样还使用了 inspect.getmodule()来打印定义了inspect.getmodule()的模块。***一行代码则是打印了本行代码所在的行号。在本例中,就是 4 。

  1. import inspect 
  2. print(inspect.getsource(inspect.getsource)) 
  3. print(inspect.getmodule(inspect.getmodule)) 
  4. print(inspect.currentframe().f_lineno) 

inspect模块可以有效地让你知道你的代码是如何工作的,你也可以利用它来完成一些个人的源码。

JEDI

Jedi库是一个代码自动补齐和静态分析的库。它可以使你更快更高效地书写代码。

除非你在开发自己的编辑器,否则你可能会非常喜欢将Jedi作为自己的编辑插件。

你可能已经正在使用Jedi而只是没发现。IPython项目就是利用Jedi来实现其自动补全功能。

**KWARGS

无论你学习那种语言,在这条学习之路上总有那么一些里程碑。在Python的编程学习中,理解神秘的**kwargs语法应该算是一个重要的里程碑。

双星“**”放在字典的前面可以让你将字典的内容作为命名参数传递给函数。字典的键是参数的名字,键的值作为参数的值传递给函数。如下所示:

  1. dictionary = {"a": 1, "b": 2} 
  2. def someFunction(a, b): 
  3.     print(a + b) 
  4.     return 
  5. # these do the same thing: 
  6. someFunction(**dictionary) 
  7. someFunction(a=1, b=2) 

当你想要创建一个函数,它需要能处理事先没有定义过的参数,那么就要用到前面提到的技巧了。

LIST COMPREHENSIONS

List comprehensions(列表推导式)

列表推导式可以说是我最喜欢的Python技巧之一。这种表达式可以让你写出像自然语言一样易于理解并且还很简洁的代码。

你可以通过这个链接了解更多关于列表推导式的用法。地址:https://www.learnpython.org/en/List_Comprehensions

  1. numbers = [1,2,3,4,5,6,7] 
  2. evens = [x for x in numbers if x % 2 is 0] 
  3. odds = [y for y in numbers if y not in evens] 
  4. cities = ['London''Dublin''Oslo'
  5. def visit(city): 
  6.     print("Welcome to "+city) 
  7. for city in cities: 
  8.     visit(city) 

MAP

Python有许多非常有用的内置函数。其中一个就是map()——特别是和lambda函数相结合的时候。

  1. x = [1, 2, 3] 
  2. y = map(lambda x : x + 1 , x) 
  3. # prints out [2,3,4] 
  4. print(list(y)) 

在这个例子中,map()对x中的每一个元素都应用了一个简单的lambda函数。它会返回一个map对象,这个对象可以被转化成可迭代对象,如列表或者元组。

NEWSPAPER3K

newspaper3k,如果你还没有见过它,那么你可能会被这个Python newspaper模块所惊艳到。

它可以让你检索到一系列国际领先出版物中的新闻和相关的元数据。你可以检索图片、文本和作者名。它甚至有一些内置的自然语言处理功能。所以,如果你正在考虑使用BeautifulSoup 或其他自制的爬虫库来应用于你的下一个项目。那么,省省时间和精力吧,你其实只需要$ pip install newspaper3k。

OPERATOR OVERLOADING(操作符重载)

Python支持操作符重载。“操作符重载”其实是个简单的概念,你是否曾经想过为什么Python可以让你使用“+”操作符来同时实现加法和连接字符串?这就是操作符重载在发挥作用。

你可以定义使用Python标准操作符符号的对象,这可以让你在特定的环境中使用特定的对象,就像下方的例子一样。

  1. class Thing: 
  2.     def __init__(self, value): 
  3.         self.__value = value 
  4.     def __gt__(self, other): 
  5.         return self.__value > other.__value 
  6.     def __lt__(self, other): 
  7.         return self.__value < other.__value 
  8. something = Thing(100) 
  9. nothing = Thing(0) 
  10. True 
  11. something > nothing 
  12. False 
  13. something < nothing 
  14. # Error 
  15. something + nothing 

PPRINT

Python的默认print函数可以满足日常的输出任务,但如果要打印更大的、嵌套式的对象,那么使用默认的print函数打印出来的内容会很丑陋。

这个时候我们就需要pprint了,它可以让复杂的结构型对象以可读性更强的格式显示。这对于经常要面对非普通数据结构的Python开发者来说是必不可少的工具。

  1. import requests 
  2. import pprint 
  3. url = 'https://randomuser.me/api/?results=1' 
  4. users = requests.get(url).json() 
  5. pprint.pprint(users) 

QUEUE(队列)

Python支持多线程,它是通过标准库中的Queue模块来实现的。这个模块可以让你实现队列数据结构。这种数据结构可以让你根据特定的规则添加和检索条目。

“先进先出”(FIFO)队列可以让你按照添加对象的顺序来检索他们。“后进先出”(LIFO)队列可以让你首先访问最近添加的对象。***,优先队列可以让你根据他们排序的顺序进行检索。

_REPR_

当你定义一个类的时候,提供一个方法可以返回用来表示该类对象的可打印字符串会非常有用。例如:

  1. >>> file = open('file.txt''r'
  2. >>> print(file) 
  3. <open file 'file.txt', mode 'r' at 0x10d30aaf0> 

这使得debug更加方便,具体的定义方式如下:

  1. class someClass: 
  2.     def __repr__(self): 
  3.         return "<some description here>" 
  4. someInstance = someClass() 
  5. # prints <some description here> 
  6. print(someInstance) 

SH

sh库让你像调用方法那样调用系统中的命令。

  1. import sh 
  2. sh.pwd() 
  3. sh.mkdir('new_folder'
  4. sh.touch('new_file.txt'
  5. sh.whoami() 
  6. sh.echo('This is great!'

TYPE HINT(类型提示)

Python是一种动态类型语言。当你定义变量、函数、类别的时候,你不需要指定数据的类型。这可以大大提升你的开发速度,但也是有代价的。你可能会因为一个简单的输入问题而导致运行出错。

在Python3.5之后,这就不是问题了,在定义函数的时候你可以自主选择要不要提供类型提示。

  1. def addTwo(x : Int) -> Int
  2.     return x + 2 

你还可以定义类型的别名:

  1. from typing import List 
  2. Vector = List[float
  3. Matrix = List[Vector] 
  4. def addMatrix(a : Matrix, b : Matrix) -> Matrix: 
  5.   result = [] 
  6.   for i,row in enumerate(a): 
  7.     result_row =[] 
  8.     for j, col in enumerate(row): 
  9.       result_row += [a[i][j] + b[i][j]] 
  10.     result += [result_row] 
  11.   return result 
  12. x = [[1.0, 0.0], [0.0, 1.0]] 
  13. y = [[2.0, 1.0], [0.0, -2.0]] 
  14. z = addMatrix(x, y) 

虽然不是强制性的,类型注释可以让你的代码理解起来更加简单。它们也允许你使用类型检测工具在运行之前捕获这些零散的类型错误。如果你正在从事大型、复杂的项目,那么类型注释也许会非常有帮助。

UUID

通过Python标准库中的uuid模块,可以快速并简单地生成统一的唯一ID(又称UUID)。

  1. import uuid 
  2. user_id = uuid.uuid4() 
  3. print(user_id) 

UUID是128位的全局唯一标识符,通常由32字节的字符串表示。它可以保证时间和空间的唯一性,也称为GUID,全称为:UUID —— Universally Unique IDentifier,Python 中叫 UUID。它通过MAC地址、时间戳、命名空间、随机数、伪随机数来保证生成ID的唯一性。

VRITUAL ENVIRONMENTS

这可能是我最喜欢的Python技巧了。你可能经常要处理不止一个Python项目,不幸的是,有时候不同项目会依赖不同的Python版本。这个时候,你应该在系统里安装哪个Python版本呢?

幸运的是,Python可以支持建立不同的虚拟环境来满足不同的版本需求。

  1. python -m venv my-project 
  2. source my-project/bin/activate 
  3. pip install all-the-modules  

现在你可以在一台机器上安装和运行各个独立版本的Python。太棒了!

WIKIPEDIA

Wikipedia有一个很棒的API,它可以让用户通过编程访问到维基的词条内容。使用Python中的wikipedia模块可以让你以最便捷的方式访问该API。

  1. import wikipedia 
  2. result = wikipedia.page('freeCodeCamp'
  3. print(result.summary) 
  4. for link in result.links: 
  5.     print(link) 

与真实站点一样,该模块支持多种语言、页面消除歧义、随机页面检索,甚至还有donate()方法。

YAML

YAML是“YAML不是一种标记语言”的外语缩写。它是一个数据格式语言,是JSON的父集。和JSON不同的是,它可以存储更复杂的对象,并且可以引用自身的元素。你还可以写注释,这让YAML特别适合于书写配置文件。

PyYAML模块可以让你使用Python调用YAML。使用下列语句安装:

  1. $ pip install pyyaml 

然后导入到项目中:

  1. import yaml 

PyYAML 使你能够储存任何数据类型的Python对象,以及任何用户定义类的实例。

ZIP

***一个技巧也非常酷。你是否曾想要让两个列表中的元素逐个映射,组合成字典?那么你应该使用zip。

  1. keys = ['a''b''c'
  2. vals = [1, 2, 3] 
  3. zipped = dict(zip(keys, vals)) 

内置函数zip()接收若干可迭代对象,然后返回一个由多个元组组成的列表。每个元组根据输入对象的位置索引对其元素进行分组。还可以使用*zip()来“解压”对象。

python大法好,掌握这些小的技巧,助你在python大神的道路上,披荆斩棘,所向披靡。

责任编辑:未丽燕 来源: Python数据科学
相关推荐

2019-01-29 10:53:07

数据开发Python

2017-08-04 15:53:10

大数据真伪数据科学家

2019-09-11 14:34:13

排序算法数据科学

2018-08-10 08:35:49

2021-01-22 15:25:42

数据科学数据分析IT

2018-01-31 22:30:05

数据科学家数据专家工程师

2019-07-03 16:10:27

数据科学家数据库数据工程师

2020-03-20 14:40:48

数据科学Python学习

2012-12-26 10:51:20

数据科学家

2018-12-24 08:37:44

数据科学家数据模型

2012-12-06 15:36:55

CIO

2018-11-29 13:30:15

数据科学家项目数据

2018-02-28 15:03:03

数据科学家数据分析职业

2018-10-16 14:37:34

数据科学家数据分析数据科学

2012-06-12 09:33:59

2019-03-25 21:18:41

数据科学家大数据技能

2023-03-17 08:00:00

人工智能工具数据科学家

2019-07-11 12:59:27

数据科学家概率分布统计

2020-04-08 17:38:24

Python数据音乐

2020-05-11 13:46:34

数据科学家数据科学大数据
点赞
收藏

51CTO技术栈公众号