探究Python性能为什么如此的强大

开发 后端
Python性能一直都是十分的强大,不少的用户都在使用。下面我们就详细的看看Python性能为什么如此的强大,希望大家有所收获。

Python性能十分的强大,相关的技术为什么会如此的强大呢?下面我们就详细的看看相关技术问题。问题的提出是源于 这位兄弟的BLOG,在他的这个实现中,Python性能具有相当不错的性能,不但优于帖子中的C实现性能,也优于随后的跟贴中众多的C++实现的性能。#t#

在经过了多次尝试,我还是很难找出一个优于Python性能的实现。这不是一件正常的事情,Python性能注定不会优于C/C++,这是因为Python是解释执行的,解释的过程必然会消耗CPU时间,所以我查阅了Python的源码试图找出为何Python性能对于这个任务有如此好的性能的原因。

任务描述如下

对于一个78W行的文本文件,每一行是一个Email地址,文件中存在有重复的行,任务的要求是尽可能快的从这个文本文件生成一个无重复的Email的文本文件

有如下的问题需要注意

对于这种大量的字符串比较,直接使用字符串比较函数是严重妨碍性能的IO性能是要注意的尽可能的少使用占用内存在我的尝试中,发现重复调用ofstream::operator<< 是比较影响性能的,而使用 fprintf或使用copy 等 STL 算法输出到则性能好的多。使用一种好的Hash算法是影响程序性能的关键。任务中的EMail字符串总是具有[a-z]*[0-9]*@([a-z]*\.)+[a-z]* 的形式,例如 joson123@sina.com.cn joson72345@sina.com.cn 的格式。

在$PySrc/Objects/dictobject.c 中,对Python的Hash机制作了一些描述,总的来说,Python的Hash机制对于这种连续型的字符串有相当好的离散度,对于这个 78W 例子,python_hash() % 780000能够很均匀的分散到各个值,***的冲突数为 8。 以下是按照类似 Python的 Hash算法实现的 C++ 版本的结果

  1. E:\Workspace\Temp\Email>my   
  2. 经过了1687.5000毫秒   
  3. E:\Workspace\Temp\Email>my   
  4. 经过了1718.7500毫秒   
  5. E:\Workspace\Temp\Email>my   
  6. 经过了1671.8750毫秒   
  7. E:\Workspace\Temp\Email>my   
  8. 经过了1656.2500毫秒   
  9. E:\Workspace\Temp\Email>py_email.py   
  10. 2.82014641526   
  11. E:\Workspace\Temp\Email>py_email.py   
  12. 2.74879181572   
  13. E:\Workspace\Temp\Email>py_email.py   
  14. 2.76348586203   
  15. E:\Workspace\Temp\Email>dir *.txt   
  16. 2006-03-28 13:09 19,388,869 email.txt   
  17. 2006-03-29 22:51 17,779,266 email_new.txt (py_email.py 写出)   
  18. 2006-03-29 22:50 17,779,266 email_new_my.txt (my.exe 写出)  

以上就是对Python性能的详细介绍。

责任编辑:张浩 来源: IT博客
相关推荐

2020-05-29 17:21:33

神经网络学习函数

2024-11-04 09:26:42

RESTJavaAPI

2012-04-09 13:35:10

Instagram

2019-01-15 17:50:18

存储技术容器

2017-07-26 10:21:46

DockerLinux容器

2020-06-02 19:14:59

Kubernetes容器开发

2020-11-05 10:50:09

物联网数据技术

2022-06-01 23:27:38

区块链加密货币数字资产

2021-07-18 22:29:28

Python人工智能开发

2014-12-19 09:59:50

代码

2022-11-28 09:00:03

编程bug开发

2023-09-17 23:01:39

Python编程语言

2023-04-10 15:41:35

2022-11-21 18:02:04

前端测试

2021-03-29 16:32:03

软件代码程序员

2020-04-21 11:03:34

微服务数据工具

2021-09-29 16:53:53

区块链数据技术

2011-10-14 09:20:48

Lisp

2013-04-19 13:59:00

Apache Hado

2018-05-02 12:34:48

点赞
收藏

51CTO技术栈公众号