今天想跟大家谈谈:「MD5 到底是加密的吗?」
MD5 是程序开发中非常常用的一种算法,很多人都用过。提到 MD5,大多数人的反应都是「这是一种加密算法」,懂得多点的人还会说「可以用于给密码加密」,再懂点的还知道「MD5 已经有被破解的可能性了」。但 MD5 到底是加密吗?所谓的加密到底是什么意思?MD5 的破解又是指的什么?
MD5:一种哈希算法
实质上,MD5 只是一种哈希算法。
哈希算法,即 hash,又叫散列算法,是一类把任意数据转换为定长(或限制长度)数据的算法统称。例如我叫张三,你叫李四,那么「人 -> 人名」的算法就叫属于一种哈希算法。哈希算法通常用于制作数字指纹,数字指纹的意思就是「你看到这个东西就像看到原数据一样」,例如我们在一些网站下载大文件的时候,网站提供给我们验证文件完整性的 MD5 或者 SHA1 码,就是原文件的哈希值。哈希算法有很多种,MD5 是其中的一种,这就是 MD5。所以,优秀的哈希算法通常需要具有低碰撞概率(即不同数据的哈希值通常也不一样)。
加密是什么?
加密,指的是对数据进行转换以后,数据变成了另一种格式,并且除了拿到解密方法的人,没人能把数据转换回来。因此,加密通常用于网络通信。因为网络上的通信数据,任何人都有可能会拿到,把数据加密后再传送,送达以后由对方解密后再查看,就可以防止网络上的偷窥。例如大家都知道「安全」但很少人知道「为什么安全」的 HTTPS,就是通过加密算法来保障的网络安全性。
所以,MD5 是加密吗?
加密算法的目的,在于别人无法成功查看加密后的数据,并且在需要的时候还可以对数据进行解密来重新查看数据。而 MD5 算法是一种哈希算法,哈希算法的设计目标本身就决定了,它在大多数时候都是不可逆的,即你经过哈希算法得出的数据,无法再经过任何算法还原回去。所以,既然不能将数据还原,也就不能称之为可以解密;既然不能解密,那么哈希的过程自然也就不能称作是「加密」了。
「不可逆加密」?
你如果试试去查询百度百科,会发现有一个「MD5 加密」的词条:
甚至还有一个词条叫做「不可逆加密算法」:
在「不可逆加密算法」词条下,MD5 赫然在列。
然而,他们都是错的。甚至,「不可逆加密算法」这个词,也是人造的。你甚至可以在网上搜索到一些博客,将加密算法归类为「可逆加密」和「不可逆加密」两类。这其实不能怪百度百科,也不能怪这些归类的人,要怪只能怪,关于数据转换相关的内容太多、太杂,导致大家用着用着就混淆了。
这些小知识有什么用?
在开发中,经常会遇到 RSA、AES、BASE64、MD5、SHA1、SHA256、GZIP 这些词,他们的意义和使用场景都是各不相同的。在刚入行的时候,作为一个底层小码农,只要按照同事的指示,让我 BASE64 我就 BASE64,让我 MD5 我就 MD5,不用问为什么。但是当你有了一定工作经验之后,就应该慢慢开始对这些内容有所了解了,不然不仅在开发中会遇到各种障碍,而且在项目出了相关问题的时候,你甚至不知道是你的问题还是同事的问题。做开发,谁都想往高处走,但你在往高处走之前,需要先建立起自己的优势。
所以如果你只是把这当做一个「小知识」,用「MD5 是不是加密」来跟朋友炫技或者用来在面试时提问求职者,这可能确实没有什么用。要知道,有用的不是小知识,而是在你能够对这些小知识轻松回答时,所体现出的完整知识体系。如果把它的本质了解清楚,它到底是什么、有什么用、怎么用,以及它的相关知识都有哪些,它们各自的含义、用法和区别是什么,这样的体系化的知识,以及这种不断把自己的知识向体系化转换的意识,将会对你非常有用。