昨日,小米集团创始人雷军在微博上宣布,国际语音识别和AI领域专家、语音识别开源工具 Kaldi 之父Daniel Povey(下文简称Dan) 将出任小米集团语音首席科学家。他将在北京组建独立研发团队,汇报给集团副总裁、技术委员会主席崔宝秋。
对于Dan的加入,崔宝秋首先赞扬了他的工作精神,并表示,“很高兴 Dan 能够出席今年的小米开发者大会!”
Dan 也曾在个人Twitter上宣布了这一消息,他提到将在 2019 年底动身前往北京,并将在那里组建一个小团队,开发新一代的“PyTorch-y” Kaldi。
加盟小米前,曾拒绝Facebook
今年8月,Dan 因一场学生闹剧被约翰·霍普金斯大学解雇。
Dan Povey
Facebook 马上向 Dan Povey 伸出橄榄枝,Dan 接受了。
但 Facebook 表示在学校事件调查结束前,暂时只能给 Dan 6 个月的 “合同工” 合约,调查结果出炉后才会决定是否正式聘请。
Dan 拒绝了,并讽刺 Facebook 的所作所为让他感觉 “déjà vu(似曾相识)”。
Dan 随后在个人主页上表示,他计划去一家中国公司工作,并且 “或许会在一所中国大学兼职”。
消息一出,国内学界业界颇为兴奋,纷纷猜测大神将去哪儿。
现在,Dan Povey 的新工作终于官宣:这家中国公司,就是小米。
Dan是什么人?语音界传奇,开发 Kaldi 撑起语音识别开源软件半边天
非语音方向的读者可能不熟悉 Dan Povey,在语音界,Dan 可以说是一个传奇。
Dan 是语音界赫赫有名的大佬,根据 LinkedIn 的信息,自 2012 年以来,他一直在约翰・霍普金斯大学担任助理研究教授。在加入霍普金斯大学之前,他曾在微软和 IBM 担任研究员。
略扫一遍知乎上的讨论,我们发现,Dan 教授在学生中有着极高的声誉,他的一堆 “标签” 甚至让路人圈粉。
他曾经的学生说:“Dan 是我见过的最纯粹耿直善良的 researcher,不仅学术水平极佳,至今仍居 coding 一线,灵感来了写代码写到不舍昼夜,仅靠一个土豆维生。”
工作狂:Dan 是个工作狂,据称,他每天工作 14 小时以上,除了回复邮件,就是在写代码;
热心:关心学生、主动兼任维护服务器、出来开会曾为了帮助穷学生而 share 旅馆,甚至经常给无家可归者钱;
纯粹:他的理想是 “干掉” Nuance(一家早期非常有名的语音识别公司),给大家提供免费的语音识别工具。这让他在并不十分美好的巴尔的摩一呆就是 7 年,全心地开发和维护 Kaldi;Kaldi 的论坛上,几乎每个帖子都能得到回复,Dan 回复邮件几乎是有求必应。
……
Dan Povey 最著名的工作是领导开发了 Kaldi,这是一个开源的语音识别工具包,在 Apache 许可下免费提供。
Kaldi 旨在为语音识别开发者提供灵活、可扩展的软件,支持线性 linear transforms、MMI、 boosted MMI 和 MCE 判别训练、特征空间判别训练和深度神经网络,并且已经提供 TensorFlow 集成。
关于 Kaldi 名字的来源,据说 Kaldi 是传说中发现咖啡的咖啡之神的名字,Dan 希望工具包像咖啡那样容易、方便、流行。
现在,Kaldi 已经成为最广泛使用的开源语音识别工具包之一,许多语音识别团队都依靠 Kaldi。这套工具包自 2011 年发布以来,下载量已经超过了两万多次,合著的论文目前也已经被引用一千多次。可以说 Kaldi 撑起了语音识别开源软件的半边天。
Kaldi 的影响是巨大的,它是第一个完全用 C++ 编写的,基于加权有限状态及理论的语音识别开源软件,它的模块化与高度可扩展性设计,详细的说明文档,完备公开的教程,也是它受广大开发者喜爱的一个主要原因。
它目前被业界广泛采用作为标准工具,包括学术界的 MIT、CMU、GHU、剑桥,国内的清华、上海交大等等,工业界包括微软、谷歌、IBM,Facebook 等等,它的推出也极大推进整个语音识别领域的发展。
有趣的是,Dan Povey 也是剑桥大学语音识别工具包 HTK 的作者之一,他是领导 HTK 工具包开发的 Phil Woodland 教授的学生。经过若干年的发展,Kaldi 集成的技术已经多于 HTK,老师开发了第一代语音识别开源软件,学生开发了第二代语音识别开源软件。
一场学生闹剧令语音大牛遭解雇:教授深夜闯入,只为夺回服务器
语音界大佬愤而出走,怒拒 Facebook转投中国,缘起于一次 “为了夺回服务器” 的反抗,以及因此发生的一场闹剧式的解雇风波。
事情生在 5 月 7 日的午夜,Dan Povey 带着一把断线钳,试图趁着夜黑风高闯入约翰霍普金斯大学被抗议的学生占领的行政楼,夺回 CLSP(语言语音处理中心)维护的服务器的控制权。
约翰霍普金斯大学被学生占领的 Garland Hall 外墙
在这之前,行政楼 Garland Hall 已经被静坐抗议的学生占领长达 34 天,他们将窗户封紧,大门用铁链锁上。
但 Dan 负责维护的 CLSP 的服务器在大楼里,在试图向学校申请进入大楼维护服务器无果之后,他决定阻止这场抗议。
Dan 以工作狂闻名,他的学生 Guoguo Chen 在知乎上说:“这么些年和 Dan 接触下来,感觉有两个点是不能触碰的,一个是时间,一个是服务器。”
Guoguo Chen 说:“Dan 还有一个不能接受的便是服务器的不稳定。Dan 在很多事情上都比较宽容,但是如果谁乱用了服务器的资源,会收到 Dan 非常严厉的警告。Dan 觉得数据和计算资源,对整个 CLSP 来说,都是非常非常重要的资产,需要随时保证 CLSP 的每一个人都可以使用到。我相信这也是为什么 Dan 在这次事件中,会试图夺回服务器,避免数据和及其资源的损失。”
根据当地报纸的报道,那天夜里,在其他六名 “社会闲散人士” 的陪同下,Dan 携带钳子前往大楼,费力地试图剪断抗议学生在门上绑的铁链,夺回服务器的控制权。
视频拍摄到 Dan 被学生们推出大楼
但他失败了。随即引发了肢体冲突,Dan 被学生们推挤出大楼。Dan 在他的网站上解释,强行进入大楼是因为研究用的服务器故障,而该服务器在学生占领的大楼内。
“夺回服务器” 事件后,Dan 先是被停职,随后在 8 月 8 日,被校方以 “危害学生安全” 为由解雇。
Dan 公开了这封解雇信,并说他会提前离开。他在自己的网站上辩护说:“或许我失去了工作,但至少我依旧保有尊严和独立的思想。”
他说,自己被炒鱿鱼是因为他是白人男性,而抗议的学生是少数族裔。在个人主页的陈述中,他写道:“对于美国人及美国各类机构而言,似乎没什么比被指控种族主义(或类似主义)更可怕的了。这导致了我们这里看到的荒谬的事实:如此巨大的机构竟因几个被蛊惑的孩子陷入瘫痪。”
他表示自己有很多出路:“我告诉朋友,再不济我就到中国或者俄罗斯去。但我要告诉各位,不论发生什么,我永远不会道歉,不会退缩。”
在公开信中,他写道:
最后,我留下几句鲍勃·迪伦的歌词:
我不对我做的任何事感到遗憾
我很高兴我战斗了,我只希望我们胜利
被学校解雇,拒绝Facebook后,为什么是小米?
这样一位大牛,为什么选择小米呢?10月23日,小米在人工智能媒体开放日活动中分享了是怎么挖到Dan的。
Povey 被约翰霍普金斯大学开除后,小米人工智能部门语音组的负责人看到了Dan在 Twitter 上发布的“拒绝 Facebook”的帖子,便转给了小米集团人工智能部总经理叶航军博士。负责国际招聘的同事便立即与 Dan 联系,收到回信后,叶航军博士便与其沟通小米的战略布局和技术问题。
随后,小米技术委员会主席的崔宝秋与 Dan 进行了进一步的沟通,并成功将人挖来了小米。崔宝秋曾对媒体谈到,Dan 之所以选择小米有三点原因,一是小米的 AIoT 生态,二是小米对自研技术和人才的重视,三是小米对开源的拥抱。
其中小米的开源战略是吸引 Dan 的一个关键点,崔宝秋谈道,他在给 Dan 的 3 个 PPT 中专门介绍了小米对开源的拥抱。其中一个 PPT 谈到将来的计划,有一个就是要联合中国的互联网企业技术企业,来把中国的开源力量推向世界。 Dan 将这句话专门标出来,说这就是他想做的。
另外,从小米业务来看,雷军曾提出小米未来五年的“双引擎”是手机+AIoT,其中 AIoT 是 AI 和 IoT 的结合,可见人工智能在小米整体战略的重要性。小米在AI领域取得了亮丽的成绩。公开数据显示,2016 年到 2018 年间,小米在AI领域申请专利达到 684 项,列居世界第 11 位,成了国际领先的 AI 新势力。
同时,小米在声学、语音、视觉、自然语言处理、知识图谱和机器学习这 6 大方向都有相应的研发团队。目前在语音方面已经推出了落地产品,技术上也有所突破。
如不久前在备受业界关注的“AISHELL Speaker Verification Challenge 2019远场语音说话人识别挑战赛”中,小米语音团队采用的多维度数据增广+经典识别模型+深度神经网络嵌入的融合方法,在近场注册Track1和远场注册Track2两个任务均获得了全国第一名。
重视语音技术研发的小米和语音识别大佬的联合,会带来什么影响呢?对此,有网民认为,“长远看的话,会对小米科研实力提升有所帮助,期待小爱同学还有小米在未来AI领域的发展”。