人工智能是这个时代的箴言,技术专家、学者、记者和风险投资家都在歌颂AI。不过,就像一些从专业学术领域延伸到日常生活中的短语一样,“人工智能”一词的使用也引起巨大的争议。
但这并不是通常情况中由于“大众无法理解科学家”而造成的争议,其实,科学家和大众一样感到困惑。一想到这个时代正在兴起一种可与人类匹敌的数字智能,所有人都很兴奋,但同时也会感到害怕,这会分散我们的注意力。
这是当今时代背景下一个特殊的故事,它涉及到人、计算机、数据和生与死的决定,并非人们对硅基智能的幻想。
14年前,笔者的亲戚怀孕后在做超声波检查。房间里的遗传学家指着胎儿心脏周围的一些白点:“这些都是唐氏综合症的迹象,而胎儿患病的风险已达二十分之一。”接着,她说可以通过羊膜穿刺术发现胎儿是否真的有先天遗传变异的唐氏综合症。但是羊膜穿刺术是有风险的,在手术中胎儿死亡率大约是1/300。
作为一名统计学家,笔者很想弄清楚这些数字的根据和来源。十年前,英国做过一项统计研究,这些代表钙积累的白点,实际上被认定是唐氏综合症的预测因子。但同时我也发现,我们测试的成像系统每平方英寸像素比英国分析使用的系统多几百个。
我告诉遗传学家,我认为这些白点可能是假阳性——它们只是“白噪音”。她说:“这就是几年前唐氏综合症的诊断激增的原因,那时新电脑刚刚到货。”
他们最终没有做羊膜穿刺术,几个月后,一个健康的女孩出生了。但这件事让我很惶恐——粗略估计,全世界有几千人在同一天接受了这个诊断,其中许多人选择了羊膜穿刺,许多婴儿不必要地死去。这种情况每天都在发生,直到有一天bug被修复。
这个故事暴露的问题与我个人的医疗保健无关——这关乎一个医疗系统,通过评估不同地点和时间的变量和结果,进行统计分析,并利用其他地方和不同时间的研究结果。
这样的问题不仅和分析数据本身有关,还和研究数据库研究人员关注的“出处”挂钩——一般来说,数据科学家们需要厘清数据来源于哪里、如何推导以及这些推论之于现状的重要性的问题。虽然熟练的数据科学家们可以依次进行案例分析,但当今的挑战是,行星规模般庞大的医疗系统并不需要大量的人类监管。
我也是一名计算机科学家,碰巧在我的学校里找不到这样的概念来构建一个全球范围内的推理与决策系统——将计算机科学与统计学结合起来,并考虑到人类的效用。在我看来,发展不应只局限于医学领域,还应涉及贸易、交通、教育等领域,至少要和构建人工智能系统一样重要。
无论是否能很快理解“智能”,我们都面临着一个巨大的挑战,那就是如何让机器和人类结合起来以改善人类生活。有些人认为这项任务从属于“人工智能”的发展,但它也可以被看作是一个新的工程分支。就像过去几十年的土木工程和化学工程一样,这门新学科的目标是汇集几个关键概念的力量,为人们提供新的工具和技能,并做到安全可靠。
土木工程和化学工程主要着眼于物理和化学,而这一新的工程学科将建立在上个世纪的思想基础上,诸如“知识”、“算法”、“数据”、“不确定性”、“计算”、“推理”和“优化”。此外,这门新学科的大部分重点将是来自人类和关于人类的数据,它的整体研究方向也将聚焦于此。
尽管构建小模块已经出现了,但是指导这些模块放在一起的原则还未发展,所以这些模块是以特殊的方式放置在一起的。因此,就像在结构工程出现之前设计建筑和桥梁一样,人类正在构建涉及计算机、人类和环境的社会规模、推理和决策结构。
就像早期的建筑和桥梁经常以意想不到的方式倒塌并带来毁灭性的后果一样,早期的许多社会推理和决策过程中也存在严重的概念缺陷。遗憾的是,我们并不擅长预测下一个致命错误的出现,我们真正失去的是工程学科及其理论和设计概念。
通常,公共话语情景下,人们常使用人工智能AI作为分析通配符,而这使得他们很难思考新兴技术的本质和含义。下文中,笔者将更仔细地研究“AI的过去和近况”。
当今被称为“人工智能”的事物,在过去几十年一直被称为“机器学习”。机器学习属于算法领域,包含了来自统计学、计算机科学和许多其他学科的思想,以开发处理数据、预测和支持决策制定的算法。
机器学习对世界的影响由来已久。早在上世纪90年代初,机器学习就已经很明显地发展成为具有巨大工业意义的产品。而在世纪之交,机器学习开始被具有前瞻性的公司所利用。
在整个公司(如亚马逊)内部,机器学习已经被应用于解决欺诈检测和供应链预测等关键任务的后端问题,并开发面向消费者的突破性服务,如推荐系统。在接下来的20年里,随着数据集和计算资源的快速增长,很快机器学习将不仅控制亚马逊,而且将几乎控制任何决策可以与大规模信息相关联的组织。
科学家预测,新的商业模式会持续发展。“数据科学”这一术语开始用于指代这一现象,表明机器学习算法方面的专家需要与数据库和分布式系统专家协作,以创建可伸缩、稳定的机器学习系统,用以表示生成的系统更广泛的社会和环境影响范围。
回顾历史,“人工智能”一词在20世纪50年代末被创造出来,指的是一种在软件和硬件上实现具有人类智能水平物体的强烈愿景。虽然已经有了相关的学术领域,如运能分析、统计、模式识别、信息论和控制理论,这些往往受到人类智能的影响,人工智能其实是一项学术事业。
这些领域的灵感来自于一种能力,例如,一只松鼠能够感知它所生活的森林的三维结构,并能在树枝间跳跃。“人工智能”旨在专注于——人类高级的“推理”和“思考”或“认知”能力。
然而,60年后,高层次的推理和思考仍然难以捉摸。现今在工程领域中被称为“人工智能”的技术主要着眼于低级模式的识别和调节运动,和统计领域——在集中识别数据和趋势后做出有根据的预测、测试假设和决定。
事实上,David Rumelhart在20世纪80年代初重新发现的流行“反向传播”算法(现在被认为是所谓的“人工智能革命”的基石),最早出现在20世纪50-60年代的控制理论领域。它的早期用途之一是在阿波罗飞船飞向月球时改进其推力。
自20世纪60年代以来,人类科技已经取得了重大进步,但人工智能的发展并没有达到顶峰。相反,就像阿波罗宇宙飞船一样,这些和研究人员的独特技术问题相关的概念一直被隐藏在幕后。
虽然没有明确向公众、研究展示,但系统建设在文档检索、文本处理、垃圾邮件检测、推荐系统、自定义搜索、社会网络分析、准备、诊断和A/ B测试领域取得了巨大成功。这些创新也推动了一些公司的发展,如Google、Netflix、Facebook和亚马逊。
人们将这些统称为AI,优化和统计研究人员一夜之间被贴上“人工智能研究人员”的标签,令人惊讶。但除此之外更严重的问题在于,使用这个模棱两可的特殊字母缩写,会妨碍人们对其涉及的知识和商业问题更为清晰的认知。
过去二十年里,在工业和研究方面,人类对于人工智能的模仿(也被称为“信息增强”)取得了重大进展。计算和数据在这里被用来构建提高人类智能和创造力。搜索引擎可以被视为IA(增强人类记忆力和事实意识)和自然语言翻译(增强人类沟通能力)的示例,基于计算的声音和图像的生成是艺术家创造力的调色板和增强器。
尽管这些服务可能需要高级的逻辑和分析,但目前它们还没有——它们只是执行各种类型的字符串匹配和数字操作,以确定人类可使用的模式。
希望读者能接受最后一个缩写词来代替“人工智能”,设想一个“智能基础设施”(II)学科,其中存在一个能够使人类环境更加友好、有趣和安全计算、数据和物理实体的网络。这类基础设施开始出现在交通、卫生、贸易和金融等领域,对个人和社区产生深远影响。
这些讨论常被冠以“物联网”之名,但这通常仅仅指示了互联网上的问题,而非关乎抽象层次更高、能够操纵数据流以发现相关环境信息和交流信息的更多问题。
在笔者看来,读者可以想象自己生活在一个“社会规模的医疗系统”中。该系统在医生和放置在人体内部或周围的设备之间创建数据流和数据分析流,从而使人工智能能够进行诊断并提供治疗。
该框架将整合有关人体细胞、DNA、血液样本、气候,种群遗传学和大量科学文献的药物和治疗知识。它将不仅关注单个患者和医生,而是关注所有人类之间的关系,就像当前的医学研究可以在一组人类(或动物)的对照下进行测试一样。它将像现有银行系统应对此类财务和支付问题的方式来保留重要,出处和连续性的概念。尽管人们可能会预料到系统中会出现的一些问题,包括隐私,责任,保护问题等,但这些问题仅仅是暂时性的障碍。
现在需要解决的一个关键问题:研究经典的人工模拟人工智能是应对更大挑战的最好或唯一方法吗?实际上,最近有关机器学习的最为成功的案例都涉及到模仿人类的人工智能领域,例如计算机视觉、语音识别、游戏玩法和机器人技术。因此,也许我们只应等待某些领域的进一步发展。
本文在这里声明两点。首先,显而易见,人类模仿人工智能的进步是有限的,我们离实现人类模仿人工智能的期望还差得很远。然而现实是,在模仿人类的人工智能上取得一定进步的喜悦(和恐惧)助长了人们的过度期望和媒体报道,而这其他工程领域所没有的。
其次,要解决重要的IA和II问题,这些领域的进展还不够充分,也不够必要。例如无人驾驶汽车的开发,需要解决各种可能与人类能力无关的工程问题。整体运输结构(a型结构)可能会更像目前的空中交通管制系统,而不是目前一组松散、向前看、漫不经心的人类驾驶员。
它将比目前的空中交通管制系统更为复杂,特别是在使用大数据和自适应统计建模来为细粒度的决策提供信息方面。这些问题最为重要,而强调模仿人类的人工智能可能会分散人们的注意力。
至于必要性方面,通常认为模仿人类的AI同时包含了IA和II的愿望,因为模仿人类的人工智能系统不仅能够解决传统人工智能问题(例如图灵测试),同时还是解决AI和II的最佳选择。
但这种说法没有历史依据:土木工程是通过尝试建造一个人工木匠或砌砖工而发展起来的吗?化学工程应该设计来建造一个人工化学家吗?更具有争议性的是:如果我们的目标是建立化工厂,我们是否可以先培养出一个人造化学家,然后观察他会想如何发展化工厂?
类似地,人类智能是我们所知道的唯一智能形式,第一步要努力模仿它。但事实上,人类并不擅长任何一种推理——因为人类会存在失误、偏见和弱点。此外,从根本上说,人类还没有进化到能够进行现代II系统必须面对的那种大规模决策,也没有进化到能够应对II环境中出现的模糊性。
有人可能会认为,一个人工智能系统不仅在模仿人类智能,而且它也会“正确”,会任意放大问题。但现在是在科幻小说的世界里——虽然这样的推测在小说的背景中令人兴奋,但不应该是面对IA和II的关键问题时前进的关键策略。就它们自身而言,我们需要解决IA和II问题,而不仅仅是完全模仿人工智能的节奏。
识别不属于II系统中人类模拟人工智能研究的核心主题的算法和技术并不难。II系统需要具备可以快速处理发展并且在全球范围内不连贯的分布式信息源的能力。这样的系统必须在做出及时、分布式的决策时应对云边缘的交互作用,并且还要处理长尾现象,也就是一些人的数据负荷很大,而另外一些人的数据却很少。它们必须要克服跨越机构和竞争边界的数据共享问题。
最重要的事情是,II系统必须将诸如激励和定价这样的经济理念纳入可以将人与人以及有价值的商品联系起来的统计和计算基础设施的领域。这种II系统可能被视为制造市场,而不仅仅只是提供服务。音乐、文学和新闻业等产业都迫切需要这样的市场出现,由数据分析将生产者和消费者联系起来。所有这些都必须基于新出现的文化、伦理和法律规范的框架才能实现。
当然,经典的人类模仿人工智能问题仍然是非常有趣的。然而,现在过分强调通过数据收集来进行人工智能研究,实施“深度学习”基础设施,以及演示模仿那些松散定义的人类技能的系统——几乎没有对进化的解释概念——往往会分散人们对经典人工智能中主要开放问题的注意力。
这些问题包括将意义和推理纳入处理自然语言的系统中,推断、反映和解释因果关系,建立计算上可追踪的不确定性表示以及建立长期目标设定框架。这些都是人类模仿人工智能的经典目标,但它们很容易被忘却,在最近“人工智能革命”的争论中,这些目标还没有得到解决。
人工智能也将持续保持其重要的地位,在可见的将来,机器在现实环境进行抽象思考的能力上仍无法与人类相媲美。为了解决我们最紧迫的问题,人机交互值得重点关注。我们希望计算机能激活人类创造力,而不是取代人类的创造力。
约翰·麦卡锡(当时担任达特茅斯大学的教授,即将在麻省理工学院进修)发明了“人工智能”这个词,他显然是为了把新研究方向与诺伯特·维纳(麻省理工学院的一位更老的教授)的研究方向区分开来。
维纳发明了“控制论”来指代其智能系统概念——这个概念与运筹学、统计学、模式识别、知识理论和控制理论密切相关。另一方面,麦卡锡强调了控制论与理性的联系。奇怪的是,在麦卡锡术语体系下,维纳的智能体系在现代占据了主导地位。这当然只是暂时的,AI行业的变动比一般行业剧烈得多。
但我们需要进一步发展麦卡锡和维纳的历史观点。值得注意的是,现有的公共人工智能对话仅仅关注了行业和学术界的一小部分,这可能会让大众忽视人工智能、IA和II的全面覆盖所带来的威胁和机遇。
这种关注不是为了实现科幻小说或超人类机器的幻想,更多的是为了考虑和发展科技,因为科技在人们的日常生活中变得越来越常见和有力。此外,科技的理解和塑造需要来自各行各业的各种不同声音,而不仅仅是技术协调者之间的对话。如果只关注模仿人类的人工智能,就会一叶障目。
尽管人工智能将持续推动各方面的进步,学术界也将继续扮演重要的角色——不仅提供最具创意技术的一些想法,而且也引入计算和统计学科的研究人员和其他学科的研究人员的成果和观点,特别是社会科学、人文科学和认知科学。
另一方面,虽然人文和科学在历史前进的过程中很重要,但也必须承认这是一个规模和范围巨大的工程项目——社会寻求创造新的种类的对象。这些工件应该按照规定的方式设计。
我们不想创造一个无用的项目来提供医疗保健、交通选择和商业机会。在这一方面,正如上文所强调的,以数据和以学习为中心的领域还没有成为一门工程学科。尽管这些领域非常吸引人,但它们还不能被视为工程学的一个分支。
此外,值得高兴的是,我们正在目睹一个新工程学科的出现。通常来说,科技一词在学术界和学术界以外的地方是狭义的,给人冷冰冰的机器印象和人类失去权力的负面暗示。因而我们想构建一门新的工程学科,现在我们有一个绝佳机会来构想一些异于传统的新事物——以人为中心的工程学科。
如果未来仍然持续使用AI这一缩写,人们必须要注意到其真正局限性。