9 月 21 日,中央电视一台"机智过人"节目播出关于杭州灵隐寺每天入园游客人数预测的人工智能与人工智慧的竞赛。竞赛的一方为"智慧大脑"的人工智能计算,另一方为灵隐寺管理人员的经验判断。结果是:1)按时间段(上午10点和下午 3点),人工智能的计算误差太大,超过30%,而经验判断的误差为 3%左右,因此被部分评委认为是"技不如人";2)按一天(至下午6点闭园),人工智能的计算误差小于5%,胜出(被评为"机智过人" )。
据介绍,该人工智能的计算算法是经过交叉检验,其方法是在三年的入园游客的统计中,随机去掉一天,并以计算数据插入,对比误差应小于 5%。而对于在竞赛中时间段上所出现的计算大误差现象则被解释为,是由于即时获取入园游客的数据与计算算法在时间上存在偏差,属于人为错误。
然而,事实上,在对"人工智能"的研究和应用中,类似于"'机'智过人"之命题正是目前普遍存在的一个挑战(或态势与感知)。观察及思考如下:
1)数据及其相关的关联性
以灵隐寺的"机智过人"算法为例,其基础数据来源于三年的每天入园游客数量统计,应是极为精准。但是,数据的主要来源单一(门票销售量),而每天入园游客数量必然受到当时客观条件和环境的影响,例如,天气、突发事件或活动、周一到周日的出行习惯等等。因此,门票销售数量仅仅是个基准线(且可以近似为线性连续),而在三年间每天出现的客观因素则是动态的、离散的,且缺少参考数据以及可量化的分析,亦即数据分析一旦缺失对多维数据的关联,该算法是"脆弱"的,以至于难以避免计算结果出现(必然的)较大随机误差。
2)数据的预处理与检验
一般而言,"人工智能"由三个部分组成:1)输入,2)计算,3)输出。其中,"计算"包括建模和算法;输入的是量化数据;输出的是计算结果。
通常,任何算法都需要通过对输入数据的循环学习,不断地深度优化,力求所输出结果的精准或达到预期的参考效果。
因此,对输入数据的预处理对算法存在直接影响;而对计算算法的检验、判定计算算法输出的置信度,也与输入数据直接相关,不可或缺。
显然,对输入数据的预处理至关重要,其要素包括(但不限于):
(1)数据来源的场景(环境)以及数据采集的方式(模式);
(2)数据的分类、标识以及定性和量化的表征;
(3)数据的常规、常态、涌现、随机的特点特性特征的差分;
(4)数据的时序,以及相应的回归、归纳、溯源、甄别;
(5)数据的多元多源的相关性和关联性。
因而,计算模型和算法应提供其输入数据特征及属性调整和变化的接口,既保证算法复杂性的可收敛(如输入数据的降维),又必须具备鲁棒性和弹性。
3)数据预处理的问题及挑战
在大数据的环境中,必然存在着"已知"、"已知的未知"、"未知的未知"。例如,对灵隐寺的"机智过人"算法,已知三年中每天入园游客数;已知的未知是三年中每天曾发生过什么客观事件(外部的环境因素);未知的未知是这些客观事件对入园游客数的影响程度、概率及其关联性。
因而,挑战是:如何发现"已知的未知";困难是:如何应对"未知的未知";尤其是,当预测预判未来,如何假设"已知的未知"和"未知的未知"。
对此,深度的研究必须依赖于理论基础,当且仅当理论与具体实践相结合,"人工智能"(或"智慧大脑")才能得以持续发展,缓解"惯性"使然。
"人工智能"是数字现代化的发展必然和应用趋势,而且是一个通用的术语。但是,必须注意到,"人工智能"在不同的应用场景具有不同的内涵和目标目的、方式方法、模式形式,以及不同的问题和挑战。例如:
谷歌的阿尔法围棋(AlphaGo)是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能机器人,其主要工作原理是"深度学习"(从16万场人类对弈的围棋比赛中学习数百万棋谱),且至少存在三个显着的特点:
(1)边界明确,即对弈的规则。虽然只有两个非常简单的规则,而其复杂性却是难以想象的,一共有 10170(10 的 170 次方)种可能性,没有办法穷举出围棋所有的可能结果。(观点:规则作为边界,规则越简单,状态复杂性越高。)
(2)没有噪音。对弈的范围清晰,棋盘上有纵横各 19 条直线将棋盘分成 361 个交叉点;黑白二色圆形棋子,胜者没有直接明确的目标,完全是凭直觉。(观点:确定的和不确定的环境因素,都将直接影响目标定位的复杂性。)
(3)赢在全局。几乎没有一个合适的评价函数来定义谁是赢家,围棋作为建设性的游戏,开始的时候,棋盘是空的,慢慢的下棋双方把棋盘填满,每一个棋子都对棋局有着"牵一发而动全身"的影响,而且必须评估未来可能会发生什么才能评估当前局势。(观点:事前是通过数值网络的预测;事后是通过决策网络的归纳;事中是预测和归纳的综合)。
由此可见,对于"人工智能":人工智慧是充分条件(即算法是由人设计和操控,且理论是基础),应用场景是必要条件(即数据的采集、分类及其关联)。