管理数据生命周期是自动驾驶汽车开发的关键部分……
毫无疑问,自动驾驶汽车开发成为热门话题。完全无人驾驶的想法标志着机器人时代最激进的概念之一。不仅需要正确的技术来实施,而且所有使用道路以及参与道路和交通管理的人的思维方式都将发生重大变化。当然,安全是主要的考虑因素,这就是为什么一旦发生事故便成为头条新闻。
然而,在大家争论和不断涌现的头条新闻的背后,是另一个经常被忽视的故事:自动驾驶汽车成功地融入城市和社会很大程度上依赖于数据。实际上,从自动测试车辆收集的数据,为“训练”车辆通过诸如机器学习(ML)之类的技术自动执行提供了基础。
具有挑战性的用例
鉴于操作车辆要面对的大量真实世界变量以及针对错误安全要求的相关零容忍度,自动驾驶是可想象的最具挑战性的机器学习用例之一。该应用的成功将直接推动更多要求不高的用例,这就是为什么自动驾驶汽车的发展在许多不同领域(尤其是智慧城市)具有影响的原因。
从自动驾驶汽车的角度来看,关键的机器学习需求涉及训练“感知层”,这意味着使用传感器(无线电、摄像机、激光雷达、惯性测量单元等)来准确“查看”车辆遇到的状况。这是至关重要的,因为采取的任何措施(例如指示车辆进行路径调整)都将取决于准确的感知层视觉。
自动驾驶开发可能会驱动未来用例的原因之一是,训练该重要感知层的机器学习模型和神经网络在种类繁多的大型数据集上表现最佳。而自动驾驶汽车则依赖于庞大的数据集。此外,它还依赖于传统的汽车工程专业知识,但是制造自动驾驶汽车所需的平均数据量估计约为150 PB。简而言之,这既是数据分析又是机器学习的挑战,而不仅仅是机械工程方面的挑战。
需要收集和处理的数据量需要高级的数据管理功能,包括数据湖和对数据生命周期的清晰理解。未来的用例不仅取决于对数据管理和处理的理解,还取决于数据可以带来的机会。
从历史上看,由于与管理生命周期本身相关的工作量、成本和时间,分散的数据管理生命周期限制了扩展新用例的能力。通过优化生命周期,可以更快、更频繁地重复它,从而提供对机器学习模型的持续改进。
共同努力
为此,汽车制造商、城市和其他利益相关者必须共同努力,并在瞬息万变的环境中利用最新的硬件和软件技术。掌握物联网和机器学习数据分析生命周期所需的功能超出了任何一家公司的范围。因此,基于标准和合作伙伴基于生态系统的方法对于巩固真正转变智慧城市和互联社区的能力至关重要。
这种合作水平对于建立解决方案至关重要,因为联合项目会同时产生标准和可重复使用的模式。作为最近的一个例子,Cloudera参与了一项名为Project Fusion的计划,该计划是一个多方汽车行业技术合作,旨在定义一个数据生命周期平台,以启用和优化未来的互联和自动驾驶汽车系统。合作伙伴的目标是构建一种提供数据管理技术的车辆到云解决方案。
共同努力还将确保在自动驾驶汽车开发中最大程度地利用大数据和机器学习的其他一些障碍,并且可以解决其他用例。需要从系统中消除浪费和低效率,以减少管理生命周期的成本和时间。
至关重要的是,必须面对潜在的数据隐私问题。如前所述,对自动驾驶汽车进行驾驶训练取决于现实世界中记录的训练数据。因此,解决方案提供商必须注意不要收集和存储私人信息,例如驾驶员的脸孔和车牌号。
在收集和存储此信息之前,必须提供编辑这些信息的功能。这需要强大的数据处理能力来识别和过滤隐私数据。此外,收集的任何信息都必须遵守诸如欧盟的《通用数据保护条例》和美国的《加州消费者隐私法》之类的规定。
实时决策
机器学习对于帮助城市、技术供应商和其他利益相关者超越简单的监视和报告来自传感器和其他设备的数据,进而基于其做出优化的实时决策至关重要。以运输为例。
监视交通状况并报告拥堵正在发生这一事实是一回事,但利用机器学习通过建议主动地引导市民(例如建议替代路线或主动建议出行者在不同时间出行)是一种更具吸引力的价值主张。使用机器学习,这些可以既基于实时条件又可以基于过去的经验。
我们所知道的是,自动驾驶可以教会我们很多有关机器学习的潜力,并引导我们开发许多新应用
主动、优化和实时的决策是机器学习优势的标志,而我们才刚刚开始。关于机器学习的潜力,我们还有很多要学习的东西,并且它的许多未来用例超出了我们当前的想象。
我们所知道的是,自动驾驶可以向我们教会很多有关其潜力的知识,并引导我们走向许多新的应用领域。我们需要确保的基础和生态系统已经到位,以了解高级数据管理和数据生命周期的重要性,从而不会错过任何机会。