随着人工智能技术的不断发展,从智能家居到智能驾驶,从气象诊断到金融风控,AI的应用范围越来越广泛,其带来的效益也越来越显著。大模型的训练需要企业提供海量的训练数据,对安全和隐私保护要求极高,而目前大模型的数据还需要大量的人工标注。
9月21日,华为全联接大会2023上,华为云CTO张宇昕分享了华为云AI标注云桌面为标注行业,提供安全高效的解决方案以及应用实践。
华为云CTO 张宇昕
以汽车智能驾驶为例,在智驾过程中,智能驾驶系统根据周边环境信息,如其他车辆、红绿灯、行人等数据反馈,做出具体行为决策,如刹车、变道、超车等行为。要训练出一套合格的感知算法,让汽车处理更多、更复杂的场景,就需要有海量、准确、高质量的道路场景数据,由专业人员对数据进行标注,将其转化为支撑算法训练的数据。
然而,智能驾驶标注数据包含大量的地理信息3D点云、地理信息、轨迹等,大量涉及地理要素和场所位置信息,国家法规要求严格管控。当前,通过大模型,车企已经可以对这些敏感数据进行智能标注,然而,至少还有10%的数据需要由标注人员进行微调和手工标注。在这整个过程中,数据安全、标注效率、标注质量,无疑是车企最为关注的3大核心要素。
在数据安全方面,智能驾驶标注的海量地理数据都是敏感数据,以往的数据标注通过浏览器或客户端进行,仍存在浏览器及本地缓存数据导致数据泄露的风险。现在,华为云提供安全合规的云上汽车专区,可实现数据存储、标注,模型训练、仿真、部署全云上完成。通过AI标注云桌面,进一步保障数据标注环节的敏感数据不落地。
数据标注作为劳动密集型产业,往往通过第三方专业标注外包完成标注任务。为了满足数据安全要求,企业要求标注人员集中到办公区办公并部署隔离网络,或者给异地的外包团队开通企业内网专线,成本高昂。通过华为云AI标注云桌面,分散在全国各地的标注员均可接入到安全的标注环境中,进入通过标注平台进行安全标注。针对智能驾驶点云标注这类对显卡有要求的标注场景,还可以通过GPU云应用降低企业标注终端的成本。
在标注效率方面,3D点云、图片、视频等在本地加载都要缓存,20M左右的标注数据往往要等待4到5秒才能加载完成。尤其是3D点云,一旦进行拖动,部分数据还需重新加载。现在华为云上数据互通,云端实时加载,结合华为云HDP高清显示协议毫秒级传输,可即时加载高清图片和视频,实现图像本地显示时延降低50%以上,让标注员快速流畅标注。
在标注质量方面,当遇到模糊数据,如恶劣天气采集的路况图像,往往需要多人研判,确保数据标注精准无误。为了降低返工率,标注员一般通过即时消息软件与同事求助研判,有时还需要截图来解决标注难题,不仅低效,而且存在数据安全隐患。这个问题也可以通过华为云的多用户协同桌面解决,其协同能力可支持标注员一键拉起协同,由经验丰富的同事或专家进行标注操作,快速解决数据疑点,实现准确标注。
目前,华为云AI标注云桌面已经在华为智能汽车自动驾驶数据标注中使用,实现了7个城市的2000多名标注员跨地域在云上实现安全高效标注。
面向智能家居、安防、金融、互联网等行业,在图片、视频、语音等人工标注场景,AI标注云桌面也将以其安全、高效、协同的能力,助力人工智能不断向前。