数据是人工智能的核心。如果没有良好的数据,开发有用的人工智能模型的可能性微乎其微。考虑到这一点,美国商务部上周发布了一份公开请求,就如何更好地为构建生成式人工智能(GenAI)模型准备众多公共数据集征求意见。
美国商务部于4月17日发布了一份信息征询书(RFI),要求“行业专家、研究人员、民间社会组织和其他公众成员”就如何开发“支持人工智能的开放数据集”供公众使用提供帮助。
商务部自称为“美国数据机构”,负责收集、存储和分析有关美国的各种数据,包括有关经济、人口和环境的数据。对商业数据中心的快速搜索显示了超过122,000个可公开访问的数据集,其主题从气候和天气到专利再到人口普查信息。
随着多年来技术的变化和改进,该部门一直向私营企业和公共机构寻求帮助,以保持其数据管理和数据共享活动达到当前技术标准。通过机器可读格式或通过Web服务和API以电子方式访问数据都是使其数据服务适应时代的例子。
现在,随着GenAI革命的到来,该部门正在寻找最合适的数据定位,以便使用它来构建人工智能模型。
美国商务部首席数据官Oliver Wise在信息征询书中写道:“如今,随着人工智能技术的出现,商务部正面临一场新的技术变革,这些技术为用户提供了更好的信息和数据访问。”“商业对生成式人工智能(GenAI)应用程序特别感兴趣,它可以消化不同来源的文本、图像、音频、视频和其他类型的信息,以产生新的内容。GenAI和其他人工智能技术为商业等数据提供者和包括其他政府实体、行业、学术界和美国人民在内的数据用户带来了机遇和挑战。”
Wise表示,商务部面临的最大挑战是让人工智能开发人员在“不失去完整性”的情况下访问其数据,包括数据的质量。如今数据的“解释和使用”“不再仅仅由人类专家执行”。他表示,这种用于数据管理和使用的“共享学科知识”的丧失是一个大问题。
信息征询书中写道:“最近的人工智能系统接受了大量数字内容的训练,并根据内容的上下文属性生成响应。”“然而,这些系统并没有以一种有意义的方式真正‘理解’文本。”
未来的人工智能系统必须能够访问的数据不仅是机器可读的,而且是“机器可理解的”。“今天的人工智能系统从根本上受限于它们对大量非结构化数据存储的依赖,这些存储依赖于底层数据,而不是基于理解进行推理和判断的能力。”
商务部正在寻求帮助,以便在考虑到GenAI技术这些基本限制的情况下共享数据。它正在为可读和可理解的数据寻找新的数据传播标准,包括许可标准。在数据可访问性和检索方面,商务部希望得到关于如何使其数据更易于访问的建议,例如通过API或“网络爬虫”。
特别在如何使用利用元数据的知识图谱来更好地将人类术语与数据联系起来方面有需求。它还希望得到采用标准本体(如Schema.org或NIEM)的方向,以及知识图谱如何帮助“协调和链接”本体和词汇表。
该部门希望社区能够就如何推进这些数据标准化工作提供意见,同时在数据完整性、质量、安全性和道德方面保持最高标准。
Wise要求有兴趣的各方将他们的建议通过电子邮件发送,主题行为“AI-Ready开放数据资产信息征询书”。并希望在七月十六日之前收到有关这些议题的意见或反馈。