微软将开源数据集 提高机器的阅读理解能力

开发 前端
这项开源计划也是微软进一步发展其人工智能的举重要措。微软一直以来都在打造基于机器学习和人工智能的Azure云平台,同时在Office和Windows中也加入了一些人工智能的特性。本周早些时候,微软推出了QnA Maker云服务,用于降低开发者研制问答聊天机器人的难度。

据外媒报道,微软将发布免费的数据集来帮助机器创建更多的对话。

[[179249]]

该数据集名为微软机器阅读理解数据集(简称MS MARCO),包含有10万条英文查询及对应回答。用来帮助人工智能系统更好地理解人类语言。

微软合作伙伴集团项目经理Rangan Majumder在周五的一篇博客中提到,微软将免费开放MS MARCO,并希望能够与其他机构合作来更好地提高机器的阅读理解能力。

数据集中的资料来源于必应搜索和Cortana,并做相应的匿名处理。对问题的回答则是基于互联网、人类手工编写以及经过验证的信息。这些查询和回复将用于建立深度学习模型。

当前,该数据集将对非商业用途的用户提供免费下载。同其他人工智能数据集开源计划类似,微软也将采用同样的方式开源MS MARCO。

其中的一项是ImageNet,可用于训练图像识别算法的图片标记数据库。微软此前在开发图片识别技术时用到ImageNet,现在又用该数据库来强化微软计算机视觉API等产品。如果想了解更多有关MS MARCO的信息,可下载其研发团队发表的论文。该团队还在进行另外一项挑战,用MARCO的数据来评估训练模型,而评估脚本也还在研发中。

这项开源计划也是微软进一步发展其人工智能的举重要措。微软一直以来都在打造基于机器学习和人工智能的Azure云平台,同时在Office和Windows中也加入了一些人工智能的特性。本周早些时候,微软推出了QnA Maker云服务,用于降低开发者研制问答聊天机器人的难度。

责任编辑:张燕妮 来源: 网易科技
相关推荐

2024-01-12 13:38:54

业务购物ToC

2023-08-08 10:06:25

微软大语言模型

2019-01-10 13:50:04

开发工具 AI

2024-01-19 09:10:25

微软AI阅读教练

2018-02-26 12:55:00

2021-08-16 10:39:08

程序员技能开发者

2024-02-26 14:34:53

2023-09-27 07:39:57

大型语言模型MiniGPT-4

2017-06-22 09:30:40

深度学习机器阅读数据集

2013-11-27 11:08:28

开源微软

2022-03-18 10:23:11

元宇宙ARVR

2016-10-26 19:33:45

数据分析大数据

2019-04-03 13:00:27

CSSBFC前端

2012-03-12 17:20:38

微软Mayhem开源

2018-05-17 14:29:17

数据中心运营DCIM

2014-03-12 09:01:45

2018-07-10 07:29:12

数据中心运营IT

2022-05-24 09:57:32

微软开源AI 驱动

2021-06-22 14:15:03

人工智能AI

2023-02-28 12:38:22

谷歌数据集机器翻译
点赞
收藏

51CTO技术栈公众号