谷歌刚刚发布了2500万个免费数据集,快来了解一下

开发 开发工具 大数据
最近,谷歌发布了免费工具datasetsearch,它可以搜索2500万个公开可用的数据集。搜索工具包括过滤器,可基于许可证(免费或付费)、格式(csv,图像等)和更新时间限制结果。

[[316672]]

来源:Pexels

 

注意:谷歌的新数据集搜索工具已于2020年1月23日问世。

疫情防控阶段,大家的“寒假“越过越长,这么“长”时间的寒假能做些什么呢?

最近,谷歌发布了免费工具datasetsearch,它可以搜索2500万个公开可用的数据集。

搜索工具包括过滤器,可基于许可证(免费或付费)、格式(csv,图像等)和更新时间限制结果。

结果还包括对数据集内容的描述以及作者的引用。

谷歌的数据集聚合方法不同于其他数据集存储库(如亚马逊的开放数据注册表)。与其他自行管理和托管数据集的存储库不同,谷歌不会直接管理或提供2500万个数据集的访问权限。

取而代之的是,谷歌依靠数据集发布者,使用 schema.org的开放标准描述其数据集的元数据。然后,谷歌索引元数据,并使其在发布者之间可搜索。

发布者仍需自己托管数据集,因此符合schema.org标准的营利性发布者也将使用谷歌为其数据集建立索引。根据以往经验,笔者发现,搜索与市场相关的数据集时,其百分比更高,搜索结果中约有一半的数据集来自营利性聚合器。

该平台上其他受欢迎的数据集发布者包括政府机构和研究机构。谷歌声称,仅美国政府机构就已经发布了超过200万个数据集。

据谷歌统计,大多数数据集涉及”地球科学、生物学和农业领域。”

简单使用schema.org的开放标准即可发布自己的数据集。越来越多的出版商遵守该标准,公开可用的数据集的数量可能会持续增长。

目前,谷歌未提供用于搜索或下载免费数据集的API。

网上数百万个数据集出没

在网络上,用户感兴趣的任何主题,几乎都有数百万个数据集。如果想购买一只小狗,可以查找数据集来汇总买家的投诉或查找对小狗认知度的研究。或者,如果喜欢滑雪,可以查找有关滑雪胜地收入或受伤率及受伤人数的数据。Dataset Search 已为其中近2500万个数据集建立了索引,可以在一个地方搜索数据集并查找指向数据所在位置的链接。在过去一年里,人们对其进行尝试并提供了反馈,现在DatasetSearch正式退出测试版。

查询“滑雪”的一些搜索结果,涉及最快滑雪者的速度以及滑雪胜地收入的数据集。

Dataset Search有何创新之处?

根据从DatasetSearch早期试用版中得到的反馈,开发者添加了新功能。现在,根据所需的数据集类型(例如表格、图像、文本)或是否可以从提供商处免费获得数据集,就可以过滤结果。如果数据集是关于某个地区的,可以查看地图。另外, 该产品现在可以在移动设备上使用,并且数据集描述的质量得到了极大改善。然而,一件事情没有改变:发布数据的任何人都可以使用开放标准(schema.org)在自己的网页上描述其数据集的属性,从而使人们在搜索中可以发现数据集。

开发者还了解到有不同类型的人在寻找数据。有一些学术研究人员正在寻找可以支持其假设的数据(例如:尝试催产素)、学生查找表格形式并涵盖其高级论文主题的免费数据(例如:尝试使用相应过滤器的监禁率)、业务分析师和数据科学家寻找有关移动应用程序或快餐店等的信息。所有这些都有数据!用户都搜索什么呢?最常见的查询包括“教育”、“天气”、“癌症”,“犯罪”、“足球”和“狗”。

上图为查询“快餐店”的一些搜索结果。

在Dataset Search里有哪些数据集?

Dataset Search还提供了网上数据的快照。此处有一些亮点。数据集涵盖的最大主题是地球科学、生物学和农业。世界上大多数国家的政府都会发布数据,并使用schema.org对其进行描述。美国可用的开放政府数据集超过200万,在数量上遥遥领先。最受欢迎的数据格式是什么?用户可以在DatasetSearch中找到超过600万张表格。

在Dataset Search中找到的数据集数量持续增加。如果站点上有一个数据集,并使用开放标准schema.org对其进行了描述,其他人可以在DatasetSearch中找到它。如果知道一个数据集存在,但是在DatasetSearch中找不到它,请要求提供者添加schema.org描述,其他人也将了解他们的数据集。

未来何去何从?

DatasetSearch已退出测试版,但无论产品是否有“测试版”,改进都将继续。快下载体验DatasetSearch吧!

责任编辑:未丽燕 来源: 今日头条
相关推荐

2024-04-16 13:34:26

JSONMsgpack存储

2021-12-15 10:29:44

iOS苹果系统

2023-10-08 10:37:48

springweb版本

2024-10-31 13:49:04

2024-11-13 09:25:25

2024-04-11 12:19:01

Rust数据类型

2021-01-18 05:19:11

数字指纹

2024-09-19 09:30:39

缓存框架抽象

2020-03-01 17:53:38

Excel大数据微软

2022-03-24 13:36:18

Java悲观锁乐观锁

2020-12-10 08:44:35

WebSocket轮询Comet

2019-11-27 11:27:52

分布式存储系统

2021-01-21 10:23:43

数据库架构技术

2018-07-11 15:04:16

人工智能知识图谱

2020-12-01 17:46:24

FossilGit

2018-06-05 17:40:36

人工智能语音识别

2015-10-23 17:09:27

Snappy Ubun

2017-12-14 16:55:33

2018-07-27 23:45:08

数据中心机房设计IDC

2019-02-20 14:16:43

点赞
收藏

51CTO技术栈公众号