大数据文摘作品
编译:晚君、VVN、张礼俊、云舟
奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表(原始未结构化的文本数据),快去按图索骥下载数据自己研究吧!
数据集
1. Apache软件基金会公开邮件档案:截止到2011年7月11日全部公开可用的Apache软件基金会邮件档案。(200 GB)
http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/
2. 博主原创语料库:包含2004年8月从blogger.com网站收集的19,320位博主的帖子。681,288个帖子以及140多万字。(298 MB)
http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
3. 亚马逊美食评论[Kaggle]:包含亚马逊用户在2012年10月前留下的568,454条食评。(240MB)
https://www.kaggle.com/snap/amazon-fine-food-reviews
4. 亚马逊评论:斯坦福收集了3500万条亚马逊评论。(11GB)
https://snap.stanford.edu/data/web-Amazon.html
5. ArXiv上:所有收录论文全文(270GB)+源文件(190GB)
http://arxiv.org/help/bulk_data_s3
6. ASAP自动作文评分[Kaggle]:在本次比赛中,有8个作文集。每个作文都由一个单独提示所得回答所生成。所选作文长度为150到550个字不等。部分作文依赖于源信息,而另其他则不是。所有论文都是由7年级到10年级的学生所写。所有的作文都由人工打分,并采用双评分制。(100MB)
https://www.kaggle.com/c/asap-aes/data
7. ASAP简答题评分[Kaggle]:每个数据集都是由单个提示所得回答生成的。所选回答的平均长度为50个字。某些回答依赖于源信息,而其他则不是。所有回答由10年级学生所写。所有回答均为人工打分,并采用双评分制。(35MB)
https://www.kaggle.com/c/asap-sas/data
8. 政治社交媒体分类:按内容分类来自政客的社交媒体消息。(4MB)
https://www.crowdflower.com/data-for-everyone/
9. CLiPS文体学研究(CSI)语料库:每年扩展两种类型的学生写作:文章和综述。这个语料库的目的主要在于文体学研究,当然也可用于其他研究。(数据集需要申请获得)
http://www.clips.uantwerpen.be/datasets/csi-corpus
10. ClueWeb09 FACC:带有Freebase注释的ClueWeb09(72GB)
http://lemurproject.org/clueweb09/FACC1/
11. ClueWeb11 FACC:带有Freebase注释的ClueWeb11(92GB)
http://lemurproject.org/clueweb12/FACC1/
12. 常见爬虫语料库:由超过50亿个网页(541TB)爬虫数据构成。
http://aws.amazon.com/de/datasets/common-crawl-corpus/
13. 康奈尔电影对话语料库(Cornell Movie Dialog Corpus):包含大量丰富的元数据,从原始电影剧本中提取的对话集合:617部电影,10,292对电影人物之间的220,579次会话交流。(9.5MB)
http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html
14. 企业信息:分类企业在社交媒体上到底谈论了什么的工作。要求志愿者将企业陈述分类为信息(关于公司或其活动的客观陈述),对话(回复用户等)或行动(要求投票或要求用户点击链接等的信息)。(600KB)
http://aws.amazon.com/de/datasets/common-crawl-corpus/
15. Crosswikis:关联英语短语与维基百科文章的数据库。(11GB)
http://nlp.stanford.edu/data/crosswikis-data.tar.bz2/
16. 一个网络社区关于从维基百科中提取结构化信息并使得此信息在网络上可用的共同成果。(17GB)
http://aws.amazon.com/de/datasets/dbpedia-3-5-1/?tag=datasets%23keywords%23encyclopedic
17. Death Row:自1984年以来处决的每个犯人的遗言。(HTML表格)
http://www.tdcj.state.tx.us/death_row/dr_executed_offenders.html
18. Del.icio.us:delicious.com上的125万个书签。
http://arvindn.livejournal.com/116137.html
19. 社交媒体上的灾难推文:1万条推文,注释了是否涉及灾难事件。(2MB)
https://www.crowdflower.com/data-for-everyone/
20. 经济新闻相关文章:确定新闻文章与美国经济是否相关,如果相关,文章的基调是什么。时间范围从1951年到2014年。(12MB)
https://www.crowdflower.com/data-for-everyone/
21. 安然公司电子邮件数据:包含1,227,255封电子邮件,其中493,384个附件覆盖151位管理者。(210GB)
http://aws.amazon.com/de/datasets/enron-email-data/
22. 事件注册:免费工具,可以实时访问全球100,000个媒体的新闻文章。有API接口。(查询工具)
http://eventregistry.org/
23. Examiner.com—用新闻头条钓鱼的垃圾邮件[Kaggle]:现已停用的钓鱼网站The Examiner从2010年到2015年发布的3百万众包新闻头条。(200MB)
https://www.kaggle.com/therohk/examine-the-examiner
24. 联邦采购数据中心的联邦合同(USASpending.gov):来自USASpending.gov的联邦采购数据中心所有联邦合同的数据库。(180GB)
http://aws.amazon.com/de/datasets/federal-contracts-from-the-federal-procurement-data-center-usaspending-gov/
25. Flickr个人分类法:个人标签的树结构数据集。(40MB)
http://www.isi.edu/~lerman/downloads/flickr/flickr_taxonomies.html
26. Freebase数据库:Freebase中所有当前事实和推断的数据库(26GB)
http://aws.amazon.com/de/datasets/freebase-data-dump/
27. Freebase简单主题库:Freebase中每个主题中基本的可识别事实的数据库(5GB)
http://aws.amazon.com/de/datasets/freebase-simple-topic-dump/
28. Freebase四元库:Freebase中所有当前事实和推断的数据库[LZ1]。(35GB)
http://aws.amazon.com/de/datasets/freebase-quad-dump/
29. GigaOM Wordpress挑战赛[Kaggle]:博客文章,元数据,用户喜好。(1.5GB)
https://www.kaggle.com/c/predict-wordpress-likes/data
30. 谷歌图书n元语法:也可通过亚马逊S3上hadoop格式文件获取。(2.2TB)
http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
31. 谷歌网页5元语法:含有英文单词的n元序列,及其观测频率计数(24GB)
https://catalog.ldc.upenn.edu/LDC2006T13
32. Gutenberg电子书清单:带注释电子书清单(2MB)
http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs
33. 加拿大议会文本块:来自加拿大第36届议会正式记录(Hansards)的130万标准文本块(句子或更小的片段)。(82MB)
http://www.isi.edu/natural-language/download/hansard/
34. 哈佛图书馆:超过1,200万册哈佛图书馆所藏资料的书目记录,包括书籍,期刊,电子资源,手稿,档案资料,乐谱,音频,视频和其他资料。(4GB)
http://library.harvard.edu/open-metadata#Harvard-Library-Bibliographic-Dataset
35. 仇恨言论识别:志愿人查看短文,并确定它是否a)包含仇恨言论,b)冒犯性的,但没有仇恨言论,或c)一点也没有冒犯性。包含近15千行,每个文本字符串有三个志愿者判断。(3MB)
https://github.com/t-davidson/hate-speech-and-offensive-language
36. 希拉里克林顿的电子邮件[Kaggle]:整理了近7,000页克林顿的电子邮件。(12MB)
https://www.kaggle.com/kaggle/hillary-clinton-emails
37. 家得宝公司产品搜索关联[Kaggle]:包含家得宝公司网站的许多产品和客户搜索条款。挑战是预测搜索条目组合和产品的相关性分数。为了创建真实标签,家得宝公司将搜索/产品配对众包给多个评分者打分。(65MB)
https://www.kaggle.com/c/home-depot-product-search-relevance/data
38. 确定文本中的关键短语:问题/答案对和文本组成;判断上下文文本是否与问题/答案相关。(8MB)
https://www.crowdflower.com/data-for-everyone/
39. 美国电视节目‘危险’:216930个过去出现在‘危险’节目的问题合集。(53MB)
http://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/
40. 200k英语明文笑话:208000种不同来源的明文笑话存档。
https://github.com/taivop/joke-dataset
41. 欧洲语言机器翻译:(612MB)
http://statmt.org/wmt11/translation-task.html#download
42. 材料安全数据表:230000材料安全数据表。(3GB)
http://aws.amazon.com/de/datasets/material-safety-data-sheets/
43. 百万新闻头条-澳大利亚ABC[Kaggle]:由澳大利亚ABC新闻发布的从2003到2017年的130万新闻。(56MB)
https://www.kaggle.com/therohk/million-headlines
44. MCTest:可免费使用的660个故事集和相关问题,可用于研究文本机器理解、问答(1MB)。
http://research.microsoft.com/en-us/um/redmond/projects/mctest/index.html
45. Negra:德国报纸文本的语法标注语料库。可供所有大学及非营利机构免费使用。需要签署协议并发送申请才能获得。
http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.html
46. 新闻头条-印度时报[Kaggle]:印度时报发表的从2001到2017年的270万类新闻头条。(185MB)
https://www.crowdflower.com/data-for-everyone/
47. 新闻文章/维基百科页面配对:志愿者阅读一篇短文,被问及最匹配的两篇维基百科文章是哪一篇。(6MB)
https://www.kaggle.com/benhamner/nips-2015-papers/version/2
48. 2015 NIPS论文(版本2)[Kaggle]:所有2015年nips论文全文。(335MB)
https://www.kaggle.com/benhamner/nips-2015-papers/version/2
49. 纽约时报脸谱网数据:所有纽约时报在脸谱网的帖子。(5MB)
http://minimaxir.com/2015/07/facebook-scraper/
50. 全球新闻一周供稿[Kaggle]:在2017年8月的一周,用20多种语言全球发表的140万篇新闻事件数据集。(115MB)
https://www.kaggle.com/therohk/global-news-week
51. 句子/概念对的正确性:志愿者读关于两个概念的句子。例如,“狗是一种动物”,或者“船长可以和主人有同样的意思”,然后他们被问到这个句子是否正确,并将其1-5评级。(700KB)
https://www.crowdflower.com/data-for-everyone/
52. 公开图书馆数据库:公开图书馆中所有记录的修改合集。(16GB)
https://openlibrary.org/developers/dumps
53. 人物语料库:收集了作者文章风格和个性预测的实验。由145名学生的145篇荷兰语文章组成。(获得需要申请)
http://www.clips.uantwerpen.be/datasets/personae-corpus
54. Reddit评论:截至2015年7月,reddit论坛所有公开的评论。共计17亿条评论。(250GB)
https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/
55. Reddit评论(2015年5月):Kaggle子数据集(8GB)
https://www.kaggle.com/reddit/reddit-comments-may-2015
56. Reddit提交语料库:2006年1月-2015年8月31日所有公开可得的Reddit提交内容。(42GB)
https://www.reddit.com/r/datasets/comments/3mg812/full_reddit_submission_corpus_now_available_2006/
57. 路透社语料库:一个包含路透社新闻报道的数据集,用于自然语言处理的研究开发、信息检索和机器学习系统。该语料库又被称为“路透社语录1”或RCV1,它远远大于原来在文本分类中被广泛使用的著名的路透社21578数据集。该语料库数据需要通过签署协议和发送邮件获取。(2.5GB)
https://trec.nist.gov/data/reuters/reuters.html
58. SaudiNewsNet:31030条从不同沙特阿拉伯的网络报纸上摘取的标题和元数据。(2MB)
https://github.com/ParallelMazen/SaudiNewsNet
59. 垃圾短信数据集:5574条被标记为合法/不合法的、未经编码的真实英文短信消息。(200KB)
http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
60. 《南方公园》数据集:csv格式文件,包含季、集、角色和台词的剧本信息。(3.6MB)
https://github.com/BobAdamsEE/SouthParkData
61. Stackoverflow:730万条stackoverflow问题和其他stackexchange(问答工具)上的问答。
http://data.stackexchange.com/
62. Twitter的Cheng-Caverlee-lee用户定位数据集:2009年9月-2010年1月的推文定位。(400MB)
https://archive.org/details/twitter_cikm_2010
63. Twitter上关于新英格兰爱国者队“放气门”事件的舆情:在2015年超级碗比赛前,人们对被放了气的橄榄球以及爱国者队是否存在欺骗行为议论纷纷。该数据集提供了丑闻发生的这段时间里Twitter上的舆情,以便评估公众对整个事件的感受。(2MB)
https://www.figure-eight.com/data-for-everyone/
64. Twitter上对于左倾相关事件的舆情分析:关于堕胎合法化、女权主义、希拉里·克林顿等各种左倾相关事件的推文,推文将根据内容推断被分类为For(支持)、Against(反对)、Neutral(中立)或None of the above(以上都不是)。(600KB)
https://www.figure-eight.com/data-for-everyone/
65. Twitter的Sentiment140(情感分析数据集):关于品牌/关键词的推文,网站包括论文和研究想法。(77MB)
http://help.sentiment140.com/for-students/
66. Twitter上关于自动驾驶汽车的舆情分析:贡献者们阅读推文后,将推文里对于自动驾驶的态度分为非常积极、较积极、中立、较消极和非常消极。如果推文与自动驾驶汽车无关,他们也要标记出来。(1MB)
https://www.figure-eight.com/data-for-everyone/
67. Twitter上定位于东京的推文:20万条来自东京的推文。(47MB)
http://followthehashtag.com/datasets/200000-tokyo-geolocated-tweets-free-twitter-dataset/
68. Twitter上定位于英国的推文:17万条来自英国的推文。(47MB)
http://followthehashtag.com/datasets/170000-uk-geolocated-tweets-free-twitter-dataset/
69. Twitter上定位于美国的推文:20万条来自美国的推文。(45MB)
http://followthehashtag.com/datasets/free-twitter-dataset-usa-200000-free-usa-tweets/
70. Twitter上对于美国各大航空公司的态度(Kaggle数据集):这是一个对于美国各大航空公司存在问题的情感分析任务。该数据集爬取了2015年2月的推文,贡献者们将其分类为积极、消极和中立,对于那些分类为消极态度的推文,还会给出原因(例如“飞机晚点”或“服务态度差”等)。(2.5MB)
https://www.kaggle.com/crowdflower/twitter-airline-sentiment
71. 基于新闻标题的美国经济表现:根据新闻标题头条和摘要,对新闻和美国经济的相关性进行排序。(5MB)
https://www.figure-eight.com/data-for-everyone/
72. 城市词典(美国在线俚语词典)里的单词和定义:一个经过清洗的CSV语料库,包含截至2016年5月的城市词典内所有260万个词汇、定义、作者和投票情况。(238MB)
https://www.kaggle.com/therohk/urban-dictionary-words-dataset
73. 亚马逊的Wesbury Lab Usenet语料库:2005-2010的47,860个英文新闻组的邮件匿名汇编(40GB)
http://aws.amazon.com/de/datasets/the-westburylab-usenet-corpus/
74. 维基百科的Wesbury Lab语料库:2010年4月维基百科英文部分中所有文章的快照。网站详细描述了数据是如何被处理的——即去除所有链接和不相关的材料(如导航文本等)。语料库是未经标记的原始文本,它被用于Stanford NLP。
http://www.psych.ualberta.ca/~westburylab/downloads/westburylab.wikicorp.download.html
75. Stanford NLP跳转的链接:
https://scholar.google.com/scholar?oi=bibs&hl=en&cites=9060444488071171966&as_sdt=5
76. 维基百科提取(WEX):经处理后的英文版维基百科(66GB)
http://aws.amazon.com/de/datasets/wikipedia-extraction-wex/
77. 维基百科的XML格式数据:所有维基媒体(Wikimedia)的完整复制,以维基文本元(wikitext source)和元数据的形式嵌入到XML中。(500GB)
http://aws.amazon.com/de/datasets/wikipedia-xml-data/
78. 雅虎问答中的综合问题与答案:截至2007年10月25日的雅虎问答语料库,包含4,483,032条问答。(3.6GB)
http://webscope.sandbox.yahoo.com/catalog.php?datatype=l
79. 雅虎问答中用法语提问的问题:2006-2015年雅虎问答语料库的子数据集,包含170万条法语问答。(3.8GB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
80. 雅虎问答中的关于“如何做”的问题[LZ2]:根据语言属性从2007年10月25日雅虎问答语料库选出的子集,包含142,627条问答。(104MB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
81. 雅虎从公开网页中提取的HTML格式页面:包含少量复杂HTML格式的页面和267万个复杂格式的页面。(50+ GB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
82. 雅虎从公开网页页面中提取的元数据:1亿个RDF格式数据的三元组(2GB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
83. 雅虎的N元语法模型表示(N-Gram Representations)数据:该数据集包含N元语法表示数据,这些数据可以用于IR研究中常见的查询重写(query rewriting)任务,也可以用于NLP研究中常见的词语和句子相似性分析任务。(2.6GB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
84. 雅虎的N元语法模型数据(版本2.0):n元语法模型数据(n=1-5),从一个包含1460万个文档(1.26亿条不重复的语句,34亿个运行词)的语料库中提取,这些文档是从12000个面向新闻的站点里爬取的(12 GB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
85. 雅虎搜索日志的相关性判断:匿名雅虎搜索日志的相关性判断(1.3GB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
86. 雅虎的英语维基百科语义注释快照:包含从2006年11月4日开始的经一些公开的NLP工具处理后的英文维基百科,共有1,490,688个条目。(6GB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
87. Yelp:包含餐厅排名和220万条评论
https://www.yelp.com/dataset
88. Youtube:170万条YouTube视频描述(torrent格式)
https://www.reddit.com/r/datasets/comments/3gegdz/17_millions_youtube_videos_description/
资源
89. 优秀的公开NLP数据集(包含更多清单)
https://github.com/awesomedata/awesome-public-datasets
90. 亚马逊公开数据集
https://aws.amazon.com/de/datasets/
91. CrowdFlower数据集(包含大量小调查和对特定任务以众包方式获得的数据)
https://www.crowdflower.com/data-for-everyone/
92. Kaggle数据集
https://www.kaggle.com/datasets
93. Kaggle比赛(请确保这些kaggle比赛数据可以在比赛之外使用)
https://www.kaggle.com/competitions
94. 开放图书馆
https://openlibrary.org/developers/dumps
95. Quora(大部分为已标注好的语料库)
https://www.quora.com/Datasets-What-are-the-major-text-corpora-used-by-computational-linguists-and-natural-language-processing-researchers-and-what-are-the-characteristics-biases-of-each-corpus
96. reddit数据集(无数个数据集,大部分由业余爱好者爬取,但数据的整理和许可可能不够规范)
https://www.reddit.com/r/datasets
97. Rs.io:也是一个很长的数据集清单
http://rs.io/100-interesting-data-sets-for-statistics/
98. Stackexchange:公开数据
http://opendata.stackexchange.com/
99. 斯坦福NLP组(大部分为已标注的语料库和TreeBanks,以及实用的NLP工具)
https://nlp.stanford.edu/links/statnlp.html
100. 雅虎研究院的数据集汇总Webscope(还包含了使用了这些数据的论文列表)
http://webscope.sandbox.yahoo.com/
相关报道:https://github.com/niderhoff/nlp-datasets/blob/master/README.md
【本文是51CTO专栏机构大数据文摘的原创译文,微信公众号“大数据文摘( id: BigDataDigest)”】