100+个自然语言处理数据集大放送，再不愁找不到数据！-自然语言数据预处理

[[228774]]

大数据文摘作品

编译：晚君、VVN、张礼俊、云舟

奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表(原始未结构化的文本数据)，快去按图索骥下载数据自己研究吧!

数据集

1. Apache软件基金会公开邮件档案：截止到2011年7月11日全部公开可用的Apache软件基金会邮件档案。(200 GB)

http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/

2. 博主原创语料库：包含2004年8月从blogger.com网站收集的19,320位博主的帖子。681,288个帖子以及140多万字。(298 MB)

http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

3. 亚马逊美食评论[Kaggle]：包含亚马逊用户在2012年10月前留下的568,454条食评。(240MB)

https://www.kaggle.com/snap/amazon-fine-food-reviews

4. 亚马逊评论：斯坦福收集了3500万条亚马逊评论。(11GB)

https://snap.stanford.edu/data/web-Amazon.html

5. ArXiv上：所有收录论文全文(270GB)+源文件(190GB)

http://arxiv.org/help/bulk_data_s3

6. ASAP自动作文评分[Kaggle]：在本次比赛中，有8个作文集。每个作文都由一个单独提示所得回答所生成。所选作文长度为150到550个字不等。部分作文依赖于源信息，而另其他则不是。所有论文都是由7年级到10年级的学生所写。所有的作文都由人工打分，并采用双评分制。(100MB)

https://www.kaggle.com/c/asap-aes/data

7. ASAP简答题评分[Kaggle]：每个数据集都是由单个提示所得回答生成的。所选回答的平均长度为50个字。某些回答依赖于源信息，而其他则不是。所有回答由10年级学生所写。所有回答均为人工打分，并采用双评分制。(35MB)

https://www.kaggle.com/c/asap-sas/data

8. 政治社交媒体分类：按内容分类来自政客的社交媒体消息。(4MB)

https://www.crowdflower.com/data-for-everyone/

9. CLiPS文体学研究(CSI)语料库：每年扩展两种类型的学生写作：文章和综述。这个语料库的目的主要在于文体学研究，当然也可用于其他研究。(数据集需要申请获得)

http://www.clips.uantwerpen.be/datasets/csi-corpus

10. ClueWeb09 FACC：带有Freebase注释的ClueWeb09(72GB)

http://lemurproject.org/clueweb09/FACC1/

11. ClueWeb11 FACC：带有Freebase注释的ClueWeb11(92GB)

http://lemurproject.org/clueweb12/FACC1/

12. 常见爬虫语料库：由超过50亿个网页(541TB)爬虫数据构成。

http://aws.amazon.com/de/datasets/common-crawl-corpus/

13. 康奈尔电影对话语料库(Cornell Movie Dialog Corpus)：包含大量丰富的元数据，从原始电影剧本中提取的对话集合：617部电影，10,292对电影人物之间的220,579次会话交流。(9.5MB)

http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html

14. 企业信息：分类企业在社交媒体上到底谈论了什么的工作。要求志愿者将企业陈述分类为信息(关于公司或其活动的客观陈述)，对话(回复用户等)或行动(要求投票或要求用户点击链接等的信息)。(600KB)

http://aws.amazon.com/de/datasets/common-crawl-corpus/

15. Crosswikis：关联英语短语与维基百科文章的数据库。(11GB)

http://nlp.stanford.edu/data/crosswikis-data.tar.bz2/

16. 一个网络社区关于从维基百科中提取结构化信息并使得此信息在网络上可用的共同成果。(17GB)

http://aws.amazon.com/de/datasets/dbpedia-3-5-1/?tag=datasets%23keywords%23encyclopedic

17. Death Row：自1984年以来处决的每个犯人的遗言。(HTML表格)

http://www.tdcj.state.tx.us/death_row/dr_executed_offenders.html

18. Del.icio.us：delicious.com上的125万个书签。

http://arvindn.livejournal.com/116137.html

19. 社交媒体上的灾难推文：1万条推文，注释了是否涉及灾难事件。(2MB)

https://www.crowdflower.com/data-for-everyone/

20. 经济新闻相关文章：确定新闻文章与美国经济是否相关，如果相关，文章的基调是什么。时间范围从1951年到2014年。(12MB)

https://www.crowdflower.com/data-for-everyone/

21. 安然公司电子邮件数据：包含1,227,255封电子邮件，其中493,384个附件覆盖151位管理者。(210GB)

http://aws.amazon.com/de/datasets/enron-email-data/

22. 事件注册：免费工具，可以实时访问全球100,000个媒体的新闻文章。有API接口。(查询工具)

http://eventregistry.org/

23. Examiner.com—用新闻头条钓鱼的垃圾邮件[Kaggle]：现已停用的钓鱼网站The Examiner从2010年到2015年发布的3百万众包新闻头条。(200MB)

https://www.kaggle.com/therohk/examine-the-examiner

24. 联邦采购数据中心的联邦合同(USASpending.gov)：来自USASpending.gov的联邦采购数据中心所有联邦合同的数据库。(180GB)

http://aws.amazon.com/de/datasets/federal-contracts-from-the-federal-procurement-data-center-usaspending-gov/

25. Flickr个人分类法：个人标签的树结构数据集。(40MB)

http://www.isi.edu/~lerman/downloads/flickr/flickr_taxonomies.html

26. Freebase数据库：Freebase中所有当前事实和推断的数据库(26GB)

http://aws.amazon.com/de/datasets/freebase-data-dump/

27. Freebase简单主题库：Freebase中每个主题中基本的可识别事实的数据库(5GB)

http://aws.amazon.com/de/datasets/freebase-simple-topic-dump/

28. Freebase四元库：Freebase中所有当前事实和推断的数据库[LZ1]。(35GB)

http://aws.amazon.com/de/datasets/freebase-quad-dump/

29. GigaOM Wordpress挑战赛[Kaggle]：博客文章，元数据，用户喜好。(1.5GB)

https://www.kaggle.com/c/predict-wordpress-likes/data

30. 谷歌图书n元语法：也可通过亚马逊S3上hadoop格式文件获取。(2.2TB)

http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

31. 谷歌网页5元语法：含有英文单词的n元序列，及其观测频率计数(24GB)

https://catalog.ldc.upenn.edu/LDC2006T13

32. Gutenberg电子书清单：带注释电子书清单(2MB)

http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs

33. 加拿大议会文本块：来自加拿大第36届议会正式记录(Hansards)的130万标准文本块(句子或更小的片段)。(82MB)

http://www.isi.edu/natural-language/download/hansard/

34. 哈佛图书馆：超过1,200万册哈佛图书馆所藏资料的书目记录，包括书籍，期刊，电子资源，手稿，档案资料，乐谱，音频，视频和其他资料。(4GB)

http://library.harvard.edu/open-metadata#Harvard-Library-Bibliographic-Dataset

35. 仇恨言论识别：志愿人查看短文，并确定它是否a)包含仇恨言论，b)冒犯性的，但没有仇恨言论，或c)一点也没有冒犯性。包含近15千行，每个文本字符串有三个志愿者判断。(3MB)

https://github.com/t-davidson/hate-speech-and-offensive-language

36. 希拉里克林顿的电子邮件[Kaggle]：整理了近7,000页克林顿的电子邮件。(12MB)

https://www.kaggle.com/kaggle/hillary-clinton-emails

37. 家得宝公司产品搜索关联[Kaggle]：包含家得宝公司网站的许多产品和客户搜索条款。挑战是预测搜索条目组合和产品的相关性分数。为了创建真实标签，家得宝公司将搜索/产品配对众包给多个评分者打分。(65MB)

https://www.kaggle.com/c/home-depot-product-search-relevance/data

38. 确定文本中的关键短语：问题/答案对和文本组成;判断上下文文本是否与问题/答案相关。(8MB)

https://www.crowdflower.com/data-for-everyone/

39. 美国电视节目‘危险’：216930个过去出现在‘危险’节目的问题合集。(53MB)

http://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/

40. 200k英语明文笑话：208000种不同来源的明文笑话存档。

https://github.com/taivop/joke-dataset

41. 欧洲语言机器翻译：(612MB)

http://statmt.org/wmt11/translation-task.html#download

42. 材料安全数据表：230000材料安全数据表。(3GB)

http://aws.amazon.com/de/datasets/material-safety-data-sheets/

43. 百万新闻头条-澳大利亚ABC[Kaggle]：由澳大利亚ABC新闻发布的从2003到2017年的130万新闻。(56MB)

https://www.kaggle.com/therohk/million-headlines

44. MCTest：可免费使用的660个故事集和相关问题，可用于研究文本机器理解、问答(1MB)。

http://research.microsoft.com/en-us/um/redmond/projects/mctest/index.html

45. Negra：德国报纸文本的语法标注语料库。可供所有大学及非营利机构免费使用。需要签署协议并发送申请才能获得。

http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.html

46. 新闻头条-印度时报[Kaggle]：印度时报发表的从2001到2017年的270万类新闻头条。(185MB)

https://www.crowdflower.com/data-for-everyone/

47. 新闻文章/维基百科页面配对：志愿者阅读一篇短文，被问及最匹配的两篇维基百科文章是哪一篇。(6MB)

https://www.kaggle.com/benhamner/nips-2015-papers/version/2

48. 2015 NIPS论文(版本2)[Kaggle]：所有2015年nips论文全文。(335MB)

https://www.kaggle.com/benhamner/nips-2015-papers/version/2

49. 纽约时报脸谱网数据：所有纽约时报在脸谱网的帖子。(5MB)

http://minimaxir.com/2015/07/facebook-scraper/

50. 全球新闻一周供稿[Kaggle]：在2017年8月的一周，用20多种语言全球发表的140万篇新闻事件数据集。(115MB)

https://www.kaggle.com/therohk/global-news-week

51. 句子/概念对的正确性：志愿者读关于两个概念的句子。例如，“狗是一种动物”，或者“船长可以和主人有同样的意思”，然后他们被问到这个句子是否正确，并将其1-5评级。(700KB)

https://www.crowdflower.com/data-for-everyone/

52. 公开图书馆数据库：公开图书馆中所有记录的修改合集。(16GB)

https://openlibrary.org/developers/dumps

53. 人物语料库：收集了作者文章风格和个性预测的实验。由145名学生的145篇荷兰语文章组成。(获得需要申请)

http://www.clips.uantwerpen.be/datasets/personae-corpus

54. Reddit评论：截至2015年7月，reddit论坛所有公开的评论。共计17亿条评论。(250GB)

https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/

55. Reddit评论(2015年5月)：Kaggle子数据集(8GB)

https://www.kaggle.com/reddit/reddit-comments-may-2015

56. Reddit提交语料库：2006年1月-2015年8月31日所有公开可得的Reddit提交内容。(42GB)

https://www.reddit.com/r/datasets/comments/3mg812/full_reddit_submission_corpus_now_available_2006/

57. 路透社语料库：一个包含路透社新闻报道的数据集，用于自然语言处理的研究开发、信息检索和机器学习系统。该语料库又被称为“路透社语录1”或RCV1，它远远大于原来在文本分类中被广泛使用的著名的路透社21578数据集。该语料库数据需要通过签署协议和发送邮件获取。(2.5GB)

https://trec.nist.gov/data/reuters/reuters.html

58. SaudiNewsNet：31030条从不同沙特阿拉伯的网络报纸上摘取的标题和元数据。(2MB)

https://github.com/ParallelMazen/SaudiNewsNet

59. 垃圾短信数据集：5574条被标记为合法/不合法的、未经编码的真实英文短信消息。(200KB)

http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

60. 《南方公园》数据集：csv格式文件，包含季、集、角色和台词的剧本信息。(3.6MB)

https://github.com/BobAdamsEE/SouthParkData

61. Stackoverflow：730万条stackoverflow问题和其他stackexchange(问答工具)上的问答。

http://data.stackexchange.com/

62. Twitter的Cheng-Caverlee-lee用户定位数据集：2009年9月-2010年1月的推文定位。(400MB)

https://archive.org/details/twitter_cikm_2010

63. Twitter上关于新英格兰爱国者队“放气门”事件的舆情：在2015年超级碗比赛前，人们对被放了气的橄榄球以及爱国者队是否存在欺骗行为议论纷纷。该数据集提供了丑闻发生的这段时间里Twitter上的舆情，以便评估公众对整个事件的感受。(2MB)

https://www.figure-eight.com/data-for-everyone/

64. Twitter上对于左倾相关事件的舆情分析：关于堕胎合法化、女权主义、希拉里·克林顿等各种左倾相关事件的推文，推文将根据内容推断被分类为For(支持)、Against(反对)、Neutral(中立)或None of the above(以上都不是)。(600KB)

https://www.figure-eight.com/data-for-everyone/

65. Twitter的Sentiment140(情感分析数据集)：关于品牌/关键词的推文，网站包括论文和研究想法。(77MB)

http://help.sentiment140.com/for-students/

66. Twitter上关于自动驾驶汽车的舆情分析：贡献者们阅读推文后，将推文里对于自动驾驶的态度分为非常积极、较积极、中立、较消极和非常消极。如果推文与自动驾驶汽车无关，他们也要标记出来。(1MB)

https://www.figure-eight.com/data-for-everyone/

67. Twitter上定位于东京的推文：20万条来自东京的推文。(47MB)

http://followthehashtag.com/datasets/200000-tokyo-geolocated-tweets-free-twitter-dataset/

68. Twitter上定位于英国的推文：17万条来自英国的推文。(47MB)

http://followthehashtag.com/datasets/170000-uk-geolocated-tweets-free-twitter-dataset/

69. Twitter上定位于美国的推文：20万条来自美国的推文。(45MB)

http://followthehashtag.com/datasets/free-twitter-dataset-usa-200000-free-usa-tweets/

70. Twitter上对于美国各大航空公司的态度(Kaggle数据集)：这是一个对于美国各大航空公司存在问题的情感分析任务。该数据集爬取了2015年2月的推文，贡献者们将其分类为积极、消极和中立，对于那些分类为消极态度的推文，还会给出原因(例如“飞机晚点”或“服务态度差”等)。(2.5MB)

https://www.kaggle.com/crowdflower/twitter-airline-sentiment

71. 基于新闻标题的美国经济表现：根据新闻标题头条和摘要，对新闻和美国经济的相关性进行排序。(5MB)

https://www.figure-eight.com/data-for-everyone/

72. 城市词典(美国在线俚语词典)里的单词和定义：一个经过清洗的CSV语料库，包含截至2016年5月的城市词典内所有260万个词汇、定义、作者和投票情况。(238MB)

https://www.kaggle.com/therohk/urban-dictionary-words-dataset

73. 亚马逊的Wesbury Lab Usenet语料库：2005-2010的47,860个英文新闻组的邮件匿名汇编(40GB)

http://aws.amazon.com/de/datasets/the-westburylab-usenet-corpus/

74. 维基百科的Wesbury Lab语料库：2010年4月维基百科英文部分中所有文章的快照。网站详细描述了数据是如何被处理的——即去除所有链接和不相关的材料(如导航文本等)。语料库是未经标记的原始文本，它被用于Stanford NLP。

http://www.psych.ualberta.ca/~westburylab/downloads/westburylab.wikicorp.download.html

75. Stanford NLP跳转的链接：

https://scholar.google.com/scholar?oi=bibs&hl=en&cites=9060444488071171966&as_sdt=5

76. 维基百科提取(WEX)：经处理后的英文版维基百科(66GB)

http://aws.amazon.com/de/datasets/wikipedia-extraction-wex/

77. 维基百科的XML格式数据：所有维基媒体(Wikimedia)的完整复制，以维基文本元(wikitext source)和元数据的形式嵌入到XML中。(500GB)

http://aws.amazon.com/de/datasets/wikipedia-xml-data/

78. 雅虎问答中的综合问题与答案：截至2007年10月25日的雅虎问答语料库，包含4,483,032条问答。(3.6GB)

http://webscope.sandbox.yahoo.com/catalog.php?datatype=l

79. 雅虎问答中用法语提问的问题：2006-2015年雅虎问答语料库的子数据集，包含170万条法语问答。(3.8GB)