主页 - 程序员 -

100+个自然语言处理数据集大放送，再不愁找不到数据！

作者：媒体转发时间：2018-05-11 01:56

字号

有奖调研 | 1TB硬盘等你拿 AI+区块链的发展趋势及应用调研

大数据文摘作品

编译：晚君、VVN、张礼俊、云舟

奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表(原始未结构化的文本数据)，快去按图索骥下载数据自己研究吧!

数据集

1. Apache软件基金会公开邮件档案：截止到2011年7月11日全部公开可用的Apache软件基金会邮件档案。(200 GB)

2. 博主原创语料库：包含2004年8月从blogger.com网站收集的19,320位博主的帖子。681,288个帖子以及140多万字。(298 MB)

~koppel/BlogCorpus.htm

3. 亚马逊美食评论[Kaggle]：包含亚马逊用户在2012年10月前留下的568,454条食评。(240MB)

https://www.kaggle.com/snap/amazon-fine-food-reviews

4. 亚马逊评论：斯坦福收集了3500万条亚马逊评论。(11GB)

https://snap.stanford.edu/data/web-Amazon.html

5. ArXiv上：所有收录论文全文(270GB)+源文件(190GB)

6. ASAP自动作文评分[Kaggle]：在本次比赛中，有8个作文集。每个作文都由一个单独提示所得回答所生成。所选作文长度为150到550个字不等。部分作文依赖于源信息，而另其他则不是。所有论文都是由7年级到10年级的学生所写。所有的作文都由人工打分，并采用双评分制。(100MB)

https://www.kaggle.com/c/asap-aes/data

7. ASAP简答题评分[Kaggle]：每个数据集都是由单个提示所得回答生成的。所选回答的平均长度为50个字。某些回答依赖于源信息，而其他则不是。所有回答由10年级学生所写。所有回答均为人工打分，并采用双评分制。(35MB)

https://www.kaggle.com/c/asap-sas/data

8. 政治社交媒体分类：按内容分类来自政客的社交媒体消息。(4MB)

https://www.crowdflower.com/data-for-everyone/

9. CLiPS文体学研究(CSI)语料库：每年扩展两种类型的学生写作：文章和综述。这个语料库的目的主要在于文体学研究，当然也可用于其他研究。(数据集需要申请获得)

10. ClueWeb09 FACC：带有Freebase注释的ClueWeb09(72GB)

11. ClueWeb11 FACC：带有Freebase注释的ClueWeb11(92GB)

12. 常见爬虫语料库：由超过50亿个网页(541TB)爬虫数据构成。

13. 康奈尔电影对话语料库(Cornell Movie Dialog Corpus)：包含大量丰富的元数据，从原始电影剧本中提取的对话集合：617部电影，10,292对电影人物之间的220,579次会话交流。(9.5MB)

~cristian/Cornell_Movie-Dialogs_Corpus.html

14. 企业信息：分类企业在社交媒体上到底谈论了什么的工作。要求志愿者将企业陈述分类为信息(关于公司或其活动的客观陈述)，对话(回复用户等)或行动(要求投票或要求用户点击链接等的信息)。(600KB)

15. Crosswikis：关联英语短语与维基百科文章的数据库。(11GB)

16. 一个网络社区关于从维基百科中提取结构化信息并使得此信息在网络上可用的共同成果。(17GB)

?tag=datasets%23keywords%23encyclopedic

17. Death Row：自1984年以来处决的每个犯人的遗言。(HTML表格)

18. Del.icio.us：delicious.com上的125万个书签。

19. 社交媒体上的灾难推文：1万条推文，注释了是否涉及灾难事件。(2MB)

https://www.crowdflower.com/data-for-everyone/

20. 经济新闻相关文章：确定新闻文章与美国经济是否相关，如果相关，文章的基调是什么。时间范围从1951年到2014年。(12MB)

https://www.crowdflower.com/data-for-everyone/

21. 安然公司电子邮件数据：包含1,227,255封电子邮件，其中493,384个附件覆盖151位管理者。(210GB)

22. 事件注册：免费工具，可以实时访问全球100,000个媒体的新闻文章。有API接口。(查询工具)

23. Examiner.com—用新闻头条钓鱼的垃圾邮件[Kaggle]：现已停用的钓鱼网站The Examiner从2010年到2015年发布的3百万众包新闻头条。(200MB)

https://www.kaggle.com/therohk/examine-the-examiner

24. 联邦采购数据中心的联邦合同(USASpending.gov)：来自USASpending.gov的联邦采购数据中心所有联邦合同的数据库。(180GB)

25. Flickr个人分类法：个人标签的树结构数据集。(40MB)

~lerman/downloads/flickr/flickr_taxonomies.html

26. Freebase数据库：Freebase中所有当前事实和推断的数据库(26GB)

27. Freebase简单主题库：Freebase中每个主题中基本的可识别事实的数据库(5GB)

28. Freebase四元库：Freebase中所有当前事实和推断的数据库[LZ1]。(35GB)

29. GigaOM Wordpress挑战赛[Kaggle]：博客文章，元数据，用户喜好。(1.5GB)

https://www.kaggle.com/c/predict-wordpress-likes/data

30. 谷歌图书n元语法：也可通过亚马逊S3上hadoop格式文件获取。(2.2TB)

31. 谷歌网页5元语法：含有英文单词的n元序列，及其观测频率计数(24GB)

https://catalog.ldc.upenn.edu/LDC2006T13

32. Gutenberg电子书清单：带注释电子书清单(2MB)

:Offline_Catalogs

33. 加拿大议会文本块：来自加拿大第36届议会正式记录(Hansards)的130万标准文本块(句子或更小的片段)。(82MB)

34. 哈佛图书馆：超过1,200万册哈佛图书馆所藏资料的书目记录，包括书籍，期刊，电子资源，手稿，档案资料，乐谱，音频，视频和其他资料。(4GB)

#Harvard-Library-Bibliographic-Dataset

责任编辑：CQITer新闻报料：400-888-8888 本站原创，未经授权不得转载

关键词 >>自然语言数据集数据

继续阅读

Github八月深度学习项目热搜Top 10，你Pick哪一个！

泡沫化的内容领域：平台与内容创作者的自嗨

2018年小水电扶贫中央预算内投资计划及时分解下达重庆有关区县

热新闻

7天 30天 1年