主页 - 程序员 -

从文本处理到自动驾驶：机器学习最常用的50大免费数据集

作者：网友投稿时间：2018-06-18 01:51

字号

机器学习领域里有哪些开放数据集?Gengo 近日发布了一份高质量免费数据集列表，其搜索范围不仅包含内容广泛(如 Kaggle)，也包括高度特化的(如自动驾驶汽车专用数据集)数据集种类。

首先，在选择数据集时要记住几个重要标准：

数据集不能是混乱的，因为你不希望花费大量时间整理数据。

数据集不应该有过多的行或者列，这样才能容易处理。

数据越干净越好——清理大型数据集可能会非常耗时。

该数据集可以用于回答一些有趣的问题。

这样的话，让我们看看能找到点什么?

一、查找数据集

1. Kaggle：一个数据科学竞赛网站，其中包含大量外部贡献的有趣数据集。你可以在它长长的列表中(https://www.kaggle.com/datasets)找到各种小众数据集，从拉面的评分、篮球数据，到西雅图的宠物牌照。

2. UCI Machine Learning Repository：它是网络中最古老的数据集源之一，是寻找各种有趣数据集的第一选择。在这里，尽管数据集都是用户自行贡献的，但清洁程度仍然很高。此外，你可以直接从 UCI Machine Learning Repository 上下载数据，无需注册。

二、通用数据集

公共政府数据集

从文本处理到自动驾驶：机器学习最常用的50大免费数据集

3. Data.gov：这个网站可以从多个美国政府机构下载数据，从政府预算到学校成绩。不过要注意：其中的大部分数据需要进一步研究。

链接：https://www.data.gov/

4. Food Environment Atlas：包含有关本地食物选择如何影响美国饮食习惯的数据。

链接：https://catalog.data.gov/dataset/food-environment-atlas-f4a22

5. School system finances：美国学校系统财务状况调查。

链接：https://catalog.data.gov/dataset/annual-survey-of-school-system-finances

6. Chronic disease data：美国各地慢性病指标数据。

链接：https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi-e50c9

7. The US National Center for Education Statistics：美国和世界各地教育机构和教育人口统计数据。

链接：https://nces.ed.gov/

8. The UK Data Centre：英国最大的社会、经济和人口数据收集。

链接：https://www.ukdataservice.ac.uk/

9. Data USA：美国公共数据的全面可视化。

链接：

金融类

从文本处理到自动驾驶：机器学习最常用的50大免费数据集

10. Quandl：很好的财经数据来源——有助于建立预测经济指标或股票价格的模型。

链接：https://www.quandl.com/

11. World Bank Open Data：涵盖人口统计和世界各地大量经济和发展指标的数据集。

链接：https://data.worldbank.org/

12. IMF Data：国际货币基金组织公布有关国际金融、债务利率、外汇储备、商品价格和投资的数据。

链接：https://www.imf.org/en/Data

13. Financial Times Market Data：世界金融市场的最新信息，包括股票价格指数、商品和外汇。

链接：https://markets.ft.com/data/

14. Google Trends：观察和分析有关互联网搜索活动和世界各地新闻故事趋势的数据。

链接：?q=google&ctab=0&geo=all&date=all&sort=0

15. AmericanEconomic Association (AEA)：寻找美国宏观经济数据的来源。

链接：https://www.aeaweb.org/resources/data/us-macro-regional

三、机器学习数据集

图像

从文本处理到自动驾驶：机器学习最常用的50大免费数据集

16. Labelme：注释图像的大数据集。

链接：

17. ImageNet：著名的 ImageNet，由斯坦福大学教授李飞飞等人发起，它是面向新算法的真实图像数据集。根据 WordNet 层次结构来组织，其中层次结构的每个节点都由成百上千个图像来描述。

链接：

18. LSUN：场景理解和许多辅助任务(房间布局估计、显著性预测等)。

链接：

19. MS COCO：ImageNet 之外另一个常用的图像数据集，包含通用图像理解和注释。

链接：

20. COIL100：100 个不同的物体在 360°旋转中以每个角度成像。

链接：

21. Visual Genome：非常详细的视觉知识库，配有约 100K 个图像的注释。

链接：

22. Google's Open Images：Creative Commons 下的 900 万个图片的网址集合，「已经标注了跨越 6000 多个类别的标签」。

链接：https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

23. Labelled Faces in the Wild：13000 张贴有标签的人脸图像，用于开发涉及人脸识别的应用。

链接：

24. Stanford Dogs Dataset：包含 20580 个图像和 120 个不同品种的狗类别。

链接：

25. Indoor Scene Recognition：非常具体的数据集，适用于大多数场景识别模型，因为后者在「外部」表现更好。包含 67 个室内类别，总共 15620 个图像。

链接：

情感分析

从文本处理到自动驾驶：机器学习最常用的50大免费数据集

26. Multidomain Sentiment analysis dataset：有点旧的一个数据集，以亚马逊的产品评论为特色。

链接：~mdredze/datasets/sentiment/

27. IMDB reviews：用于二进制情感分类的较旧的、相对较小的数据集，具有 25000 个电影评论。

链接：~amaas/data/sentiment/

28. Stanford Sentiment Treebank：带有情感注释的标准情感数据集。

链接：https://nlp.stanford.edu/sentiment/code.html

29. Sentiment140：一个流行的数据集，使用 16 万条预先删除表情符号的推文

链接：

30. Twitter US Airline Sentiment：2015 年 2 月以来美国航空公司的推特数据，分为正面、负面和中性。

链接：https://www.kaggle.com/crowdflower/twitter-airline-sentiment

自然语言处理

从文本处理到自动驾驶：机器学习最常用的50大免费数据集

31. Enron Dataset：Enron 公司高层管理人员的电子邮件数据，整理成文件夹。

链接：https://www.cs.cmu.edu/~./enron/

32. Amazon Reviews：包含来自亚马逊长达 18 年的约 3500 万条评论。数据包括产品和用户信息、评级和明文审查。

链接：https://snap.stanford.edu/data/web-Amazon.html

33. Google Books Ngrams：Google 书籍中的词汇集合。

链接：https://aws.amazon.com/cn/datasets/google-books-ngrams/

34. Blogger Corpus：从 blogger . com 收集的 681288 篇博客文章。每个博客至少包含 200 个常用英语单词。

链接：~koppel/BlogCorpus.htm

35. Wikipedia Links data：维基百科全文。数据集包含 400 多万篇文章中的近 19 亿字。你可以根据单词、短语或段落本身的一部分进行搜索。

链接：https://code.google.com/p/wiki-links/downloads/list

36. Gutenberg eBooks List：古腾堡计划电子书注释清单。

链接：:Offline_Catalogs

37. Hansards text chunks of Canadian Parliament：加拿大第 36 届国会记录 130 万对文本。

链接：https://www.isi.edu/natural-language/download/hansard/

38. Jeopardy：机智问答节目 Jeopardy 中存档的 20 多万个问题。

链接：https://www.reddit.com/r/datasets/comments/1uyd0t/200000jeopardyquestionsinajsonfile/

39. SMS Spam Collection in English：由 5574 条英文短信垃圾邮件组成的数据集

链接：~tiago/smsspamcollection/

40. Yelp Reviews：Yelp 发布的开放数据集包含 500 多万条评论。

链接：https://www.yelp.com/dataset

41. UCI's Spambase：大型垃圾邮件数据集，可用于垃圾邮件过滤。

链接：https://archive.ics.uci.edu/ml/datasets/Spamb (https://archive.ics.uci.edu/ml/datasets/Spambase)

自动驾驶

从文本处理到自动驾驶：机器学习最常用的50大免费数据集

责任编辑：CQITer新闻报料：400-888-8888 本站原创，未经授权不得转载

关键词 >>机器学习数据集文本处理自动驾驶

继续阅读

DEF CON 和 Black Hat 有史以来的11场卓越演讲

重庆华生园耗资百万建大门被指违建官方将拆除

Hadoop分布式文件系统--HDFS的诞生

热新闻

7天 30天 1年