这是一份非常全面的开源数据集,你,真的不想要吗?
作者:CQITer小编 时间:2018-09-06 01:00
近期,skymind.ai 发布了一份非常全面的开源数据集。内容包括生物识别、自然图像以及深度学习图像等数据集,现将其整理如下:(内附链接哦~)

最近新增数据集
开源生物识别数据:
Google Audioset:扩展了 632 个音频分类样本,并从 YouTube 视频中提取了 2,084,320 个人类标记的 10 秒声音片段。
地址:https://research.google.com/audioset/
Uber 2B trip data:首次展示 2 百万公里的出行数据。
地址:https://movement.uber.com/cities
Yelp Open Dataset:Yelp 数据集是用于 NLP 的 Yelp 业务、评论和用户数据的子集。
地址:https://www.yelp.com/dataset
Core50:用于连续目标识别的新数据集和基准。
地址:https://vlomonaco.github.io/core50/
Kaggle 数据集:https://www.kaggle.com/datasets
Data Portal:
Open Data Monitor:https://opendatamonitor.eu/
Quandl Data Portal:https://www.quandl.com/
Mut1ny 头部/面部分割数据集:
Github 上的优秀公共数据集:https://www.kdnuggets.com/2015/04/awesome-public-datasets-github.html
头部 CT 扫描数据集:491 次扫描的 CQ500 数据集。
地址:
自然图像数据集
MNIST:手写数字图像。最常用的可用性检查。格式 25x25、居中、黑白手写数字。这是一项简单的任务——仅某部分适用于 MNIST,不意味着它有效。
地址:
CIFAR10 / CIFAR100:32x32 彩色图像,10/100 类。虽然仍有趣却不再常用的可用性检查。
地址:~kriz/cifar.html
Caltech 101:101 类物体的图片。
地址:
Caltech 256:256 类物体的图片。
地址:
STL-10 数据集:用于开发无监督特征学习、深度学习、自学习算法的图像识别数据集。像修改过的 CIFAR-10。
地址:~acoates/stl10/
The Street View House Numbers (SVHN):Google 街景中的门牌号码。可以把它想象成复现的户外 MNIST。
地址:
NORB:玩具摆件在各种照明和姿势下的双目图像。
地址:~ylclab/data/norb-v1.0/
Pascal VOC:通用图像分割/分类——对于构建真实世界图像注释不是非常有用,但对基线很有用。
地址:
Labelme:带注释图像的大型数据集。
地址:
ImageNet:新算法的客观图像数据集(de-facto image dataset)。许多图像 API 公司都有来自其 REST 接口的标签,这些标签近 1000 类;WordNet; ImageNet 的层次结构。
地址:
LSUN:具有很多辅助任务的场景理解(房间布局估计,显著性预测(saliency prediction)等),有关联竞赛。(associated competition)。
地址:
MS COCO:通用图像理解/说明,有关联竞赛。
地址:
COIL 20:不同物体在 360 度旋转中以每个角度成像。
地址:
COIL100:不同物体在 360 度旋转中以每个角度成像。
地址:
Google 开源图像:有 900 万张图像的网址集合,这些图像通过知识共享(Creative Commons)被标注成 6000 多个类别。
地址:https://research.googleblog.com/2016/09/introducing-open-images-dataset.html
地理空间数据
OpenStreetMap:免费提供整个星球的矢量数据。它包含(旧版)美国人口普查局的数据。
地址:
Landsat8:整个地球表面的卫星视角图,每隔几周更新一次。
地址:https://landsat.usgs.gov/landsat-8
NEXRAD:美国大气层的多普勒雷达扫描图。
地址: https://www.ncdc.noaa.gov/data-access/radar-data/nexrad
————————我是深度学习图像的分割线————————
人工数据集
Arcade Universe:一个人工数据集生成器,图像包含街机游戏 sprite,如 tetris pentomino / tetromino。该生成器基于 O. Breleux 的 bugland 数据集生成器。
地址:https://github.com/caglar/Arcade-Universe
以 Baby AI School 为灵感的数据集集合。
地址:~lisa/twiki/bin/view.cgi/Public/BabyAISchool
Baby AI Shapes Dataset:区分 3 种简单形状。
地址:~lisa/twiki/bin/view.cgi/Public/BabyAIShapesDatasets
Baby AI Image And Question Dataset:一个问题-图像-答案数据集。
地址:~lisa/twiki/bin/view.cgi/Public/BabyAIImageAndQuestionDatasets
Deep Vs Shallow Comparison ICML2007:为实证评估深层架构而生成的数据集。
地址:~lisa/twiki/bin/view.cgi/Public/DeepVsShallowComparisonICML2007
MnistVariations:在 MNIST 中引入受控变化。
地址:~lisa/twiki/bin/view.cgi/Public/MnistVariations
RectanglesData:区分宽矩形和垂直矩形。
地址:~lisa/twiki/bin/view.cgi/Public/RectanglesData
ConvexNonConvex:区分凸形和非凸形状。
地址:~lisa/twiki/bin/view.cgi/Public/ConvexNonConvex
BackgroundCorrelation:嘈杂 MNIST 背景下相关度的控制
地址:~lisa/twiki/bin/view.cgi/Public/BackgroundCorrelation
人脸数据集




