这是一份非常全面的开源数据集,你,真的不想要吗?

作者:CQITer小编 时间:2018-09-06 01:00

字号
9月15日技术沙龙 | 与东华软件、AWS、京东金融、饿了么四位大咖探讨精准运维

近期,skymind.ai 发布了一份非常全面的开源数据集。内容包括生物识别、自然图像以及深度学习图像等数据集,现将其整理如下:(内附链接哦~)

这是一份非常全面的开源数据集,你,真的不想要吗?

最近新增数据集

开源生物识别数据:

Google Audioset:扩展了 632 个音频分类样本,并从 YouTube 视频中提取了 2,084,320 个人类标记的 10 秒声音片段。

地址:https://research.google.com/audioset/

Uber 2B trip data:首次展示 2 百万公里的出行数据。

地址:https://movement.uber.com/cities

Yelp Open Dataset:Yelp 数据集是用于 NLP 的 Yelp 业务、评论和用户数据的子集。

地址:https://www.yelp.com/dataset

Core50:用于连续目标识别的新数据集和基准。

地址:https://vlomonaco.github.io/core50/

Kaggle 数据集:https://www.kaggle.com/datasets

Data Portal:

Open Data Monitor:https://opendatamonitor.eu/

Quandl Data Portal:https://www.quandl.com/

Mut1ny 头部/面部分割数据集:

Github 上的优秀公共数据集:https://www.kdnuggets.com/2015/04/awesome-public-datasets-github.html

头部 CT 扫描数据集:491 次扫描的 CQ500 数据集。

地址:

自然图像数据集

MNIST:手写数字图像。最常用的可用性检查。格式 25x25、居中、黑白手写数字。这是一项简单的任务——仅某部分适用于 MNIST,不意味着它有效。

地址:

CIFAR10 / CIFAR100:32x32 彩色图像,10/100 类。虽然仍有趣却不再常用的可用性检查。

地址:~kriz/cifar.html

Caltech 101:101 类物体的图片。

地址:

Caltech 256:256 类物体的图片。

地址:

STL-10 数据集:用于开发无监督特征学习、深度学习、自学习算法的图像识别数据集。像修改过的 CIFAR-10。

地址:~acoates/stl10/

The Street View House Numbers (SVHN):Google 街景中的门牌号码。可以把它想象成复现的户外 MNIST。

地址:

NORB:玩具摆件在各种照明和姿势下的双目图像。

地址:~ylclab/data/norb-v1.0/

Pascal VOC:通用图像分割/分类——对于构建真实世界图像注释不是非常有用,但对基线很有用。

地址:

Labelme:带注释图像的大型数据集。

地址:

ImageNet:新算法的客观图像数据集(de-facto image dataset)。许多图像 API 公司都有来自其 REST 接口的标签,这些标签近 1000 类;WordNet; ImageNet 的层次结构。

地址:

LSUN:具有很多辅助任务的场景理解(房间布局估计,显著性预测(saliency prediction)等),有关联竞赛。(associated competition)。

地址:

MS COCO:通用图像理解/说明,有关联竞赛。

地址:

COIL 20:不同物体在 360 度旋转中以每个角度成像。

地址:

COIL100:不同物体在 360 度旋转中以每个角度成像。

地址:

Google 开源图像:有 900 万张图像的网址集合,这些图像通过知识共享(Creative Commons)被标注成 6000 多个类别。

地址:https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

地理空间数据

OpenStreetMap:免费提供整个星球的矢量数据。它包含(旧版)美国人口普查局的数据。

地址:

Landsat8:整个地球表面的卫星视角图,每隔几周更新一次。

地址:https://landsat.usgs.gov/landsat-8

NEXRAD:美国大气层的多普勒雷达扫描图。

地址: https://www.ncdc.noaa.gov/data-access/radar-data/nexrad

————————我是深度学习图像的分割线————————

人工数据集

Arcade Universe:一个人工数据集生成器,图像包含街机游戏 sprite,如 tetris pentomino / tetromino。该生成器基于 O. Breleux 的 bugland 数据集生成器。

地址:https://github.com/caglar/Arcade-Universe

以 Baby AI School 为灵感的数据集集合。

地址:~lisa/twiki/bin/view.cgi/Public/BabyAISchool

Baby AI Shapes Dataset:区分 3 种简单形状。

地址:~lisa/twiki/bin/view.cgi/Public/BabyAIShapesDatasets

Baby AI Image And Question Dataset:一个问题-图像-答案数据集。

地址:~lisa/twiki/bin/view.cgi/Public/BabyAIImageAndQuestionDatasets

Deep Vs Shallow Comparison ICML2007:为实证评估深层架构而生成的数据集。

地址:~lisa/twiki/bin/view.cgi/Public/DeepVsShallowComparisonICML2007

MnistVariations:在 MNIST 中引入受控变化。

地址:~lisa/twiki/bin/view.cgi/Public/MnistVariations

RectanglesData:区分宽矩形和垂直矩形。

地址:~lisa/twiki/bin/view.cgi/Public/RectanglesData

ConvexNonConvex:区分凸形和非凸形状。

地址:~lisa/twiki/bin/view.cgi/Public/ConvexNonConvex

BackgroundCorrelation:嘈杂 MNIST 背景下相关度的控制

地址:~lisa/twiki/bin/view.cgi/Public/BackgroundCorrelation

人脸数据集

责任编辑:CQITer新闻报料:400-888-8888   本站原创,未经授权不得转载
继续阅读
热新闻
推荐
关于我们联系我们免责声明隐私政策 友情链接