报料注册登录

IT

互联网

程序员

大数据

AI

游戏

运维

软件

其他

主页 - 程序员 -

这是一份非常全面的开源数据集，你，真的不想要吗？

作者：CQITer小编时间：2018-09-06 01:00

字号

9月15日技术沙龙 | 与东华软件、AWS、京东金融、饿了么四位大咖探讨精准运维！

近期，skymind.ai 发布了一份非常全面的开源数据集。内容包括生物识别、自然图像以及深度学习图像等数据集，现将其整理如下：(内附链接哦~)

这是一份非常全面的开源数据集，你，真的不想要吗？

最近新增数据集

开源生物识别数据：

Google Audioset：扩展了 632 个音频分类样本，并从 YouTube 视频中提取了 2，084，320 个人类标记的 10 秒声音片段。

地址：https://research.google.com/audioset/

Uber 2B trip data：首次展示 2 百万公里的出行数据。

地址：https://movement.uber.com/cities

Yelp Open Dataset：Yelp 数据集是用于 NLP 的 Yelp 业务、评论和用户数据的子集。

地址：https://www.yelp.com/dataset

Core50：用于连续目标识别的新数据集和基准。

地址：https://vlomonaco.github.io/core50/

Kaggle 数据集：https://www.kaggle.com/datasets

Data Portal：

Open Data Monitor：https://opendatamonitor.eu/

Quandl Data Portal：https://www.quandl.com/

Mut1ny 头部/面部分割数据集：

Github 上的优秀公共数据集：https://www.kdnuggets.com/2015/04/awesome-public-datasets-github.html

头部 CT 扫描数据集：491 次扫描的 CQ500 数据集。

地址：

自然图像数据集

MNIST：手写数字图像。最常用的可用性检查。格式 25x25、居中、黑白手写数字。这是一项简单的任务——仅某部分适用于 MNIST，不意味着它有效。

地址：

CIFAR10 / CIFAR100：32x32 彩色图像，10/100 类。虽然仍有趣却不再常用的可用性检查。

地址：~kriz/cifar.html

Caltech 101：101 类物体的图片。

地址：

Caltech 256：256 类物体的图片。

地址：

STL-10 数据集：用于开发无监督特征学习、深度学习、自学习算法的图像识别数据集。像修改过的 CIFAR-10。

地址：~acoates/stl10/

The Street View House Numbers (SVHN)：Google 街景中的门牌号码。可以把它想象成复现的户外 MNIST。

地址：

NORB：玩具摆件在各种照明和姿势下的双目图像。

地址：~ylclab/data/norb-v1.0/

Pascal VOC：通用图像分割/分类——对于构建真实世界图像注释不是非常有用，但对基线很有用。

地址：

Labelme：带注释图像的大型数据集。

地址：

ImageNet：新算法的客观图像数据集(de-facto image dataset)。许多图像 API 公司都有来自其 REST 接口的标签，这些标签近 1000 类;WordNet; ImageNet 的层次结构。

地址：

LSUN：具有很多辅助任务的场景理解(房间布局估计，显著性预测(saliency prediction)等)，有关联竞赛。(associated competition)。

地址：

MS COCO：通用图像理解/说明，有关联竞赛。

地址：

COIL 20：不同物体在 360 度旋转中以每个角度成像。

地址：

COIL100：不同物体在 360 度旋转中以每个角度成像。

地址：

Google 开源图像：有 900 万张图像的网址集合，这些图像通过知识共享(Creative Commons)被标注成 6000 多个类别。

地址：https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

地理空间数据

OpenStreetMap：免费提供整个星球的矢量数据。它包含(旧版)美国人口普查局的数据。

地址：

Landsat8：整个地球表面的卫星视角图，每隔几周更新一次。

地址：https://landsat.usgs.gov/landsat-8

NEXRAD：美国大气层的多普勒雷达扫描图。

地址： https://www.ncdc.noaa.gov/data-access/radar-data/nexrad

————————我是深度学习图像的分割线————————

人工数据集

Arcade Universe：一个人工数据集生成器，图像包含街机游戏 sprite，如 tetris pentomino / tetromino。该生成器基于 O. Breleux 的 bugland 数据集生成器。

地址：https://github.com/caglar/Arcade-Universe

以 Baby AI School 为灵感的数据集集合。

地址：~lisa/twiki/bin/view.cgi/Public/BabyAISchool

Baby AI Shapes Dataset：区分 3 种简单形状。

地址：~lisa/twiki/bin/view.cgi/Public/BabyAIShapesDatasets

Baby AI Image And Question Dataset：一个问题-图像-答案数据集。

地址：~lisa/twiki/bin/view.cgi/Public/BabyAIImageAndQuestionDatasets

Deep Vs Shallow Comparison ICML2007：为实证评估深层架构而生成的数据集。

地址：~lisa/twiki/bin/view.cgi/Public/DeepVsShallowComparisonICML2007

MnistVariations：在 MNIST 中引入受控变化。

地址：~lisa/twiki/bin/view.cgi/Public/MnistVariations

RectanglesData：区分宽矩形和垂直矩形。

地址：~lisa/twiki/bin/view.cgi/Public/RectanglesData

ConvexNonConvex：区分凸形和非凸形状。

地址：~lisa/twiki/bin/view.cgi/Public/ConvexNonConvex

BackgroundCorrelation：嘈杂 MNIST 背景下相关度的控制

地址：~lisa/twiki/bin/view.cgi/Public/BackgroundCorrelation

人脸数据集

责任编辑：CQITer新闻报料：400-888-8888 本站原创，未经授权不得转载

关键词 >>开源数据集深度学习

继续阅读

Github八月深度学习项目热搜Top 10，你Pick哪一个！

程序员市场需求调查：React.js获前五！

Ph0neutria：一款从野外采集恶意软件样本的工具

热新闻

7天 30天 1年

推荐

吉利三季度营收892亿创历史新高！它究竟做对了什么让市占率飙升28%？

你以为精通Elasticsearch的match查询就够了？产品经理这个简单需求差点让集群崩溃

谷歌 DeepMind AI 模型精准预测五级飓风 “梅丽莎”

Python f-strings：让字符串格式化更优雅

你的游戏渲染还在盲目堆参数？移动端GPU性能只有PC的1/5，难怪帧率暴跌设备发烫

还在用Promise.all处理上千个请求？小心你的系统崩溃！这才是真正的并发控制实战

想让婚恋App匹配更精准、聊天更火热、留存更持久？数据告诉你答案

刚刚斩获FMVP的Gumayusi突然离队，T1王朝三连冠功臣为何选择告别？

关于我们联系我们免责声明隐私政策友情链接

本站所有内容采用创作共用版权 CC BY-NC-ND/2.5/CN 许可协议 | 蜀ICP备2025167749号-1

川公网安备51162302000271号

SiteMap