图像处理开源项目（图像处理及深度学习开源数据集大全（四万字呕心沥血整理））

时间2025-09-17 16:40:54分类IT科技浏览21938

导读：本文整理了150 余个深度学习和图像处理领域的开源数据集，包括：目标检测、人脸识别、文本识别、图像分类、缺陷检测、医学影像、图像分割、图像去雾、关键点检测、动作识别、姿态估计、自动驾驶、RGBT共13个方向。...

本文整理了150 余个深度学习和图像处理领域的开源数据集，包括：目标检测、人脸识别、文本识别、图像分类、缺陷检测、医学影像、图像分割、图像去雾、关键点检测、动作识别、姿态估计、自动驾驶、RGBT共13个方向。

1. 目标检测（detection）

T-LESS数据集

类型：目标检测

数量：39000

数据集下载地址：http://cmp.felk.cvut.cz/t-less/

说明：

T-LESS 是被用于无纹理对象检测和 6D 姿态估计的 RGB-D 数据集，其被用于无纹理刚体对象 6D 姿态的估计。

这套数据集拥有 30 个不同行业的对象，由于没有明显的纹理、可辨别的颜色和反射特性，因此物体在形状和尺寸上表现出对称性和相似性。

该数据集还包括利用三个同步传感器捕获的训练图像，数据源包括结构光、RGB-D 传感器和高分辨率相机，每个传感器有大约 39k 的训练图像以及 10k 的测试图像。 H²O 行人交互检测数据集

类型：目标检测

数量：10300

数据集下载地址：https://kalisteo.cea.fr/wp-content/uploads/2021/12/README_H2O.html

说明：

H²O由V-COCO数据集中的10301张图像组成，其中添加了3635张图像，这些图像主要包含人与人之间的互动。所有的H²O图像都用一种新的动词分类法进行了注释，包括人与物和人与人之间的互动。该分类法由51个动词组成，分为5类。 SpotGarbage垃圾识别数据集

类型：目标检测

数量：2560

数据集下载地址：https://github.com/spotgarbage/spotgarbage-GINI

说明：

图像中的垃圾（GINI）数据集是SpotGarbage引入的一个数据集，包含2561张图像，956张图像包含垃圾，其余的是在各种视觉属性方面与垃圾非常相似的非垃圾图像。 NAO自然界对抗样本数据集

类型：目标检测

数量：7934

数据集下载地址：https://arxiv.org/pdf/2111.04204v1.pdf

说明：

NAO包含7934张图像和9943个对象，这些图像未经修改，代表了真实世界的场景，但会导致最先进的检测模型以高置信度错误分类。与标准MSCOCO验证集相比，在NAO上评估时，EfficientDet-D7的平均精度（mAP）下降了74.5%。 Labelme 图像数据集

类型：目标检测

数量：1000

数据集下载地址：https://www.cvmart.net/dataSets/labelme2.csail.mit.edu

说明：

Labelme Dataset 是用于目标识别的图像数据集，涵盖 1000 多个完全注释和 2000 个部分注释的图像，其中部分注释图像可以被用于训练标记算法，测试集拥有来自于世界不同地方拍摄的图像，这可以保证图片在续联和测试之间会有较大的差异。印度车辆数据集

类型：目标检测

数量：

数据集下载地址：https://www.kaggle.com/datasets/dataclusterlabs/indian-vehicle-dataset

说明：

该数据集包括小众印度车辆的图像，如Autorikshaw 、Tempo、卡车等。该数据集由用于分类和目标检测的小众印度车辆图像组成。据观察，这些小众车辆（如autorickshaw 、tempo 、trucks等）上几乎没有可用的数据集。这些图像是在白天、晚上和晚上的不同天气条件下拍摄的。该数据集具有各种各样的照明、距离、视点等变化。该数据集代表了一组非常具有挑战性的利基类车辆图像。该数据集可用于驾驶员辅助系统、自动驾驶等的图像识别和目标检测。 Seeing 3D chairs椅子检测模型

类型：目标检测

数量：1000

数据集下载地址：https://www.di.ens.fr/willow/research/seeing3Dchairs/

说明：

椅子数据集包含大约1000个不同三维椅子模型的渲染图像。 SUN09场景理解数据集

类型：目标检测

数量：12000

数据集下载地址：http://people.csail.mit.edu/myungjin/HContext.html

说明：

SUN09数据集包含12000个带注释的图像，其中包含200多个对象类别。它由自然、室内和室外图像组成。每个图像平均包含7个不同的注释对象，每个对象的平均占用率为图像大小的5% 。对象类别的频率遵循幂律分布。发布者使用 397 个采样良好的类别进行场景识别，并以此搭配最先进的算法建立新的性能界限。 Unsplash图片检索数据集

类型：目标检测

数量：

数据集下载地址：https://unsplash.com/data

说明：

使用迄今为止公开共享的全球最大的开放检索信息数据集。是由250000多名摄影师和数以千计的应用程序、用途和上下文的数十亿次搜索创建的，包含了数十亿次照片搜索的信息和对应的照片信息。由于Unsplash数据集中包含广泛的意图和语义，它为研究和学习提供了新的机会。 HICO-DET人物交互检测数据集

类型：目标检测

数量：47776

数据集下载地址：https://soda-2d.github.io/download.html

说明：

HICO-DET是一个用于检测图像中人-物交互（HOI）的数据集。它包含47776幅图像（列车组38118幅，测试组9658幅），600个HOI类别，由80个宾语类别和117个动词类别构成。HICO-DET提供了超过150k个带注释的人类对象对。V-COCO提供了10346张图像（2533张用于培训，2867张用于验证，4946张用于测试）和16199人的实例。上海科技大学人群统计数据集

类型：目标检测

数量：1198

数据集下载地址：https://github.com/desenzhou/ShanghaiTechDataset

说明：

上海科技数据集是一个大规模的人群统计数据集。它由1198张带注释的群组图像组成。

数据集分为两部分，A部分包含482张图像，B部分包含716张图像。A部分分为训练和测试子集，分别由300和182张图像组成。B部分分为400和316张图像组成的序列和测试子集。群组图像中的每个人都有一个靠近头部中心的点进行注释。总的来说，该数据集由33065名带注释的人组成。A部分的图像是从互联网上收集的，而B部分的图像是在上海繁忙的街道上收集的。 DOTA航拍图像数据集

类型：目标检测

数量：1793658

数据集下载地址：https://captain-whu.github.io/DOTA/dataset.html

说明：

DOTA是用于航空图像中目标检测的大型数据集。它可以用于开发和评估航空图像中的目标探测器。这些图像是从不同的传感器和平台收集的。每个图像的大小在800×800到20000×20000像素之间，包含显示各种比例、方向和形状的对象。DOTA图像中的实例由航空图像解释专家通过任意（8 d.o.f.）四边形进行注释。

DOTA-v1.0包含15个常见类别、2806个图像和188282个实例。DOTA-v1.0中训练集、验证集和测试集的比例分别为1/2 、1/6和1/3 。

DOTA-v2.0收集更多谷歌地球、GF-2卫星和航空图像。DOTA-v2.0中有18个常见类别、11268个图像和1793658个实例。生活垃圾数据集

类型：目标检测

数量：9000

数据集下载地址：https://www.kaggle.com/datasets/dataclusterlabs/domestic-trash-garbage-dataset

说明：

该数据集是一组极具挑战性的原始垃圾/垃圾图像，共有9000多张，这些图像来自2000多个城市和农村地区。

图像是在各种照明条件、天气、室内和室外条件下拍摄的。该数据集可用于制作垃圾/垃圾检测模型、环保替代建议、碳足迹生成等。火焰和烟雾图像数据集

类型：目标检测

数量：7000

数据集下载地址：https://www.kaggle.com/datasets/dataclusterlabs/fire-and-smoke-dataset

说明：

该数据集由早期火灾和烟雾的图像数据集组成。数据集由在真实场景中使用手机拍摄的早期火灾和烟雾图像组成。大约有7000张图像数据。图像是在各种照明条件（室内和室外场景）、天气等条件下拍摄的。该数据集非常适合早期火灾和烟雾探测。

数据集可用于火灾和烟雾识别、检测、早期火灾和烟雾、异常检测等。数据集还包括典型的家庭场景，如垃圾焚烧、纸塑焚烧、田间作物焚烧、家庭烹饪等。全球小麦检测数据集

类型：目标检测

数量：4700

数据集下载地址：https://www.kaggle.com/c/global-wheat-detection/data

说明：

检测小麦穗是一项重要任务，可以估计相关性状，包括穗种群密度和穗特征，如卫生状况、大小、成熟阶段和芒的存在。

本数据集包含 4,700 张高分辨率 RGB 图像和 190,000 个标记的小麦头，这些小麦头采集自世界各地不同生长阶段的不同基因型的多个国家。坑洼检测数据集

类型：目标检测

数量：700

数据集下载地址：https://www.kaggle.com/datasets/chitholian/annotated-potholes-dataset

说明：

本数据集汇总了700个在坑洼处带有3K +注释的图像，用于从道路图像中检测坑洼，检测道路地形和坑洼。 Linkopings交通标志数据集

类型：目标检测

数量：20000

数据集下载地址：http://www.cvl.isy.liu.se/research/datasets/traffic-signs-dataset/

说明：

通过记录超过 350 公里的瑞典高速公路和城市道路的序列，创建了一个数据集。

一个 1.3 兆像素的彩色摄像机，一个点灰色变色龙，被放置在一辆汽车的仪表板上，从前窗向外看。摄像头略微指向右侧，以便尽可能多地覆盖相关标志。该镜头的焦距为 6.5 毫米，视野约为 41 度。高速公路上的典型速度标志大约为 90 cm 宽，如果要在大约 30 m 的距离处检测到它们，则对应于大约 50 像素的大小。总共记录了超过 20 000 帧，其中每五帧被手动标记。每个标志的标签包含标志类型（人行横道、指定车道右侧、禁止站立或停车、优先道路、让路、50 公里/小时或 30 公里/小时）、能见度状态（遮挡、模糊或可见）和道路状态（是否标志是在正在行驶的道路上或在小路上）。防护装备-头盔和背心检测

类型：目标检测

数量：

数据集下载地址：https://github.com/ciber-lab/pictor-ppe

说明：

包含 774 个人群图像和 698 个网络挖掘图像。人群和网络挖掘的图像分别包含 2,496 和 2,230 个工人实例。水下垃圾检测数据集

类型：目标检测

数量：5700

数据集下载地址：https://conservancy.umn.edu/handle/11299/214366

说明：

该数据来自 J-EDI 海洋垃圾数据集。构成该数据集的视频在质量、深度、场景中的对象和使用的相机方面差异很大。它们包含许多不同类型的海洋垃圾的图像，这些图像是从现实世界环境中捕获的，提供了处于不同衰减、遮挡和过度生长状态的各种物体。此外，水的清晰度和光的质量因视频而异。这些视频经过处理以提取 5,700 张图像，这些图像构成了该数据集，所有图像都在垃圾实例、植物和动物等生物对象以及 ROV 上标有边界框。小目标检测数据集

类型：目标检测

数量：800

数据集下载地址：http://visal.cs.cityu.edu.hk/downloads/smallobjects/

说明：

从Internet（例如YouTube或Google）上的图像/视频收集的四个小物体数据集，包括4种类型的图像，可用于小物体目标检测的研究。

数据集包含四类：

fly：飞行数据集，包含600个视频帧，平均每帧86±39个物体（648×72 @ 30 fps）。32张图像用于训练（1：6：187），50张图像用于测试（301：6：600）。

honeybee：蜜蜂数据集，包含118张图像，每张图像平均有28±6个蜜蜂（640×480）。数据集被平均分配用于训练和测试集。仅前32张图像用于训练。

seagull：海鸥数据集，包含三个高分辨率图像（624×964），每个图像平均有866±107个海鸥。第一张图片用于训练，其余图片用于测试。

fish：鱼数据集，包含387帧视频数据，平均每帧56±9条鱼（300×410 @ 30 fps）。32张图像进行训练（1：3：94），65张图像进行测试（193：3：387）。 AI-TOD航空图像数据集

类型：目标检测

数量：28000

数据集下载地址：https://github.com/jwwangchn/AI-TOD

说明：

AI-TOD 在 28,036 张航拍图像中包含 8 个类别的 700,621 个对象实例。与现有航拍图像中的目标检测数据集相比，AI-TOD 中目标的平均大小约为 12.8 像素，远小于其他数据集。 iSAID航空图像大规模数据集

类型：目标检测

数量：2800

数据集下载地址：https://captain-whu.github.io/iSAID/dataset.html

说明：

iSAID 是第一个用于航空图像实例分割的基准数据集。这个大规模和密集注释的数据集包含 2,806 张高分辨率图像的 15 个类别的 655,451 个对象实例。 TinyPerson数据集

类型：目标检测

数量：1600

数据集下载地址：https://github.com/ucas-vg/PointTinyBenchmark/tree/master/dataset

说明：

在 TinyPerson 中有 1610 个标记图像和 759 个未标记图像（两者主要来自同一视频集），总共有 72651 个注释。 Deepscores 数据集

类型：目标检测

数量：1600

数据集下载地址：https://tuggeluk.github.io/deepscores/

说明：

DeepScores 包含高质量的乐谱图像，分为 300 0 000 张书面音乐，其中包含不同形状和大小的符号。

拥有近一亿个小对象，这使得我们的数据集不仅独一无二，而且是最大的公共数据集。DeepScores 带有用于对象分类、检测和语义分割的基本事实。因此，DeepScores 总体上对计算机视觉提出了相关挑战，超出了光学音乐识别 (OMR) 研究的范围。密集行人检测数据集

类型：目标检测

数量：13,382

数据集下载地址：http://www.cbsr.ia.ac.cn/users/sfzhang/WiderPerson/

说明：

WiderPerson 数据集是野外行人检测基准数据集，其图像选自广泛的场景，不再局限于交通场景。我们选择了 13,382 张图像并标记了大约 400K 带有各种遮挡的注释。我们随机选择 8000/1000/4382 图像作为训练、验证和测试子集。与 CityPersons 和 WIDER FACE 数据集类似，我们不发布测试图像的边界框基本事实。加州理工学院行人检测数据集

类型：目标检测

数量：13,382

数据集下载地址：http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/

说明：

加州理工学院行人数据集由大约 10 小时的 640x480 30Hz 视频组成，该视频取自在城市环境中通过常规交通行驶的车辆。注释了大约 250,000 帧（在 137 个大约分钟长的片段中），总共 350,000 个边界框和 2300 个独特的行人。注释包括边界框和详细的遮挡标签之间的时间对应关系。 NWPU VHR-10卫星图像数据集

类型：目标检测

数量：800

数据集下载地址：http://www.escience.cn/people/gongcheng/NWPU-VHR-10.html

说明：

NWPU VHR-10 Dataset 是一个用于空间物体检测的 10 级地理遥感数据集，其拥有 650 张包含目标的图像和 150 张背景图像，共计 800 张，目标种类包括飞机、舰船、油罐、棒球场、网球场、篮球场、田径场、港口、桥梁和汽车共计 10 个类别。 Inria 航空影像数据集

类型：目标检测

数量：800

数据集下载地址：https://project.inria.fr/aerialimagelabeling/

说明：

Inria 航空影像标注解决了遥感中的一个核心主题：航空影像的自动像素级标注。

数据集覆盖面积 810 平方公里（405 平方公里用于训练，405 平方公里用于测试）

空间分辨率为 0.3 m 的航空正射校正彩色图像

这些图像涵盖了不同的城市住区，从人口稠密的地区到高山城镇。 RSOD遥感图像数据集

类型：目标检测

数量：800

数据集下载地址：https://github.com/RSIA-LIESMARS-WHU/RSOD-Dataset-

说明：

一个开放的遥感图像目标检测数据集。数据集包括飞机、油箱、游乐场和立交桥。此数据集的格式为PASCAL VOC 。数据集包括4个文件，每个文件用于一种对象。

飞机数据集，446张图片中有4993架飞机。

操场，189张图片中的191个操场。

天桥，176张图片中的180座天桥。

油箱，165张图片中的1586个油箱。 EDS 数据集

类型：目标检测

数量：14219

数据集下载地址： https://github.com/DIG-Beihang/PSN

说明：

EDS 数据集针对由机器硬件参数引起的难以察觉的域间偏移问题研究，包含了来自 3 台不同 X 光机器的 14219 张图片, 其中 10 类物品, 共计 31655 个目标实例，均由专业标注人员进行标注。多显著性对象数据集

类型：目标检测

数量：1224

数据集下载地址：https://www.kaggle.com/datasets/jessicali9530/mso-dataset

说明：

本数据集共有 1224 张图像来自四个公共图像数据集：COCO、VOC07 、ImageNet 和 SUN 。Amazon Mechanic Turk 工作人员将每个图像标记为包含 0 、1 、2 、3 或 4 个以上的显着对象。可以在imgIdx.mat中找到此标签信息以及边界框注释，一个存储图像信息的matlab结构数组。MSO 数据集是 SOS 数据集测试集的子集。波士顿大学的团队删除了一些显着对象严重重叠或者对于标记指定数量的显着对象不明确的图像。因此，在来自 SOS 测试集的 1380 张图像中，只剩下 1224 张图像。MSO 数据集中超过一半的图像包含零个显着对象或多个显着对象。这旨在提供更真实的设置来评估显着对象检测方法。足球和板球数据集

类型：目标检测

数量：

数据集下载地址：https://www.kaggle.com/datasets/mlwhiz/detection-footballvscricketball

说明：

该数据集包含YOLO格式的足球和板球的注释图像，为Open Image Dataset 的一个子集。交通摄像头检测数据集

类型：目标检测

数量：

数据集下载地址：https://www.kaggle.com/datasets/ryankraus/traffic-camera-object-detection

说明：

该数据集是来自伊利诺伊州芝加哥市交通摄像头的增强随机屏幕截图的集合。在数据中，所有车辆都被标记在一个名为的类别中 car 。标签由边界框组成，并以 YOLOv5 PyTorch 格式存储。船只类型数据集

类型：目标检测

数量：1500

数据集下载地址：https://www.kaggle.com/datasets/clorichel/boat-types-recognition

说明：

大约 1,500 张不同大小的船图片，但按不同类型分类：浮标、游轮、渡船、货船、贡多拉、充气船、皮划艇、纸船、帆船。火星/月球陨石坑探测数据集

类型：目标检测

数量：

数据集下载地址：https://www.kaggle.com/datasets/lincolnzh/martianlunar-crater-detection-dataset

说明：

数据集主要包含图像数据和标签。

图像数据：可能包含陨石坑的火星和月球表面图像。数据源混杂。对于火星图像，图像主要来自 ASU 和 USGS；目前所有月球图像都来自美国宇航局月球勘测轨道器任务。所有图像均使用 RoboFlow 进行预处理。

标签：每个图像都有其关联的 YOLOv5 文本格式的标签文件。标注工作由我们自己完成，主要用于物体检测。无人机检测数据集

类型：目标检测

数量：1962

数据集下载地址：https://www.kaggle.com/datasets/nelyg8002000/uav-detection-dataset-images

说明：

该数据集包含 1962 个 jpg 无人机图像，可以用于图像分类。

优点：所有图像都经过清理、裁剪、重复删除、劣质质量删除等。

缺点：图片为不同的尺寸。 COCO2017数据集

类型：目标检测

数量：158000

数据集下载地址：https://github.com/cocodataset/cocoapi

说明：

COCO是微软团队提供的一个可以用来进行图像识别的大型图像数据集，用于对象检测、分割、人员关键点检测、素材分割和字幕生成。

CoCo数据集一共有五种标注类型：目标检测，关键点检测，素材分割，全景分割，图像说明

COCO2017是2017年发布的COCO数据集的一个版本，共 80 小类，主要用于在2017年后持有的物体检测任务、关键点检测任务和全景分割任务。

2. 人脸（face）

GENKI 人脸图像数据集

类型：人脸

数量：15000

数据集下载地址：https://inc.ucsd.edu/mplab/398.php

说明：

GENKI数据集是由加利福尼亚大学的机器概念实验室收集。该数据集包含GENKI-R2009a,GENKI-4K,GENKI-SZSL三个部分。GENKI-R2009a包含11159个图像，GENKI-4K包含4000个图像，分为“笑 ”和“不笑 ”两种，每个图片的人脸的尺度大小，姿势，光照变化，头的转动等都不一样，专门用于做笑脸识别。GENKI-SZSL包含3500个图像，这些图像包括广泛的背景，光照条件，地理位置，个人身份和种族等。哥伦比亚大学公众人物脸部数据库

类型：人脸

数量：58,797

数据集下载地址：https://www.cs.columbia.edu/CAVE/databases/pubfig/

说明：

PubFig Dataset 是一个大型人脸数据集，主要用于人脸识别和身份鉴定，其涵盖互联网上 200 人的 58,797 张图像，不同于大多数现有面部数据集，这些图像是在主体完全不受控制的情况下拍摄的，因此不同图像中姿势、光照、表情、场景、相机、成像条件和参数存在较大差异，该数据集类似于 UMass-Amherst 创建的 LFW 数据集。 CelebA 人脸数据集

类型：人脸

数量：200000

数据集下载地址：http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html

说明：

CelebFaces Attributes Dataset (CelebA) 是一个大规模的人脸属性数据集，包含超过 20 万张名人图像，每张都有 40 个属性注释。该数据集中的图像涵盖了较大的姿势变化和杂乱的背景。CelebA 种类多、数量多、注释丰富，包括10,177 个身份，202,599 张人脸图像，以及5 个地标位置，每张图像 40 个二进制属性注释。

该数据集可用作以下计算机视觉任务的训练和测试集：人脸属性识别、人脸识别、人脸检测、地标（或人脸部分）定位以及人脸编辑与合成。美国国防部人脸库

类型：人脸

数量：10000

数据集下载地址：https://www.nist.gov/itl/products-and-services/color-feret-database

说明：

为促进人脸识别算法的研究和实用化，美国国防部的Counterdrug Technology Transfer Program(CTTP)发起了一个人脸识别技术(Face Recognition Technology 简称FERET)工程，它包括了一个通用人脸库以及通用测试标准。到1997年，它已经包含了1000多人的10000多张照片，每个人包括了不同表情，光照，姿态和年龄的照片。 MTFL人脸识别数据集

类型：人脸

数量：12995

数据集下载地址：http://mmlab.ie.cuhk.edu.hk/projects/TCDCN.html

说明：

该数据集包含 12,995 张人脸图像，这些图像用 (1) 五个面部标志，(2) 性别、微笑、戴眼镜和头部姿势的属性进行了注释。 BioID人脸数据集

类型：人脸

数量：1521

数据集下载地址：https://www.bioid.com/facedb/

说明：

这个数据集包含了1521幅分辨率为384x286像素的灰度图像。每一幅图像来自于23个不同的测试人员的正面角度的人脸。为了便于做比较，这个数据集也包含了对人脸图像对应的手工标注的人眼位置文件。 PersonID人脸识别数据集

类型：人脸

数量：

数据集下载地址：https://cvhci.anthropomatik.kit.edu/~baeuml/publications/semi-supervised-learning-with-constraints-for-person-identification-in-multimedia-data/

说明：

该数据集所选用的人脸照片均来自于两部比较知名的电视剧，《吸血鬼猎人巴菲》和《生活大爆炸》。 CMU PIE人脸库

类型：人脸

数量：40000

数据集下载地址：http://vasc.ri.cmu.edu/idb/html/face/index.html

说明：

CMU PIE人脸库建立于2000年11月，它包括来自68个人的40000张照片，其中包括了每个人的13种姿态条件，43种光照条件和4种表情下的照片，现有的多姿态人脸识别的文献基本上都是在CMU PIE人脸库上测试的。 Youtube视频人脸数据集

类型：人脸

数量：3425

数据集下载地址：http://www.cs.tau.ac.il/~wolf/ytfaces/

说明：

该数据集包含 1,595 个不同人的 3,425 个视频。所有视频都是从 YouTube 下载的。每个主题平均有 2.15 个视频可用。最短剪辑时长为 48 帧，最长剪辑为 6070 帧，视频剪辑的平均长度为 181.3 帧。在这个数据集下，算法需要判断两段视频里面是不是同一个人。 CASIA 人脸图像数据集

类型：人脸

数量：2500

数据集下载地址：http://biometrics.idealtest.org/dbDetailForUser.do?id=9#/

说明：

CASIA 人脸图像数据库版本 5.0（或 CASIA-FaceV5）包含 500 个对象的 2,500 个彩色人脸图像。CASIA-FaceV5 的面部图像是使用罗技 USB 摄像头在一个会话中捕获的。CASIA-FaceV5的志愿者包括研究生、工人、服务员等。所有人脸图像均为16位彩色BMP文件，图像分辨率为640*480 。典型的类内变化包括照明、姿势、表情、眼镜、成像距离等。 Caltech人脸数据库

类型：人脸

数量：10,524

数据集下载地址：http://www.vision.caltech.edu/Image_Datasets/Caltech_10K_WebFaces/#Description

说明：

该数据集包含通过在谷歌图片搜索中输入常见的名字从网络上收集的人的图像。每个正面的眼睛、鼻子和嘴巴中心的坐标在地面实况文件中提供。此信息可用于对齐和裁剪人脸或作为人脸检测算法的基本事实。该数据集有 10,524 个不同分辨率和不同设置的人脸，例如肖像图像、人群等。侧面或非常低分辨率的面孔未标记。 RMFD口罩遮挡人脸数据集

类型：人脸

数量：90000

数据集下载地址：https://github.com/X-zhangyang/Real-World-Masked-Face-Dataset

说明：

RMFRD目前是世界上最大的真实口罩遮挡人脸数据集。

提出了三种类型的口罩遮挡人脸数据集，包括口罩遮挡人脸检测数据集（MFDD），真实口罩遮挡人脸识别数据集（RMFRD）和模拟口罩遮挡人脸识别数据集（SMFRD）。

这些数据集可供工业界和学术界免费使用，基于这些数据集，可以开发口罩遮挡人脸的各种应用。

(1) 真实口罩人脸识别数据集：从网络爬取样本，经过整理、清洗和标注后，含525人的5千张口罩人脸、9万正常人脸。

(2) 模拟口罩人脸识别数据集：给公开数据集中的人脸戴上口罩，得到1万人、50万张人脸的模拟口罩人脸数据集。

(3)真实口罩人脸验证数据集，包括426个人的4015张人脸图像，组合成3589对相同身份和3589对不同身份的人脸样本对（口罩人脸/正常人脸）。 IMDB-WIKI人脸数据集

类型：人脸

数量：524230

数据集下载地址：https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/

说明：

IMDB-WIKI 500k+ 是一个包含名人人脸图像、年龄、性别的数据集，图像和年龄、性别信息从 IMDB 和 WiKi 网站抓取，总计 524230 张名人人脸图像及对应的年龄和性别。其中，获取自 IMDB 的 460723 张，获取自 WiKi 的 62328 张。 WiderFace人脸检测数据集

类型：人脸

数量：32203

数据集下载地址：http://shuoyang1213.me/WIDERFACE/

说明：

WIDER FACE数据集是人脸检测的一个benchmark数据集，包含32203图像，以及393,703个标注人脸，其中，158,989个标注人脸位于训练集，39,496个位于验证集。每一个子集都包含3个级别的检测难度：Easy ，Medium ，Hard 。这些人脸在尺度，姿态，光照、表情、遮挡方面都有很大的变化范围。WIDER FACE选择的图像主要来源于公开数据集WIDER 。制作者来自于香港中文大学，他们选择了WIDER的61个事件类别，对于每个类别，随机选择40%10%50%作为训练、验证、测试集。 LFW 人像图像数据集

类型：人脸

数量：1680

数据集下载地址：http://vis-www.cs.umass.edu/lfw/#explore

说明：

该数据集是用于研究无约束面部识别问题的面部照片数据库。数据集包含从网络收集的13000多张图像。每张脸都贴上了所画的人的名字，图片中的1680人在数据集中有两个或更多不同的照片。

3. 文本识别（textg recongition）

53.文档影印和内容数据

类型：文本识别

数量：

数据集下载地址： http://www.mediateam.oulu.fi/downloads/MTDB/

说明：

MediaTeam Oulu Document 数据集是一个文档扫描图像和文档内容数据集，包含 500篇 1975年之前的文档信息。

54. CASIA手写数据集

类型：文本识别

数量：56,469

数据集下载地址：http://www.nlpr.ia.ac.cn/databases/handwriting/Touching_Characters_Databases.html

说明：

CASIA-HWDB-T包括56,469个二字或多字触摸字符串，其中1,818个字符串有多个触摸字符。作者还将接触字符串划分为 50,157 个全中文字符串、2,788 个全数字字符串、328 个全字母字符串和 3,196 个混合字符字符串。所有的字符串都标注了字符类、触摸点的位置以及字符串高度和平均笔画宽度等辅助值

55. Twitter地理定位信息数据集

类型：文本识别

数量：115,886

数据集下载地址：https://archive.org/details/twitter_cikm_2010

说明：

该数据集是与学术项目协调使用的公共推特更新的集合，用于研究与推特相关的地理定位数据。训练集包含 115,886 个 Twitter 用户和来自用户的 3,844,612 个更新。用户的所有位置都在美国以城市级粒度进行自我标记。测试集包含 5,136 个 Twitter 用户和来自用户的 5,156,047 条推文。用户的所有位置都是从他们的智能手机以“UT：纬度，经度 ”的形式上传的

56. 专利短语数据集

类型：文本识别

数量：

数据集下载地址：该数据集是为美国专利短语到短语匹配竞赛提供的。它通过提供context列中每个代码的含义来添加附加信息

说明：

该数据集是为美国专利短语到短语匹配竞赛提供的。它通过提供context列中每个代码的含义来添加附加信息

57. 电影元数据

类型：文本识别

数量：700000

数据集下载地址：https://www.kaggle.com/datasets/akshaypawar7/millions-of-movies

说明：

这些文件包含 TMDB 数据集中列出的超过 700,000 部电影的元数据。数据集每天更新以确保更新电影数据集。数据点包括演员、工作人员、情节关键词、预算、收入、海报、发布日期、语言、制作公司、国家、TMDB 投票计数和投票平均值、评论、推荐。

58. Olist 电子商务公共数据集

类型：文本识别

数量：100000

数据集下载地址：https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce

说明：

这是在Olist Store下订单的巴西电子商务公共数据集。该数据集包含 2016 年至 2018 年在巴西多个市场进行的 10 万份订单的信息。它的功能允许从多个维度查看订单：从订单状态、价格、付款和货运绩效到客户位置、产品属性，最后是客户撰写的评论。这是真实的商业数据，已匿名，评论文本中对公司和合作伙伴的引用已替换为《权力的游戏》大家族的名称。

59. Top1000的Github存储库数据集

类型：文本识别

数量：

数据集下载地址：https://www.kaggle.com/datasets/anshulmehtakaggl/top-1000-github-repositories-for-multiple-domains

说明：

关于 Github 上的 1000 个最受欢迎的关键字存储库的详尽数据

4. 图像分类（image classification）

MNIST 手写数字图像数据集

类型：分类

数量：70000

数据集下载地址： http://yann.lecun.com/exdb/mnist/

说明：

MNIST数据集是一个手写阿拉伯数字图像识别数据集，图片分辨率为 20x20 灰度图图片，包含‘0 - 9’ 十组手写手写阿拉伯数字的图片。其中，训练样本 60000 ，测试样本 10000 ，数据为图片的像素点值，作者已经对数据集进行了压缩。 GTSRB德国交通标志数据集

类型：分类

数量：50000

数据集下载地址：https://benchmark.ini.rub.de/gtsrb_news.html

说明：

德国交通标志基准测试是在 2011 年国际神经网络联合会议 (IJCNN) 上举办的多类单图像分类挑战赛。

该数据集收集了超过 50,000 个交通标志图像的全面、逼真的数据集。它反映了由于距离、照明、天气条件、部分遮挡和旋转而导致的标志视觉外观的强烈变化。

该数据集包含 43 个类别频率不平衡的类别。参与者必须对两个测试集进行分类，每个测试集超过 12,500 张图像。 Winegrape检测数据集

类型：分类

数量：300

数据集下载地址：https://github.com/thsant/wgisd

说明：

WGISD是为了提供图像和注释来研究对象检测和实例分割，用于葡萄栽培中基于图像的监测和现场机器人技术。它提供了来自五种不同葡萄品种的实地实例。这些实例显示了葡萄姿势、光照和焦点的变化，包括遗传和物候变化，如形状、颜色和紧实度。可能的用途包括放宽实例分割问题：分类（图像中是否有葡萄？）、语义分割（图像中的“葡萄像素 ”是什么？）、对象检测（图像中的葡萄在哪里？）、和计数（每个簇有多少浆果？）。 VOC2005车辆数据集

类型：图像分类

数量：

数据集下载地址：http://host.robots.ox.ac.uk/pascal/VOC/voc2005/index.html

说明：

该数据集中含有自行车、摩托车、汽车、货车的图像数据，可用于CNN模型以实现车辆识别和车辆分类，其中自行车、摩托车、汽车数据来自2005 PASCAL视觉类挑战赛（VOC2005）所使用的数据的筛选处理结果，货车图片来自网络收集，后期通过筛选处理得到。在本数据中，训练数据集与测试数据集占比约为5:1 。宠物图像数据集

类型：图像分类

数量：7350

数据集下载地址：https://www.robots.ox.ac.uk/~vgg/data/pets/

说明：

一个包含 37 个类别的宠物数据集，每个类别大约有 200 张图像。这些图像在比例、姿势和照明方面有很大的变化。所有图像都有相关的品种、头部 ROI 和像素级三元图分割的地面实况注释。猫咪数据集

类型：图像分类

数量：9000

数据集下载地址： https://www.kaggle.com/datasets/crawford/cat-dataset

说明：

CAT 数据集包括超过 9,000 张猫图像。对于每张图像，猫的头部都有九个点的注释，眼睛两个，嘴巴一个，耳朵六个。斯坦福狗狗数据集

类型：图像分类

数量：20,580

数据集下载地址： http://vision.stanford.edu/aditya86/ImageNetDogs/

说明：

斯坦福狗数据集包含来自世界各地的 120 种狗的图像。该数据集是使用 ImageNet 中的图像和注释构建的，用于细粒度图像分类任务。

该数据集的内容：类别数：120 ，图片数量：20,580 ，注释：类标签、边界框 Stanford 汽车图片数据

类型：图像分类

数量：16,185

数据集下载地址： ai.stanford.edu/~jkrause/cars/car_dataset.html

说明：

Cars 数据集包含 196 类汽车的 16,185 张图像。数据分为 8,144 个训练图像和 8,041 个测试图像，其中每个类别大致按 50-50 分割。课程通常在品牌、型号、年份级别，例如 2012 Tesla Model S 或 2012 BMW M3 coupe 。花卉数据集

类型：图像分类

数量：4242

数据集下载地址：https://www.kaggle.com/datasets/alxmamaev/flowers-recognition

说明：

该数据集包含 4242 张花卉图像。数据收集基于数据flicr 、google images 、yandex images 。此数据集可用于从照片中识别植物。数据图片会分为五类：洋甘菊、郁金香、玫瑰、向日葵、蒲公英。每个种类大约有800张照片。照片分辨率不高，约为 320x240 像素。照片不会缩小到单一尺寸，它们有不同的比例。综合汽车数据集

类型：图像分类

数量：136726

数据集下载地址：https://www.kaggle.com/datasets/renancostaalencar/compcars

说明：

该数据集是被CVPR 2015 论文“用于细粒度分类和验证的大规模汽车数据集 ”所使用的。综合汽车 (CompCars) 数据集包含来自两个场景的数据，包括来自网络自然和监视自然的图像。 web-nature 数据包含 163 个汽车制造商和 1,716 个汽车型号。总共有 136,726 张拍摄整车的图像和 27,618 张拍摄汽车零件的图像。完整的汽车图像标有边界框和视点。每个车型都标有五个属性，包括最大速度、排量、门数、座位数和汽车类型。监控性质的数据包含在前视图中捕获的 50,000 张汽车图像。室内场景识别

类型：图像分类

数量：15620

数据集下载地址：https://www.kaggle.com/datasets/itsahmad/indoor-scenes-cvpr-2019

说明：

该数据集是麻省理工学院提供的原始数据。室内场景识别是高层次视觉中一个具有挑战性的开放性问题。大多数适用于室外场景的场景识别模型在室内领域表现不佳。主要困难在于，虽然一些室内场景（例如走廊）可以通过全局空间属性很好地表征，但其他的（例如书店）可以通过它们包含的对象更好地表征。

该数据库包含 67 个室内类别，共 15620 张图像。图片的数量因类别而异，但每个类别至少有 100 张图片。所有图片均为jpg格式。 90种动物图像数据集

类型：图像分类

数量：5400

数据集下载地址：https://www.kaggle.com/datasets/iamsouravbanerjee/animal-image-dataset-90-different-animals

说明：

在这个数据集中有 90 个不同类别的 5400 张动物图像。此数据集是从 Google 图片创建的。所有照片将按照其所属类别存放于各自的文件夹下。动物类别包括：羚羊，獾，蝙蝠，熊，蜜蜂，甲虫，野牛，公猪，蝴蝶，猫，毛虫，黑猩猩等。该数据集中的图像大小不固定，需要后续的处理。标注鱼类数据集

类型：图像分类

数量：

数据集下载地址：https://swfscdata.nmfs.noaa.gov/labeled-fishes-in-the-wild/

说明：

野生图像数据集中的标记鱼类由 NOAA Fisheries（国家海洋渔业服务局）提供，以鼓励对无约束水下图像的自动图像分析算法进行开发、测试和性能评估。

该数据集包括鱼类、无脊椎动物和海床的图像，这些图像是使用部署在远程操作车辆 (ROV) 上的摄像系统收集的，用于渔业调查。衣服数据集

类型：图像分类

数量：5000

数据集下载地址：https://www.kaggle.com/datasets/agrigorev/clothing-dataset-full

说明：

衣服数据集总共收集了 20 种衣服的 5,000 张图像。该数据集是根据公共领域许可 (CC0) 发布的。

数据集包含 20 个类，包括T 恤（1011 件），长袖（699 件），裤子（692 件），鞋子（431 件）衬衫（378 件），连衣裙（357 件），外套（312 件），短裤（308 件），帽子（171 件），裙子（155 件），西装外套（109 件）等。

用特殊标志“孩子 ”标记了儿童服装的图像：是童装（476 项），不是童装（4927 项）。商标数据集

类型：图像分类

数量：167,140

数据集下载地址：https://github.com/msn199959/Logo-2k-plus-Dataset

说明：

构建了一个大规模的 logo 数据集 Logo-2K+ ，它涵盖了来自真实世界 logo 图像的各种 logo 类别。我们生成的徽标数据集包含 167,140 张图像，具有 10 个根类别和 2,341 个类别。飞机数据集

类型：图像分类

数量：10000

数据集下载地址：https://www.kaggle.com/datasets/seryouxblaster764/fgvc-aircraft

说明：

数据集包含 10,000 张飞机图像，数据分为 3334 个训练图像、3333 个验证图像和 3333 个测试图像。飞机模型按四级层次结构组织。四个层次，从细到粗，分别是：

型号，例如波音 737-76J 。由于某些模型在视觉上几乎无法区分，因此在评估中不使用此级别。

变体，例如波音 737-700 。一个变体将所有在视觉上无法区分的模型折叠成一个类。该数据集包含 100 个不同的变体。

家庭，例如波音 737 。该数据集包含 70 个不同的家族。

制造商，例如波音。该数据集包含 41 个不同的制造商。 Office-Home数据

类型：图像分类

数量：15500

数据集下载地址：https://www.hemanthdv.org/officeHomeDataset.html

说明：

Office-Home 是一个用于域适应的基准数据集，它包含 4 个域，每个域由 65 个类别组成。这四个领域是：艺术——素描、绘画、装饰等形式的艺术形象；剪贴画——剪贴画图像的集合；产品——没有背景的物体图像；和真实世界——用普通相机拍摄的物体图像。它包含 15,500 张图像，平均每个类大约 70 张图像，一个类最多 99 张图像食物图像数据集

类型：图像分类

数量：10000

数据集下载地址：https://www.kaggle.com/datasets/kmader/food41

说明：

该数据集包含完整 food-101 数据的许多不同子集。为了给图像分析制作一个比 CIFAR10 或 MNIST 更简单的训练集，该数据包括图像的大规模缩小版本，以实现快速测试。数据已被重新格式化为 HDF5 ，特别是 Keras HDF5Matrix ，这样可以轻松读取它们。加州理工学院相机陷阱数据集

类型：分类

数量：243100

数据集下载地址：https://beerys.github.io/CaltechCameraTraps/

说明：

该数据集包含来自美国西南部 140 个摄像头位置的 243,100 张图像，带有 21 个动物类别的标签（加上空白），主要是在物种级别（例如，最常见的标签是负鼠、浣熊和土狼），以及大约 66,000 个边界框注释。大约 70% 的图像被标记为空。 SVHN 街景门牌号数据集

类型：图像识别

数量：600,000

数据集下载地址：http://ufldl.stanford.edu/housenumbers/

说明：

SVHN 是一个真实世界的图像数据集，用于开发机器学习和对象识别算法，对数据预处理和格式化的要求最低。它可以被视为与MNIST风格相似（例如，图像是经过裁剪的小数字），但包含一个数量级的更多标记数据（超过 600,000 个数字图像），并且来自一个更难、未解决的现实世界问题（识别自然场景图像中的数字和数字）。SVHN 是从谷歌街景图像中的门牌号获得的。 3D MNIST 数字识别图像数据

类型：图像识别

数量：

数据集下载地址：https://www.kaggle.com/datasets/daavoo/3d-mnist

说明：

该数据集的目的是提供一种简单的方法来开始处理 3D 计算机视觉问题，例如 3D 形状识别。

该数据集包含从MNIST数据集的原始图像生成的3D点云，为使用2D数据集（图像）的人们带来熟悉的3D介绍。 CBCL 街道场景数据

类型：图像识别

数量：

数据集下载地址：http://cbcl.mit.edu/software-datasets/streetscenes/

说明：

StreetScenes Challenge Framework 是用于对象检测的图像、注释、软件和性能测量的集合。每张图像都是从马萨诸塞州波士顿及其周边地区的 DSC-F717 相机拍摄的。然后用围绕 9 个对象类别的每个示例的多边形手动标记每个图像，包括 [汽车、行人、自行车、建筑物、树木、天空、道路、人行道和商店]。这些图像的标记是在仔细检查下完成的，以确保对象总是以相同的方式标记，关于遮挡和其他常见的图像变换。

5. 缺陷检测（defect detection）

AITEX数据集

类型：缺陷检测

数量：245

数据集下载地址：https://www.aitex.es/afid/

说明：

该数据库由七个不同织物结构的245张4096 x 256像素图像组成。数据库中有140个无缺陷图像，每种类型的织物20个，除此之外，有105幅纺织行业中常见的不同类型的织物缺陷（12种缺陷）图像。图像的大尺寸允许用户使用不同的窗口尺寸，从而增加了样本数量。

Internet上的数据库还包含所有具有缺陷的图像的分割mask ，使得白色像素表示缺陷区域，其余像素为黑色。天池铝型材表面缺陷数据集

类型：缺陷检测

数量：10000

数据集下载地址：https://tianchi.aliyun.com/competition/entrance/231682/information

说明：

数据集里有1万份来自实际生产中有瑕疵的铝型材监测影像数据，每个影像包含一个或多种瑕疵。供机器学习的样图会明确标识影像中所包含的瑕疵类型。

图片分成单瑕疵图片、多瑕疵图片以及无瑕疵图片：单瑕疵图片指所含瑕疵类型只有一种的图片，但图片中可能出现多处相同类型的瑕疵；多瑕疵图片指所含瑕疵类型多于一种的图片；无瑕疵图片指瑕疵可忽略不计的图片，这些图片不需要标注。 Kylberg 纹理数据集

类型：缺陷检测

数量：20000

数据集下载地址：https://www.cb.uu.se/~gustaf/texture/

说明：

在布匹生产过程中，由于各方面因素的影响，会产生污渍、破洞、毛粒等瑕疵，为保证产品质量，需要对布匹进行瑕疵检测。

布匹疵点检验是纺织行业生产和质量管理的重要环节，目前人工检测易受主观因素影响，缺乏一致性；并且检测人员在强光下长时间工作对视力影响极大。由于布匹疵点种类繁多、形态变化多样、观察识别难道大，导致布匹疵点智能检测是困扰行业多年的技术瓶颈。

数据集包括 28个纹理类，每类160个独特纹理面片。数据包括包括素色布和花色布两类，其中，素色布数据约8000张；花色布数据约12000张。

本数据涵盖了纺织业中布匹的各类重要瑕疵，每张图片含一个或多种瑕疵。东北大学带钢表面缺陷数据集

类型：缺陷检测

数量：1800

数据集下载地址：http://faculty.neu.edu.cn/songkechen/zh_CN/zdylm/263270/list/

说明：

数据集收集了夹杂、划痕、压入氧化皮、裂纹、麻点和斑块6种缺陷，每种缺陷300张，图像尺寸为200×200 。

数据集包括分类和目标检测两部分，不过目标检测的标注中有少量错误，需要注意。谢韦尔钢铁公司带钢缺陷数据集

类型：缺陷检测

数量：18000

数据集下载地址：https://www.kaggle.com/c/severstal-steel-defect-detection/data

说明：

该数据集中提供了四种类型的带钢表面缺陷。训练集共有12568张，测试集5506张。图像尺寸为1600×256。 UCI 带钢缺陷数据集

类型：缺陷检测

数量：

数据集下载地址：https://archive.ics.uci.edu/ml/datasets/Steel+Plates+Faults

说明：

该数据集包含了7种带钢缺陷类型：装饰、Z划痕、K划痕、污渍、肮脏、颠簸、其他故障。

这个数据集不是图像数据，而是带钢缺陷的28种特征数据，可用于机器学习项目。 DAGM 2007数据集

类型：缺陷检测

数量：1000

数据集下载地址：https://hci.iwr.uni-heidelberg.de/content/weakly-supervised-learning-industrial-optical-inspection

说明：

该数据集用于统计纹理表面缺陷检测，为较弱监督的训练数据。

包含十个数据集，前六个为训练数据集，后四个为测试数据集。每个数据集均包含以灰度8位PNG格式保存的1000个“无缺陷 ”图像和150个“有缺陷 ”图像，每个数据集由不同的纹理模型和缺陷模型生成。“无缺陷 ”图像显示的背景纹理没有缺陷，“无缺陷”图像的背景纹理上恰好有一个标记的缺陷。所有数据集已随机分为大小相等的训练和测试子数据集。弱标签以椭圆形表示，大致表示缺陷区域。磁瓦缺陷数据集

类型：缺陷检测

数量：

数据集下载地址：https://gitcode.net/mirrors/abin24/Magnetic-tile-defect-datasets.?utm_source=csdn_github_accelerator

说明：

中国科学院自动所一个课题组收集的数据集，是“Saliency of magnetic tile surface defects ”这篇论文的数据集。收集了6种常见磁瓦缺陷的图像，并做了语义分割的标注。 RSDDs铁轨表面缺陷数据集

类型：缺陷检测

数量：200

数据集下载地址：http://icn.bjtu.edu.cn/Visint/resources/RSDDs.aspx