栏目分类

你的位置:软件开发平台价格 > 软件开发价格 > 软件定制开发 YOLO系列算法全家桶——YOLOv1-YOLOv9翔实先容 !!-CSDN博客

软件定制开发 YOLO系列算法全家桶——YOLOv1-YOLOv9翔实先容 !!-CSDN博客

发布日期:2024-11-06 04:56    点击次数:105
著述目次

绪言软件定制开发

一、YOLO算法的中枢想想

1. YOLO系列算法的门径

2. Backbone、Neck和Head

二、YOLO系列的算法

1. YOLOv1(2016)

1.1 模子先容

1.2 蚁集结构

1.3 拆伙细节

1.4 性能清晰

2. YOLOv2(2016)

app

2.1 校正部分

2.2 蚁集结构

2.3 性能清晰

3. YOLOv3 (2018)

3.1 模子先容

3.2 蚁集结构

3.3 校正部分

3.4 性能清晰

4. YOLOv4(2020)

4.1 模子先容

4.2 蚁集结构

4.3 校正部分

4.4 性能清晰

5. YOLOv5(2020)

5.1 模子先容

5.2 蚁集结构

5.3 校正部分

5.4 性能清晰

6. YOLOX(2021)

6.1 模子先容

6.2 蚁集结构

6.3 校正部分

6.4 性能清晰

7. YOLOv6(2022)

7.1 模子先容

7.2 蚁集结构

7.3 校正部分

7.4 性能清晰

8. YOLOv7(2022)

8.1 模子先容

8.2 蚁集结构

8.3 校正部分

8.4 性能清晰

9. YOLOv8(2023)

9.1 模子先容

9.2 蚁集结构

9.3 校正部分

9.4 性能清晰

10. YOLOv9(2024)

10.1 模子先容

10.2 蚁集结构

10.3 主要孝敬

10.4 性能清晰

绪言

本文翔实先容了从YOLOv1-YOLOv9的蚁集结构,以及各个版块之间的迭代。

图片

YOLOv1-YOLOv8之间的对比如下表所示:

ModelAnchorInputBackboneNeckPredict/  TrainYOLOv1锚框(7*7grids,2 anchors)

resize(448*448*3):

考验是224*224,测试是448*448;

GoogLeNet(24*Conv+2*FC+reshape;Dropout防护过拟合;终末一层使用线性激活函数,其余层齐使用ReLU激活函数);无

IOU_Loss、nms;一个网格只预计了2个框,况兼齐属于兼并类;全邻接层径直预计bbox的坐标值;

YOLOv2锚框(13*13grids,5 anchors:通过k-means取舍先验框)resize(416*416*3):416/32=13,终末得到的是奇数值有推行的中心点;在原考验的基础上又加上了(10个epoch)的448x448高分辨率样本进行微调;Darknet-19(19*Conv+5*MaxPool+AvgPool+Softmax;莫得FC层,每一个卷积后齐使用BN和ReLU防护过拟合(甩掉dropout);提倡passthrough层:把高分辨率特征拆分叠加大到低分辨率特征中,进行特征和会,有意于小标的的检测);无IOU_Loss、nms;一个蚁集预计5个框,每个框齐不错属于不同类;预计相关于anchor box的偏移量;多表率考验(考验模子经过一定迭代后,输入图像尺寸变换)、合股考验机制;YOLOv3锚框(13*13grids,9 anchors:三种表率*三种宽高比)resize(608*608*3)Darknet-53(53*Conv,每一个卷积层后齐使用BN和Leaky ReLU防护过拟合,残差邻接);FPN(多表率检测,特征和会)IOU_Loss、nms;多标签预计(softmax分类函数变嫌为logistic分类器);YOLOv4锚框resize(608*608*3)、Mosaic数据增强、SAT自对抗考验数据增强CSPDarknet53(CSP模块:更丰富的梯度组合,同期减少盘算量、跨小批量范例化(CmBN)和Mish激活、DropBlock正则化(速即删除一大块神经元)、取舍校正SAM珍见解机制:在空间位置上添加权重);

SPP(通过最大池化将不同尺寸的输入图像变得尺寸一致)、PANnet(修改PAN,add替换成concat)

CIOU_Loss、DIOU_nms;自对抗考验SAT:在原始图像的基础上,添加杂音并成就权重阈值让神经蚁集对本身进行对抗性攻击考验;类标签平滑:将系数化标签进行平滑(如:[0,1]→[0.05,0.95]),即分类拆伙具有一定的肮脏化,使得蚁集的抗过拟合才智增强;YOLOv5锚框resize(608*608*3)、Mosaic数据增强、自恰当锚框盘算、自恰当图片缩放CSPDarknet53(CSP模块,每一个卷积层后齐使用BN和Leaky ReLU防护过拟合,Focus模块);SPP、PAN

GIOU_Loss、DIOU_Nms;跨网格匹配(面前网格的上、下、左、右的四个网格中找到离标的中心点最近的两个网格,再加上头前网格共三个网格进行匹配); 

YOLOX无锚框resize(608*608*3)Darknet-53SPP、FPN

CIOU_Loss、DIOU_Nms、Decoupled Head、SimOTA标签分派战略;

YOLOv6无锚框resize(640*640*3)EfficientRep Backbone(Rep算子)SPP、Rep-PAN NeckSIOU_Loss、DIOU_Nms、Efficient Decoupled Head、SimOTA标签分派战略;YOLOv7锚框resize(640*640*3)Darknet-53(CSP模块替换了ELAN模块;下采样变成MP2层;每一个卷积层后齐使用BN和SiLU防护过拟合);SPP、PANCIOU_Loss、DIOU_Nms、SimOTA标签分派战略、带提拔头的考验(通过增多考验资本,升迁精度,同期不影响推理的时辰);YOLOv8无锚框

resize(640*640*3)

Darknet-53(C3模块换成了C2F模块)SPP、PANCIOU_Loss、DFL_Loss、DIOU_Nms、TAL标签分派战略、Decoupled Head; 一、YOLO算法的中枢想想

YOLO系列的中枢想想即是把标的检测波折为一个回想问题,利用整张图片算作蚁集的输入,通过神经蚁集,得到规模框的位置偏执所属的类别。

1. YOLO系列算法的门径

(1)差异图像:YOLO将输入图像差异为一个固定大小的网格。

(2)预计规模框和类别:关于每个网格,YOLO预计出固定数目(频繁为5个或3个)

的规模框。每个规模框由5个主要属性刻画:规模框的位置(中心坐标和宽高)和规模框包含的标的的置信度(confidence)。此外,每个规模框还预计标的的类别。

(3)单次前向传递:YOLO通过一个卷积神经蚁集(CNN)进行单次前向传递,同期预计通盘规模框的位置和类别。比拟于其他标的检测算法,如基于滑动窗口或区域提议的款式,YOLO具有更快的速率,因为它只需要一次前向传递即可完成预计。

(4)赔本函数:YOLO使用多任务赔本函数来考验蚁集。该赔本函数包括位置赔本、置信度损结怨类别赔本。位置赔本估量预计规模框和真实规模框之间的位置互异。置信度赔本估量规模框是否正确地预计了标的,并刑事处事布景框的置信度。类别赔本估量标的类别的预计准确性。

(5)非最大扼制(Non-Maximum Suppression):在预计的规模框中,可能存在多个相互重迭的框,代表兼并个标的。为了摈斥冗余的规模框,YOLO使用非最大扼制算法,字据置信度和重迭进度筛选出最好的规模框。

2. Backbone、Neck和Head

物体检测器的结构着手被刻画为三个部分:Backbone, Neck和Head。下图流露了一个高等次的Backbone, Neck 和 Head图。

图片

Backbone厚爱从输入图像中索要有用的特征。它频繁是一个卷积神经蚁集(CNN),在大范围的图像分类任务中考验,如IamgeNet。骨干蚁集在不同表率上捕捉档次化的特征,在较早的层中索要低档次的特征(如旯旮和纹理),在较深的层中索要高等次的特征(如物体部分和语义信息)。

Neck是邻接Backbone和Head的一个中间部件。它集结并细化骨干网索要的特征,频繁侧重于加强不同表率的空间和语义信息。颈部可能包括额外的卷积层、特征金字塔(FPN)或其他机制,以提高特征的代表性。

Head是物体检测器的终末构成部分。它厚爱字据Backbone和Neck提供的特征进行预计。它频繁由一个或多个特定任务的子蚁集构成,扩张分类、定位,以及最近的实例分割和姿势臆想。头部处理颈部提供的特征,为每个候选物产生预计。终末,一个后处理门径,如非极大值扼制(NMS),过滤掉重迭的预计,只保留置信度最高的检测。

二、YOLO系列的算法 1. YOLOv1(2016)

(论文地址:https://arxiv.org/pdf/1506.02640.pdf)

1.1 模子先容

在YOLOv1提倡之前,R-CNN系列算法在标的检测领域中独占鳌头。R-CNN系列检测精度高,然则由于其蚁集结构是双阶段(two-stage)的特色,使得它的检测速率不可昂扬及时性,饱受诟病。为了浮松这一僵局,波及一种速率更快的标的检测器是势在必行。

2016年,Joseph Redmon、Santosh Divvala、Ross Girshick等东谈主提倡了一种单阶段(one-stage)的标的检测蚁集。它的检测速率相称快,每秒不错处理45帧图片,梗概松驰地及时运行。由于其速率之快和其使用的特殊款式,作家将其取名为:You Only Look Once(也即是咱们常说的YOLO的全称),并将该遣懒散表在了CVPR2016上,从而引起了凡俗地关爱。

YOLO的中枢想想即是把标的检测波折成一个回想问题,利用整张图算作蚁集的输入,只是经过一个神经蚁集,得到bounding box(规模框)的位置偏执所属的类别。

1.2 蚁集结构

图片

目下看来,YOLOv1的蚁集结构十分判辨,是一种传统的one-stage的卷积神经蚁集:

蚁集输入:448*448*3的彩色图片中间层:由多少卷积层和最大池化层构成,用于索要图片的抽象特征全邻接层:由两个全邻接层构成,用来预计标的的位置和类别的概率值蚁集输出:7*7*30的预计拆伙 1.3 拆伙细节

(1)检测战略

YOLOv1取舍的是“分而治之”的战略,将一张图片平平分红7x7个网格,每个网格分别厚爱预计中心点落在该网格内的标的。在Faster R-CNN中,是通过一个RPN来获取标的的感酷爱区域,这种款式精度高,然则需要额外再考验一个RPN蚁集,这无疑增多了考验的处事。在YOLOv1中,通过差异得到了7x7个网格,这49个网格就畸形于是标的的感酷爱区域。通过这种面貌,咱们就不需要再额外假想一个RPN蚁集,这恰是YOLOv1算作单阶段蚁集的省略快捷之处。

图片

具体拆伙经过如下:

①. 将一副图像分红

图片

个网格(grid cell),要是某个object的中心落在这个网格中,则这个蚁集就厚爱预计这个object。

②. 每个网格齐要预计B个bounding box,每个bounding box要预计

图片

和confidence共5个值。

③. 每个网格还要预计一个类别信息,记为C个类。

④. 总的来说,

图片

个网格,每个网格要预计B个bounding box,还要预计C个类。蚁集输出即是一个

图片

的张量。

图片

在推行经过中,YOLOv1把一张图片差异为了7x7个网格,况兼每个网格预计2个Box(Box1和Box2),20个类别。是以推行上,S=7,B=2,C=20。那么蚁集输出的shape也即是:

图片

(2)标的赔本函数

图片

赔本由三部分构成,分别是:坐标预计赔本、置信度预计赔本、类别预计赔本。

使用的是差方和波折。需要真贵的是,w和h在进行波折盘算的时候取得是它们的普通根,原因是对不同大小的bounding box预计中,比拟于大bounding box预计偏极少,小box预计偏极少更不可哑忍。而差方和波折函数中对一样的偏移loss是一样。为了简易这个问题,作家用了一个比较取巧的办法,即是将bounding box的w和h取普通根代替正本的w和h。定位波折比分类波折更大,是以增多对定位波折的刑事处事,使

图片

。在每个图像中,许多网格单位不包含任何标的值。考验时就会把这些网格里的框的“置信度”分数推到零,这时时逾越了包含标的的框的梯度。从而可能导致模子不默契,考验早期发散。因此要减少了不包含标的的框的置信度预计的赔本,使

图片

。 1.4 性能清晰

(1)优点

YOLO检测速率相称快。范例版块的YOLO不错每秒处理45张图像;YOLO的极速版块每秒不错处理150帧图像。这就意味着YOLO不错小于25毫秒蔓延,及时地处理视频。关于欠及时系统,在准确率保证的情况下,YOLO速率快于其他款式。YOLO及时检测的平均精度是其他及时监测系统的两倍。迁徙才智强,能诓骗到其他新的领域(比如艺术品标的检测)。

(2)局限性

YOLO对相互围聚的物体,以及很小的群体检测效果不好,这是因为一个网格只预计了2个框,况兼齐只属于兼并类。由于赔本函数的问题,定位波折是影响检测效果的主要原因,尤其是大小物体的处理上,还有待加强。(因为关于小的bounding boxes,small error影响更大)。YOLO对不常见的角度的标的泛化性性能偏弱。 2. YOLOv2(2016)

(论文地址:https://arxiv.org/pdf/1612.08242.pdf#page=4.24)

2.1 校正部分

YOLOv2Joseph Redmon和Ali Farhadi发表在CVPR 2017。它包括了对原始YOLO的一些校正,保捏调换的速率,也更强劲,梗概检测9000个类别,这些校正有以下几点:

(1)在通盘卷积层上的批量归一化改善了料感性,并算作一个正则器来减少过拟合;

(2)高分辨率分类器,和YOLOv1一样,他们在ImageNet以224x224的分辨率对模子进行了预考验。关联词,这一次,他们在分辨率为448x448的ImageNet上对模子进行了10次微调,提高了蚁集在高分辨率输入下的性能;

(3)完全卷积。它们去掉了密集层,取舍了全卷积架构。

(4)使用Anchor来预计规模盒。他们使用一组先验框Anchor,这些Anchor具有预界说的风景,用于匹配物体的原型风景,如图6所示,每个网格单位齐界说了多个Anchor,系统预计每个Anchor的坐标和类别。蚁集输出的大小与每个网格单位的Anchor数目成正比。

(5)维度聚类。挑选好的Anchor有助于蚁集学习预计更准确的规模盒。作家对考验中的规模盒进行了k-means聚类,以找到更好的先验。他们取舍了五个Anchor,在调回率和模子复杂性之间进行了精采的衡量。

(6)径直预计位置。与其他预计偏移量的款式不同,YOLOv2恪守一样的理念,预计了相关于网格单位的位置坐标,蚁集为每个单位预计了五个bounding box,每个bounding box有五个值

图片

,其中

图片

畸形于YOLOv1的Pc,最终得到的bounding box坐标如图7所示。

(7)细粒度的特征。与YOLOv1比拟,YOLOv2去掉了一个池化层,关于416x416的输入图像,得到13x13的特征图。

(8)多表率考验。由于YOLOv2不使用全邻接层,输入不错是不同的尺寸。为了使YOLOv2对不同的输入尺寸具有鲁棒性,作家速即考验模子,每10编削变尺寸(从320x320到608x608)。

图片

图片

2.2 蚁集结构

YOLOv2 取舍 Darknet-19 算作特征索要蚁集,其合座结构如下:

图片

校正后的YOLOv2:Darknet-19,总结如下:

①. 与VGG相似,使用了好多3x3卷积核;况兼每一次池化后,下一层经过卷积之后的通谈数=池化输出的通谈 x 2。

②. 在每一层卷积后,齐增多了BN层进行预处理。

③. 取舍了降维的想想,把1x1的卷积置于3x3之间,用来压缩特征。

④. 在蚁集终末的输出上增多了一个global average pooling层。

⑤. 合座上取舍了19个卷积层,5个池化层。

为了更好的说明,将Darknet-19与YOLOv1、VGG16蚁集进行对比:

VGG-16:大多数检测蚁集框架齐是以VGG-16算作基础特征索要器,它功能强劲,准确率高,然则盘算复杂度较大,是以速率会相对较慢。因此YOLOv2的蚁集结构将从这方面校正。YOLOv1:基于GoogLeNet的自界说蚁集,比VGG-16的速率快,然则精度稍不如VGG-16。Darknet-19:速率方面,处理一张图片仅需要55.8亿次运算,比拟于VGG306.9亿次,速率快了近6倍。精度方面,在ImageNet上的测试精度为:top1准确率为72.9%,top5的准确率为91.2%。 2.3 性能清晰

在VOC2007数据集上进行测试,YOLOv2在速率为67fps时,精度不错达到76.8的mAP;在速率为40fps时,精度不错达到78.6的mAP 。不错很好的在速率和精度之间进行衡量。下图是YOLOv1在加入多样校正款式后,检测性能的改变。可见在经过多种校正款式后,YOLOv2在原基础上检测精度具有很大的升迁。

图片

相关于YOLOv1而言,不及之处在于,莫得进行多表率特征的结合预计,传递模块(Pass-Through Module)的使用在升迁细粒度特征的同期也对特征的空间,漫步产生了一定影响,以及对小标的的检测才智莫得昭着升迁。

3. YOLOv3 (2018)

(论文地址:https://arxiv.org/pdf/1804.02767.pdf)

3.1 模子先容

2018年,作家Redmon又在YOLOv2的基础上作念了一些校正。特征索要部分取舍Darknet-53蚁集结构代替原来的Darknet-19,利用特征金字塔蚁集结构拆伙了多表率检测,分类款式使用逻辑回想代替了softmax,在兼顾实用性的同期保证了标的检测的准确性。

从YOLOv1到YOLOv3,每一代性能的升迁齐与backbone(骨干蚁集)的校正密切联系。在YOLOv3中,作家不仅提供了darknet-53,还提供了轻量级的tiny-darknet。要是你想检测精度与速率兼备,不错取舍darknet-53算作backbone;要是你想达到更快的检测速率,精度方面不错妥协。那么tiny-darknet是你很好的取舍。总之,YOLOv3的活泼性使得它在推行工程中得到好多东谈主的醉心。

3.2 蚁集结构

比拟于 YOLOv2 的 骨干蚁集,YOLOv3 进行了较大的校正。借助残差蚁集的想想,YOLOv3 将原来的 darknet-19 校正为darknet-53。论文中给出的合座结构如下:

图片

Darknet-53主要由1x1和3x3的卷积层构成,每个卷积层之后包含一个批量归一化层和一个Leaky ReLU,加入这两部分的主义是为了防护过拟合。卷积层、BN层以及LeakyReLU共同构成Darknet-53的基本CBL。因为在Darknet-53中共包含53个这么的CBL,是以称其为Darkent-53。

为了愈加判辨地了解Darknet-53的蚁集结构,不错看底下这张图:

图片

(图片来源:jiangdabai)

为了更好的和会此图,底下对主要单位进行说明:

CBL:一个卷积层、一个BN层和一个Leaky ReLU构成的基本卷积单位。res unit:输入通过两个CBL后,再与原输入进行add;这是一种惯例的残差单位。残差单位的主义是为了让蚁集不错索要到更深层的特征,同期幸免出现梯度散失或爆炸。ResX:X个残差组件。concat:将Darknet-53的中间层和背面的某一层的上采样进行张量拼接,达到多表率特征和会的主义。这与残差层的add操作是不一样的,拼接会推行张量的维度,而add径直相加不会导致张量维度的改变。最背面的蓝色立方体暗示三种表率的输出。

与Darknet-19比拟,Darknet-53主要作念了如下校正:

莫得取舍最大池化层,转而取舍步长为2的卷积层进行下采样。为了防护过拟合,在每个卷积层之后加入了一个BN层和一个Leaky ReLU。引入了残差蚁集的想想,主义是为了让蚁集不错索要到更深层的特征,同期幸免出现梯度散失或爆炸。将蚁集的中间层和背面某一层的上采样进行张量拼接,达到多表率特征和会的主义。 3.3 校正部分

(1)输入端

Mosaic数据扩增:将四张不同的考验图像速即拼接在沿路,形成一张马赛克图像。这种面貌不错匡助模子学习并恰当不同的场景、标的风景和表率变化。自恰当锚框盘算:引入了自恰当锚框盘算的机制,旨在更好地恰当多样标的的尺寸和长宽比例变化。 运转锚框界说:最先,字据考验集的标注框,取舍运转的锚框。不错使用一些聚类算法(如k-means)对标注框进行聚类,以细目一组代表性的锚框。锚框诊疗:关于每个考验样本,字据该样本中的标的框与运转框的匹配进度,诊疗运转框的大小和长宽比例。这不错通过盘算标的框与锚框的IoU(交并比)来细目匹配进度,并字据匹配进度诊疗锚框的尺寸。锚框聚类:字据经过诊疗的锚框,再次进行聚类,得到一组更恰当面前数据集的锚框。这些聚类经过频繁是迭代进行的,直到达到一定的料理条目。锚框取舍:字据聚类得到的锚框勾通,不错取舍一定数目的锚框用于标的检测。频繁,不错字据聚类拆伙中的锚框长宽比例的漫步情况,取舍一些具有代表性的锚框。 自恰当缩放:字据标的尺寸来自动诊疗输入图像的大小。这么不错更好地恰当不同表率的标的,提高标的检测的准确性。

(2)骨干蚁集

YOLOv3的骨干蚁集Darknet-53包含卷积层(Convolutional Layer)、残差层(Residual Layer)、特征和会层(Feature Fusion Layer),蚁集层数的加深提高了检测精度,大宗残差蚁集模块的引入减少了由蚁集层数加深引起的梯度着落问题,金字塔池化模块的引入不错拆伙多尺寸的输入和协调尺寸的输出。

(3)颈部蚁集

YOLOv3的颈部蚁集是FPN(多表率检测,特征和会),FPN(Feature Pyramid Network)是一种用于标的检测和语义分割任务的特征金字塔蚁集结构。它的假想主义是处置单表率特征索要蚁集在处理不同表率标的时的艰巨。

FPN的主要想想如下:

特征索要:最先,通过卷积神经蚁集(如ResNet)进行特征索要。这些特征具有不同的表率和语义信息。顶层池化:为了获取更高分辨率的特征,FPN使用自顶向下的顶层池化操作,将较低分辨率的特征图上采样到较高分辨率。这不错通过上采样或插值等款式拆伙。横向邻接:为了和会不同档次的特征信息,FPN引入横向邻接,将上一层的特征与下一层的上采样特征进行逐元素相加(Element-wise Sum)。这么不错将初级别的细节信息与高级别的语义信息相结合,产生具有多表率特征的金字塔结构。特征和会:为了进一步升迁特征抒发才智,FPN在每个金字塔层级上引入一个额外的卷积层,进行特征和会和诊疗。

(4)输出端

YOLOv3在输出的校恰是多标签预计(softmax函数变为logistics分类器)。在YOLOv1中,频繁使用softmax函数算作分类器的激活函数,将每个类别的输出转动为概率漫步。

关联词,关于YOLOv3这么的多标签检测任务,一个标的可能属于多个类别,使用softmax函数会导致多个类别的概率之和逾越1,不恰当多标签问题的要求。因此,在YOLOv3中,取舍了logistic分类器算作分类器的激活函数。

logistic分类器将每个类别的输出视为独处的二分类问题,对每个类别使用sigmoid函数进行激活。sigmoid函数将输出限制在0到1之间,暗示每个类别的存在概率。

3.4 性能清晰

如下图所示,是多样先进的标的检测算法在COCO数据集上测试拆伙。很昭着,在昂扬检测精度差不齐的情况下,YOLOv3具有更快的推理速率。

图片

如下表所示,对不同的单阶段和两阶段蚁集进行了测试。通过对比发现,YOLOv3达到了与面前先进检测器的一样的水平。检测精度最高的是单阶段蚁集RetinaNet,然则YOLOv3的推理速率比RetinaNet快得多。

图片

4. YOLOv4(2020)

(论文地址:https://arxiv.org/pdf/2004.10934.pdf)

4.1 模子先容

从YOLOv3后,YOLO莫得新版块。直到2020年4月,Alexey Bochkovskiy、Chien-Yao Wang和Hong-Yuan Mark Liao在ArXiv发布了YOLOv4[50]的论文。起原,不同的作家提倡一个新的YOLO "官方 "版块让东谈主嗅觉很奇怪;关联词,YOLOv4保捏了调换的YOLO理念——及时、开源、端到端和DarkNet框架——而且校正相称令东谈主惬意,社区飞快领受了这个版块算作官方的YOLOv4。

YOLOv4的特有之处在于:

是一个高效而强劲的标的检测蚁集。它使咱们每个东谈主齐不错使用GTX 1080Ti 或2080Ti的GPU来考验一个超快速和精准的标的检测器。

在论文中,考据了大宗先进的手段对标的检测性能的影响。

对面前先进的标的检测款式进行了校正,使之更灵验,况兼更妥贴在单GPU上考验;这些校正包括CBN、PAN、SAM等。

4.2 蚁集结构

图片

(图片来源:jiangdabai)

先翔实先容一下YOLOv4的基本组件:

CBM:Yolov4蚁集结构中的最小组件,由Conv+Bn+Mish激活函数三者构成。CBL:由Conv+Bn+Leaky_relu激活函数三者构成。Res unit:鉴戒Resnet采集聚的残差结构,让蚁集不错构建的更深。CSPX:鉴戒CSPNet蚁集结构,由卷积层和X个Res unint模块Concate构成。SPP:取舍1×1,5×5,9×9,13×13的最大池化的面貌,进行多表率和会。

YOLOv4 = CSPDarknet53(骨干) + SPP附加模块(颈) + PANet旅途团员(颈) + YOLOv3(头部)

图片

4.3 校正部分

(1)输入端

无昭着变化。

(2)骨干蚁集

CSPDarknet-53骨干蚁集:YOLOv4取舍了称为CSPDarknet-53的新的骨干蚁集结构,它基于Darknet-53,并通过使用CSP(Cross Stage Partial)模块来提高特征暗示的才智。SAM(Spatial Attention Module):通过引入SAM模块,联系我们YOLOv4梗概自恰当地诊疗特征图的通谈珍见解权重。以增强对标的的感知才智。Mish激活函数:YOLOv4取舍了CSPDarknet-53算作其骨干蚁集,该采集聚的每个残差块(residual block)齐应用了Mish激活函数。这使得蚁集梗概从输入到输出的特征变换经过中引入非线性变换,并匡助蚁集更好地捕捉输入数据的复杂秉性。

(3)颈部蚁集

PANet特征和会:YOLOv4引入了PANet(Path Aggregation Network)模块,用于在不同表率的特征图之间进行信息传递和和会,以获取更好的多表率特征暗示。SPP:具体是在CSPDarknet-53蚁集的背面,通过在不同大小的池化层上进行特征索要,从而捕捉到不同表率上的高下文信息。

(4)输出端

 在YOLOv4中,如实引入了一种新的距离度量野心,称为CIOU。

CIOU是一种校正的标的检测赔本函数,用于估量预计框和真实框之间的距离。CIOU是DIoU的进一步扩展,除了研究框的位置和风景之间的距离外,还引入了一个附加的参数用于估量框的长宽比例的一致性。

CIOU的盘算公式如下:

图片

,其中,IoU暗示传统的交并比(Intersection over Union),d暗示预计框和真实框中心点之间的欧氏距离,c暗示预计框和真实框的对角线距离。在CIOU中,α是一个参数,用于均衡框长宽比例的一致性和框位置之间的距离。v是一个提拔项,用于刑事处事预计框和真实框之间的长宽比例互异。

CIOU赔本是通过最小化CIOU来优化标的检测模子。它不错算作定位赔本函数的一部分,用于估量预计框的定位准确性。通过CIOU赔本的引入,YOLOv4不错更好地优化规模框的位置、风景和长宽比例,从而提高标的检测的准确性和鲁棒性。

4.4 性能清晰

如下图所示,在COCO标的检测数据集上,对面前多样先进的标的检测器进行了测试。不错发现,YOLOv4的检测速率比EfficientDet快两倍,性能畸形。同期,将YOLOv3的AP和FPS分别提高10%和12%,吊打YOLOv3!

图片

抽象以上分析,总结出YOLOv4带给咱们的优点有:

与其他先进的检测器比拟,关于一样的精度,YOLOv4更快(FPS);关于一样的速率,YOLOv4更准(AP)。YOLOv4能在普通的GPU上考验和使用,比如GTX 1080Ti和GTX 2080Ti等。论文中总结了多样Tricks(包括多样BoF和BoS),给咱们启示,取舍合适的Tricks来提高我方的检测器性能。 5. YOLOv5(2020)

(代码地址:https://github.com/ultralytics/yolov5)

5.1 模子先容

YOLOv5有YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x四个版块。文献中,这几个模子的结构基本一样,不同的是depth_multiple模子深度和width_multiple模子宽度这两个参数。就和咱们买穿着的尺码大小排序一样,YOLOv5s蚁集是YOLOv5系列中深度最小、特征图的宽度最小的蚁集。其他三种齐是在此基础上不断加深,不断加宽。

图片

5.2 蚁集结构

图片

(图片来源:jiangdabai)

输入端:Mosaic数据增强、自恰当锚框盘算、自恰当图片缩放Backbone:Focus结构,CSP结构Neck:FPN+PAN结构Head:CIOU_Loss

基本组件:

Focus:基本上即是YOLOv2的passthrough。CBL:由Conv+Bn+Leaky ReLU三者3构成。CSP1_X:鉴戒CSPNet蚁集结构,由三个卷积层和X个Res unit模块Concat构成。CSP2_X:不再用Res unit模块,而是改为CBL。SPP:取舍1x1,5x5,9x9,13x13的最大池化面貌,进行多表率和会。 5.3 校正部分

(1)输入端

无昭着变化。

(2)骨干蚁集

Focus结构:Focus结构是YOLOv5中的一个首要组件,用于索要高分辨率特征。它取舍的是一种轻量级的卷积操作,匡助模子在保捏较高感受野的同期减少盘算处事。Focus结构通过将输入特征图进行通谈差异和空间差异,将原始特征图调遣为更小尺寸的特征图,并保留了原始特征图中的首要信息。这么作念有助于提高模子的感知才智和对小尺寸标的的检测准确性。CSPDarknet-53结构:CSP(Cross Stage Partial)Darknet-53是YOLOv5中的骨干蚁集结构。相关于YOLOv4中的Darknet-53,CSPDarknet-53引入了跨阶层部分邻接的想法,通过将特征图在通谈维度上分为两个部分,将其中一部分径直连入下一阶段,以增多信息流动的旅途,提高特征的传递效用。CSPDarknet-53结构在减少参数和盘算量的同期,保捏了较高的特征暗示才智,有助于提高标的检测的准确性和速率。

(3)颈部蚁集

无昭着变化。

(4)输出端

无昭着变化。

5.4 性能清晰

在COCO数据集上,当输入原图的尺寸是:640x640时,YOLOv5的5个不同版块的模子的检测数据如下:

图片

在COCO数据集上,当输入原图的尺寸是:1280x1280时,YOLOv5的5个不同版块的模子的检测数据如下:

图片

从上表可得知,从YOLOv5n到YOLOv5x,这五个YOLOv5模子的检测精度逐步高潮,检测速率逐步着落。字据技俩要求,用户不错取舍合适的模子,来拆伙精度与速率的最好衡量!

6. YOLOX(2021)

(论文地址:https://arxiv.org/pdf/2107.08430.pdf)

(代码地址:https://github.com/Megvii-BaseDetection/YOLOX?tab=readme-ov-file)

球员时代旅欧的朴柱昊推荐了前利兹联,现任加拿大队主帅马什,但委员会居然很多人不知道马什是谁。一度被认为是新帅头号热门的马什谈判失败后,朴柱昊又陆续推荐了尼科·科瓦奇、泰尔齐奇、瓦格纳、吉斯多尔(霍芬海姆)、费舍尔(柏林联合)、图赫尔等德甲背景名帅,但委员会一开始就有人力挺洪明甫,哪怕洪明甫明确拒绝,也一直在候选名单内。更令朴柱昊震惊的是:连利物浦都无法承受年薪要价2000万美元的葡萄牙名帅阿莫林,居然在韩国足协12人候选人之中,而韩国足协外教年薪预算上限仅有200万美元!

作为80后的主教练,杨林的执教时间不算长,但足够精彩。带队从中冠冲中乙、中乙保级、中乙冲中甲、中甲保级,从生存到进阶,每一次他拿到的都是最有挑战的任务单,而且其他新派教练都是在名帅外教身边做助理教练后才上位,杨林几乎没有过渡,他始终在自我摸索。

6.1 模子先容

YOLOX在YOLO系列的基础上作念了一系列的处事,其主要孝敬在于:在YOLOv3的基础上,引入了Decoupled Head,Data Aug,Anchor Free和SimOTA样本匹配的款式,构建了一种anchor-free的端到端标的检测框架,况兼达到了一流的检测水平。

此外,本文提倡的 YOLOX-L 模子在视频感知挑战赛(CVPR 2021年自动驾驶研讨会)上获取了第又名。作家还提供了因循ONNX、TensorRT、NCNN和Openvino的部署版块

图片

 为什么提倡YOLOX:

标的检测分为Anchor Based和Anchor Free两种面貌。

在Yolov3、Yolov4、Yolov5中,频繁齐是取舍 Anchor Based的面貌,来索要标的框。

Yolox 将 Anchor free 的面貌引入到Yolo系列中,使用anchor free款式有如下公正:

裁减了盘算量,不波及IoU盘算,另外产生的预计框数目较少。

        假定feature map的表率为80x80,anchor based款式在Feature Map上,每个单位格一般成就三个不同尺寸大小的锚框,因此产生3x80x80=19200个预计框。而使用anchor free的款式,仅产生80x80=6400个预计框,裁减了盘算量。

缓解了正负样本抵抗衡问题

        anchor free款式的预计框独一anchor based款式的1/3,而预计框中大部分是负样本,因此anchor free款式不错减少负样本数,进一步缓解了正负样本抵抗衡问题。

幸免了anchor的调参

        anchor based款式的anchor box的表率是一个超参数,不同的超参数成就会影响模子性能。anchor free款式幸免了这极少。

6.2 蚁集结构

图片

(图片来源:jiangdabai) 

输入端:暗示输入的图片,取舍的数据增强面貌:RandomHorizontalFlip、ColorJitter、多表率增强。Backbone:用来索要图片特征,取舍Darknet53。Neck:用于特征和会,取舍PAFPN。Prediction:用来拆伙预计。Decoupled Head、End-to-End YOLO、Anchor-free、Multi positives。 6.3 校正部分 无锚(Anchor-free):自YOLOv2以来,通盘后续的的YOLO版块齐是基于锚点的检测器。YOLOX受到CornerNet、CenterNet和FCOS等最先进的无锚物体检测器的启发,回到了一个无锚结构,简化了考验进息争码经过。与YOLOv3基线比拟,无锚的AP增多了0.9;多重正样本(Multi positives):为了弥补因缺少锚点而产生的普遍抵抗衡,作家使用了中心采样。他们将中心3x3的区域算作正例区域。这种款式使得AP增多了2.1。解耦头(Decoupled head):分类置信度和定位精度之间可能存在错位。由于这个原因,YOLOX将这两者分离成两个头(如图2所示),一个用于分类任务,另一个用于回想任务,将AP提高了1.1分,并加速了模子料理。高级标签分派:有究诘标明,当多个对象的bounding box重迭时,ground truth标签分派可能存在肮脏性,并将分派步调表述为最好传输(OT)问题。YOLOX在这项处事的启发下,提倡了一个简化的版块,称为simOTA。这一变化使AP增多了2.3分。强化增强:YOLOX使用MixUP和Mosaic增强。作家发现,在使用这些增强后,ImageNet预考验不再有公正。强势增强使AP增多了2.4分。

图片

6.4 性能清晰

YOLOX的性能特出了YOLOV5,YOLOX-X的AP值达到了51.2,逾越YOLOV5-X 0.8个百分点,此外模子推理速率和参数目齐具有比较大的上风。

图片

7. YOLOv6(2022)

(论文地址:https://arxiv.org/pdf/2209.02976.pdf)

(代码地址:https://github.com/meituan/YOLOv6/)

7.1 模子先容

YOLOv6于2022年9月由好意思团视觉东谈主工智能部发布在ArXiv。与YOLOv4和YOLOv5肖似,它为工业应用提供了多样不同尺寸的模子。跟从基于锚点的款式的趋势,YOLOv6取舍了无锚点的检测器。

YOLOv5/YOLOX 使用的 Backbone 和 Neck 齐基于 CSPNet 搭建,取舍了多分支的面貌和残差结构。关于 GPU 等硬件来说,这种结构会一定进度上增多延时,同期减小内存带宽利用率。因此,YOLOv6对Backbone 和 Neck 齐进行了从头假想,Head层沿用了YOLOX中的Decoupled Head并稍作修改。畸形于YOLOv5而言,v6对蚁集模子结构进行了大宗的变嫌。

7.2 蚁集结构

图片

(图片来源:cainiaoxiaoqiao)

由上图所示,从合座上看,YOLOv6的蚁集结构与YOLOv4、YOLOv5是很相似的,尤其是backbone和neck部分,然则其中的拆伙模块是有变化的;但最大的不同在于Head部分,取舍的是YOLOX的hHead面貌,将分类和回想分为两个岔路,进行了解耦操作。

7.3 校正部分

(1)输入端

无锚框,取消了YOLOv1到YOLOv5一直沿用的锚框。

(2)骨干蚁集

 YOLOv6的Backbone的拆伙的基本模块为RVB1_X结构,其全程为RepVGGBlock_X,暗示由多个RepVGGBlock构成。

RepVGGBlock是RepVGG蚁集的重复模块,由多个RepVGGConv模块构成。每个RepVGGBlock由两个RepVGGConv模块构成,第一个RepVGGConv是一个3x3卷积操作,而第二个RepVGGConv是一个1x1卷积操作。

这两个卷积模块之间使用了批归一BatchNorm)和ReLU激活函数。RepVGGConv模块是RepVGG采集聚的基本卷积模块,由一个卷积层、批归一化和ReLU激活函数构成。这么的假想使得RepVGGBlock具有较强的抒发才智,况兼不错恰当不同的特征索要需求。

RepVGGBlock在RepVGG采集聚被重复堆叠屡次,形成了深层的蚁集结构。通过堆叠多个RepVGGBlock,不错提高蚁集的暗示才智和复杂度,从而拆伙更准确的特征索要和标的识别。

(3)颈部蚁集

PANet结构肖似更换为RepVGGBlock结构。

(4)输出端

YOLOv6对检测头进行了解耦,分开了边框与类别的分类经过。

7.4 性能清晰

YOLOv6 的检测精度和速率均优于以前最先进的模子,同期假想了 8 种缩放模子为不同场景中的工业应用定制不同范围的蚁集模子,不错检测不同表率的图像从而提高检测效果,其部署省略、盘算量较低,适用于及时检测。况兼因循在不同平台上头的部署,简化工程部署的适配处事。但检测准确率其同期期的其他先进算法比拟较低。

下表为与 COCO 2017 val 上其他 YOLO 系列的比较。FPS 和蔓延是在使用 TensorRT 的 Tesla T4 上以 FP16 精准度测量的。咱们的通盘模子齐在莫得预考验或任何外部数据的情况下考验了 300 个epoch。在输入分辨率为 640×640 的情况下,咱们对模子的准确性和速率性能进行了评估。'‡'暗示所提倡的自蒸馏款式是歪斜化的。∗"暗示通过官方代码发布的模子的从头评估拆伙。

图片

8. YOLOv7(2022)

(论文地址:https://arxiv.org/pdf/2207.02696.pdf)

(代码地址:https://github.com/WongKinYiu/yolov7)

8.1 模子先容

YOLOv7由YOLOv4和YOLOR的兼并作家于2022年7月发表在ArXiv。那时,在5 FPS到160 FPS的范围内,它的速率和准确度逾越了通盘已知的物体检测器。与YOLOv4一样,它只使用MS COCO数据集进行考验,莫得预考验的骨干。YOLOv7提倡了一些架构上的变化和一系列的免费包,在不影响推理速率的情况下提高了准确率,只影响了考验时辰。

图片

8.2 蚁集结构

图片

最先对输入的图片 resize 为 640x640 大小,输入到 backbone 采集聚,然后经 head 层蚁集输出三层不同 size 大小的 **feature map**,经过 Rep 和 conv输出预计拆伙,这里以 coco 为例子,输出为 80 个类别,然后每个输出(x ,y, w, h, o) 即坐标位置和前后布景,3 是指的 anchor 数目,因此每一层的输出为 (80+5)x3 = 255再乘上 feature map 的大小即是最终的输出了。

8.3 校正部分

(1)输入端

与YOLOv5肖似。

(2)骨干蚁集

Backbone为骨干蚁集由CBS、ELAN、MP-1构成。

CBS结构:特征索要和通谈调遣。ELAN:通过不同的分支将特征图拼接起来,进而促进更深层蚁集的灵验学习和料理。MP-1:将经过不同下采样面貌所得到的特征图进行和会,在不增多盘算量的同期保留更多的特征信息。

(3)颈部蚁集

该蚁集主要包括SPPCSPC、ELANW、UPSample三个子模块和Cat结构,其中,SPPCSPC模块用于提高特征索要的效用和准确率;ELANW模块比拟于ELAN模块增多了两个拼接操作;UPSample模块用于拆伙不同档次特征的高效和会;Cat结构旨在进一步优化卷积层的效果。

(4)输出端

与YOLOv6肖似。检测头厚爱蚁集最终的预计输出,针对Neck处理后的特征信息进行解耦,取舍重参数化模块对Neck输出的三种不同尺寸的特征进行通谈数诊疗,再经过1x1的卷积操作,得出标的物体的位置、置信度和类别的预计。

8.4 性能清晰

  YOLOv7 算法提倡了基于级联的模子缩放战略从而生成不同尺寸的模子,减少参数目和盘算量,不错进行及时标的检测,在大数据集进行考验检测有较高精度且合座检测性能有所升迁。然则其蚁集架构也相对复杂进行考验测试需要大宗盘算资源,且对小标的和密集场景的检测效果较差。

图片

9. YOLOv8(2023)

(代码地址:https://github.com/ultralytics/ultralytics)

9.1 模子先容

YOLOv8 与YOLOv5出自兼并个团队,是一款前沿、最先进(SOTA)的模子,基于先前 YOLOv5版块的顺利,引入了新功能和校正,进一步升迁性能和活泼性。

YOLOv8是一种顶端的、最先进的 (SOTA) 模子,它建筑在以前顺利的 YOLO 版块的基础上,并引入了新的功能和校正,以进一步提高性能和活泼性。YOLOv8 旨在快速、准确且易于使用,这也使其成为对象检测、图像分割和图像分类任务的绝佳取舍。具体调动包括一个新的骨干蚁集、一个新的 Ancher-Free 检测头和一个新的赔本函数,还因循YOLO以往版块,轻便不同版块切换和性能对比。

YOLOv8 有 5 个不同模子大小的预考验模子:n、s、m、l 和 x。关爱底下的参数个数和COCO mAP(准确率),不错看到准确率比YOLOv5有了很大的升迁。畸形是 l 和 x,它们是大模子尺寸,在减少参数数目的同期提高了精度。

图片

9.2 蚁集结构

图片

合座结构上与YOLOv5肖似: CSPDarknet(骨干) + PAN-FPN(颈) + Decoupled-Head(输露面部),然则在各模块的细节上有一些校正,况兼合座上是基于anchor-free的想想,这与yolov5也有简直质上的不同。

9.3 校正部分

(1)输入端

与YOLOv7肖似。

(2)骨干蚁集

Backbone部分取舍的结构为Darknet53,其中包括基本卷积单位Conv、拆伙局部特征和全局特征的Feature Map级别的和会的空间金字塔池化模块SPPF、增多蚁集的深度和感受野,提高特征索要才智的C2F模块。

(3)颈部蚁集

与YOLOv5肖似。

(4)输出端

在赔本函数盘算方面,取舍了Task AlignedAssigner正样天职派战略。由分类赔本VFL(Varifocal Loss)和回想赔本CIOU(Complete-IOU)+DFL(Deep Feature Loss)两部分的三个赔本函数加权组合而成。

9.4 性能清晰

YOLOv8 的检测、分割和姿态模子在 COCO 数据集上进行预考验,而分类模子在 ImageNet 数据集上进行预考验。在初度使用时,模子会自动从最新的 Ultralytics 发布版块中下载。

YOLOv8共提供了5中不同大小的模子取舍,轻便迷惑者在性能和精度之前进行均衡。以下以YOLOv8的标的检测模子为例:

图片

YOLOv8的分割模子也提供了5中不同大小的模子取舍:

图片

从下图咱们不错看到,YOLOv8 在标的检测和实例分割任务上的性能齐很好:

图片

​​​​​​​

(图片来源:YOLOv8来了!) 

10. YOLOv9(2024)

(论文地址:https://arxiv.org/pdf/2402.13616.pdf)

(代码地址:https://github.com/WongKinYiu/yolov9)

10.1 模子先容

YOLOv9是原YOLOv7团队打造,提倡了可编程梯度信息(PGI)的见地来应付深度蚁集拆伙多个标的所需的多样变化。 PGI不错为标的任务盘算标的函数提供好意思满的输入信息,从而获取可靠的梯度信息来更新蚁集权值。此外,还假想了一种新的轻量级蚁集架构——基于梯度旅途计议的通用高效层团员蚁集(GELAN)。 GELAN的架构阐述了PGI在轻量级模子上取得了优异的拆伙。

图片

10.2 蚁集结构

图片

下图展示了不同蚁集架构的速即运转权重输出特征图的可视化拆伙:(a) 输入图像,(b) PlainNet,(c) ResNet,(d) CSPNet,和 (e) 提议的GELAN。从这些可视化拆伙中,咱们不错看出在不同的架构中,提供给标的函数用以盘算赔本的信息在不同进度上有所丢失,而提议的GELAN架构梗概保留最好意思满的信息,并为盘算标的函数提供最可靠的梯度信息。

具体来说,输入图像(a)是原始未处理的图像。接下来的四个图像(b-e)分别展示了当这个输入图像通过不同的蚁集架构时,在蚁集的某一层上的特征图。这些特征图通过蚁集层的权重速即运转动得到,旨在展示蚁集在处理数据时的特征索要才智。图中的神志变化代表特征的激活进度,激活进度越高,说明蚁集关于图像的某一部分特征越明锐。

图片

PlainNet (b) 流露了一个基本蚁集结构的特征图,不错看到有大宗的信息丢失,这意味着在推行应用中可能不会捕捉到通盘有用的特征。ResNet (c) 算作一个经典的深度学习架构,展示了更好的信息保留才智,但仍有一些信息赔本。CSPNet (d) 通过其特殊的结构假想,进一步减少了信息的丢失。GELAN (e) 展示了该究诘提倡的架构,从图中不错看出,与其他架构比拟,它保留了最好意思满的信息,这标明GELAN架构能更好地保留输入数据的信息,为后续的标的函数盘算提供更准确的梯度信息。 10.3 主要孝敬 咱们从可逆函数的角度表面分析了现存的深度神经蚁集架构,并通过这依然过顺利评释了已往难以评释的许多陶然。咱们还基于这一分析假想了PGI和提拔可逆分支,并取得了优异的拆伙。咱们假想的PGI处置了深度监督只可用于极深神经蚁集架构的问题,因此允许新的轻量级架构真确应用于日常生计中。咱们假想的GELAN仅使用传统卷积就拆伙了比基于最先进技能的深度卷积假想更高的参数利用率,同期展现了轻巧、快速和准确的普遍上风。结合所提倡的PGI和GELAN,YOLOv9在MS COCO数据集上的对象检测性能在通盘方面齐大大逾越了现存的及时对象检测器。

核默算法:(具体参考:http://t.csdnimg.cn/1LWuY软件定制开发)

(1)可编程梯度信息(PGI)

为了处置上述问题,论文提倡了一种新的提拔监督框架,称为可编程梯度信息(PGI),如图3(d)所示。 PGI主要包括三个构成部分:主分支、提拔可逆分支、多级提拔信息。

图片

从图3(d)中咱们不错看出,PGI的推理经过仅使用主分支,因此不需要任何额外的推理资本。至于其他两个组件,它们仅用于考验阶段而不在推理阶段,用于处置或减缓深度学习款式中的几个首要问题:

提拔可逆分支:是为了处理神经蚁集加深带来的问题而假想的。蚁集加深会变成信息瓶颈,导致赔本函数无法生成可靠的梯度。关于多级提拔信息:旨在处理深度监督带来的波折积蓄问题,畸形是针对多个预计分支的架构和轻量级模子。

(2)GELAN 

通过结合取舍梯度旅途计议假想的两种神经蚁集架构CSPNet 和ELAN ,论文假想了兼顾轻量级、推理速率和准确性的广义高效层团员蚁集(GELAN)。其合座架构如图 4 所示。论文将最先仅使用卷积层堆叠的 ELAN 的功能扩张到不错使用任何盘算块的新架构。

图片

10.4 性能清晰

咱们基于YOLOv7和Dynamic YOLOv7分别构建了YOLOv9的通用和扩展版块。在蚁集架构假想中,咱们用GELAN替换了ELAN,GELAN使用CSPNet块算作盘算块,并计算取舍RepConv。咱们还简化了下采样模块,并优化了无锚点的预计头。至于PGI的提拔赔本部分,咱们完全恪守了YOLOv7的提拔头成就。

如表1所示,与轻量级和中型模子YOLO MS比拟,YOLOv9的参数减少了约10%,盘算量减少了5∼15%,但AP仍然有0.4∼0.6%的升迁。与 YOLOv7 AF 比拟,YOLOv9-C 的参数减少了 42%,盘算量减少了 22%,但达到了调换的 AP(53%)。与YOLOv8-X比拟,YOLOv9-E参数减少16%,盘算量减少27%,AP判辨升迁1.7%。上述对比拆伙标明,论文提倡的YOLOv9与现存款式比拟在各方面齐有显赫校正。

图片

参考:

https://arxiv.org/pdf/2304.00501.pdf

http://t.csdnimg.cn/pQb6X

http://t.csdnimg.cn/GfUXC

http://t.csdnimg.cn/f9x3z

http://t.csdnimg.cn/gSuBb

http://t.csdnimg.cn/eIzHw

http://t.csdnimg.cn/0e7zR

https://www.cnblogs.com/cvlinke/p/16496988.html

http://t.csdnimg.cn/CvyTo

http://t.csdnimg.cn/aKEOi

http://t.csdnimg.cn/1LWuY

本站仅提供存储服务,通盘内容均由用户发布,如发现存害或侵权内容,请点击举报。

上一篇:软件定制开发 英语语法:ago和before的用法
下一篇:没有了