当前位置: 首页 > news >正文

北京网站建设 奥美通全网营销培训推广 seo

北京网站建设 奥美通全网营销,培训推广 seo,安阳seo关键词优化,html论坛网站模板在前面,博主已经完成了YOLOS项目的部署与调试任务,并在博主自己构造的数据集上进行了实验,实验结果表明效果并不显著,其实这一点并不意外,反而是在情理之中。众所周知,Transformer一直以来作为NLP领域的带头…

在前面,博主已经完成了YOLOS项目的部署与调试任务,并在博主自己构造的数据集上进行了实验,实验结果表明效果并不显著,其实这一点并不意外,反而是在情理之中。众所周知,Transformer一直以来作为NLP领域的带头大哥,在CV领域也才刚刚起步,尽管其势头正猛,一时风光无量,但毕竟有个通病,那就是大数据集量。此外,YOLOS的设计初衷也并非是为了设计一款性能与CNN网络相媲美的检测器,其在论文中已经指出了自己的目的:

Can Transformer perform 2D object- and region-level recognition from a pure sequence-to-sequence perspective with minimal knowledge about the 2D spatial structure? To answer this question, we present You Only Look at One Sequence (YOLOS), a series of object detection models based on the vanilla Vision Transformer with the fewest possible modifications, region priors, as well as inductive biases of the target task.

Transformer 能否从纯序列到序列的角度执行 2D 对象和区域级识别,而对 2D 空间结构的了解很少?为了回答这个问题,我们提出了 YOLOS ,这是一系列基于原版视觉转换器的对象检测模型,具有尽可能少的修改、区域先验以及目标任务的归纳偏差。

ViT is designed to model long-range dependencies and global contextual information instead of local and region-level relations. Moreover, ViT lacks hierarchical architecture as modern CNNs to handle the large variations in the scale of visual entities . Based onthe available evidence, it is still unclear whether a pure ViT can transfer pre-trained general visual representations from image-level recognition to the much more complicated 2D object detection task.

ViT 旨在对长期依赖关系和全球上下文信息进行建模,而不是对区域级别的关系进行建模。此外,ViT缺乏作为现代CNN的分层架构来处理视觉实体规模的巨大变化。根据现有证据,目前尚不清楚纯ViT是否可以将预先训练的一般视觉表示从图像级识别转移到更复杂的2D对象检测任务中。(ViT做的是分类任务

上面的大概意思在博主看来就是Transformer能否在不借助一些CNN网络的情况下,在基本上不变更模型本身的前提下完成2D目标检测任务呢?由此他提出了YOLOS模型,说白了这个YOLOS与YOLO完全是八竿子打不着的。
但这篇文章也确实完成了他的任务,即能否只依靠Transformer模型本身来完成目标检测任务,前面已经提到,该模型提出是用于目标检测的,那就不可避免的涉及到DETR模型,该模型作为Transformer在目标检测领域的开山之作,其已经被广泛的改进。

但DETR模型中的特征提取网络也用到了CNN网络,这是YOLOS与其的一个不同之处。

DETR模型

关于DETR模型的相关介绍,大家可以阅读博主这篇文章:

DETR模型学习记录
相较而言,DETR的相关参考资料也更多些。

在这里插入图片描述

YOLOS模型

在模型设计方面,其尽可能参照原始ViT架构,并参照DETR针对目标检测进行适当调整。YOLOS可以轻易的适配不同的Transformer结构,这种简单的设置初衷不是为了更好的检测性能,而是为了尽可能无偏的揭示Transformer在目标检测方面的特性。

在这里插入图片描述
有针对性的选择随机初始的DET作为目标表达的代理以避免2D结构与标签赋值时注入的先验知识存在的归纳偏置。当在COCO上进行微调时,每次前向传播时,在DET与真实目标之间构建一个最优偶匹配。该步骤起着与标签赋值相同的作用,但它与2D结构无关,也即是说:YOLOS不需要将ViT的输出重解释为2D结构以进行标签赋值。理论上来讲,YOLOS可以进行任意维目标检测,且无需知道精确的空间结构或者几何结构,只要将输入按照相同方式平展为序列即可。

YOLOS是一款基于规范ViT架构的目标检测模型,具有尽可能少的修改以及注入的归纳偏置。从ViT到YOLOS检测器的变化很简单:

  1. YOLOS丢弃了用于图像分类的CLS而添加了100个随机初始化的DET;
  2. 在训练阶段,YOLOS采用偶匹配损失(Bipartite Matching Loss)替换了图像分类损失以进行目标检测。

关于预训练权重

在COCO上进行微调时,除用于分类和边界框回归的MLP头以及随机初始化的100个[DET]标记外,所有参数均从ImageNet-1k预训练权重初始化。分类和边界框回归头均由MLP实现,具有两个使用单独参数的隐藏层。

与DETR的不同之处

YOLOS的设计是受DETR启发而来:YOLOS采用DET作为目标表达的代理以避免2D结构和任务相关的先验知识导致的归纳偏置,YOLOS采用了与DETR相似的优化方式。但同时存在几点不同:

DETR采用了随机初始化的编解码形式的Transformer;而YOLOS则仅研究了预训练ViT编码的迁移能力;
DETR采用了decoder-encoder注意力并在每个decoder层添加额外辅助监督;而YOLOS总是查看每一层的一个序列,而没有再操作方面对块与DET进行区分。

意义

  1. YOLOS是一系列基于朴素ViT的目标检测模型,在中等大小数据集ImageNet上预训练的YOLOS已经足以在COCO上取得极具竞争力的目标检测性能。

  2. YOLOS可以轻易的适配不同的Transformer结构,这种简单的设置初衷不是为了更好的检测性能,而是为了尽可能无偏的揭示Transformer在目标检测方面的特性。

http://www.mmbaike.com/news/53870.html

相关文章:

  • 有哪些网站可以做店面设计友情链接交换
  • 什么用来编写网页seo门户网站建设方案
  • 做网站包括什么百度sem竞价托管公司
  • 广州网站制作品牌东莞网络公司电话
  • 微信公众平台做微网站营销网站建设规划
  • 网站客服代码郑州模板网站建设
  • 建设储蓄卡网站百度电视剧风云榜
  • 创意网站建设设计公司网络运营推广是做什么的
  • 网站备案 如何填个人网页设计作品模板
  • 烟台城乡住房建设厅网站上海百度seo优化
  • 深圳网站建设公司服务商网站建设的意义和作用
  • 建个网站 费用女教师遭网课入侵直播录屏曝光i
  • 做慈善黄色网站百度免费发布信息网站
  • 网站建设前后台语言个人开发app可以上架吗
  • 用wordpress仿a站广东seo推广外包
  • 自己做网站可以盗图吗十大搜索引擎排行榜
  • 企业官方网站建设营销网络的建设
  • 免费3d动画制作软件优帮云排名优化
  • 包头北京网站建设百度网页版入口链接
  • 怎么查看网站有没有做竞价广告资源发布平台
  • 网站模板放哪注册安全工程师
  • 网站横幅背景图南京seo推广公司
  • 做网站必须要推广吗seo云优化软件
  • 凡客家居怎么样seo在线优化平台
  • 急招程序员合肥360seo排名
  • 上海外贸网站优化百度seo按天计费
  • 做app 的模板下载网站有哪些内容郑州网站推广报价
  • 厦门正规网站建设多少表白网页制作免费网站制作
  • .tv可以做门户网站不徐州百度运营中心
  • 苏州互联网企业排名宁波seo推广优化公司