英雄联盟马匹查询器啥意思 英雄联盟怎么玩的( 二 )




ImageNet数据集和其他几个公共数据集一样, 起源于学术竞赛 。 传统上, 竞赛是一些机构和公司的研究人员经常相互挑战的主要领域 。 其中, ImageNet大规模视觉识别挑战赛(ILSVRC)自2010年成立以来就广受欢迎 。 这个特殊的比赛基于一些任务, 这些任务每年都会有所不同, 例如图像分类(分析图像属于哪些类别)、对象定位(识别对象在图像中的位置)、对象检测(识别和标记图像中的对象)、场景分类(对图像中的场景进行分类), 场景分析(将图像分割成与语义类别相关的区域, 如奶牛、房子、奶酪、帽子) 。 特别地, 图像分类任务包括获取输入图像并产生一个由1000个总类别中的5个标签组成的列表, 按置信度排序, 描述图像的内容 。


ILSVRC的训练集由120万个图像组成, 这些图像标有1000个名词中的一个(例如, “dog”), 称为图像的类 。 从这个意义上说, 我们将交替使用标签和类这两个术语 。 我们可以在图2.1中看到ImageNet中的图像 。


图 2.1 ImageNet图片数据集中的一个小样本




图 2.2 推理过程


我们最终能够将我们自己拍摄的图像输入到我们的预训练模型中, 如图2.2所示 。 这将产生该图像的预测标签列表, 然后我们可以检查该列表以查看模型认为我们的图像是什么!


首先将输入图像预处理为多维数组类torch.Tensor的实例 。 它是一个具有高度和宽度的RGB图像, 因此这个张量将有三个维度:三个颜色通道和两个特定大小的空间图像维度 。 (我们将在第3章中详细介绍张量的含义, 但现在, 把它看作是一个向量或浮点数矩阵 。 )我们的模型将处理后的输入图像传递到预先训练好的网络中, 得到每个类别的分数 。 根据权重, 最高分对应于最可能的类别 。 然后将每个类一对一地映射到一个类标签上, 该输出包含在一个torch.Tensor中, 包含1000个元素, 每个元素表示与该类相关的分数 。


在做这些之前, 我们需要先了解一下网络本身, 看看它是如何构造的, 并了解如何在模型使用之前准备好数据 。






预定义的模型可以在torchvision.models(code/p1ch2/2 _pre_trained_networks.ipynb)中找到:
我们可以看看实际的模型:




大写名称指的是实现许多流行模型的Python类 。 它们的体系结构不同, 也就是说, 在输入和输出之间发生的操作的排列上不同 。 小写名称是方便使用的函数, 返回从这些类实例化的模型, 有时使用不同的参数集 。 例如, resnet101返回具有101层的ResNet实例, resnet18具有18层, 依此类推 。 我们现在将注意力转向AlexNet 。




AlexNet架构以15.4%的top5测试错误率(即, 正确的标签必须在前5名预测中)赢得了2012年ILSVRC 。 相比之下, 排名第二的投稿者(并非基于深度网络)则以26.2%的错误率落后 。 当社区开始意识到使用深度学习解决视觉任务的潜力后, 这对于计算机视觉历史来说是一个决定性的时刻 。 这一飞跃之后是不断的改进, 更现代的体系结构和训练方法使得top5错误率低至3% 。


按照今天的标准, 和最先进的模型相比, AlexNet是一个相当小的网络 。 但是在我们的例子中, 它非常适合作为我们学习的第一个神经网络, 我们可以使用它来学习如何在一个新的图像上运行一个预先训练过的模型版本 。


我们可以在图2.3中看到AlexNet的结构 。 不是说我们现在已经掌握了理解它的所有要素, 而是我们可以预先了解一些方面 。 首先, 每个块由一系列乘法和加法组成, 再加上我们将在第5章中学习的输出中的少量其他函数 。 我们可以把它看作是一个过滤器, 看成一个将一个或多个图像作为输入并生成其他图像作为输出的函数 。 它这样做的方式是在训练期间根据它所看到的例子和这些例子所期望的结果来确定的 。


特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。