浅谈一点机器视觉

2022-07-10

3714次

视觉是人类强烈的感知方式。它为人们提供了大量关于周围环境的信息，使人们能够有效地与周围环境互动。据统计，80%以上的人类从外界获得的信息是通过视觉获得的，50%的人脑皮层参与视觉功能的运行。

视觉对大多数动物来说都具有至关重要的意义。的计算机视觉学者李飞飞描述说，眼睛、视觉和视力是动物基本的东西。在寒武纪生命爆发之前，地球上的生物种类很少，都生活在水中，被动地获得食物。在寒武纪生命爆发阶段，新物种突然增多，在短短的1000万年里，生物种类增长了数十万倍。寒武纪生命爆发的原因尚未得到公认，但其中一个观点是，这与视觉有很大关系。牛津大学生物学家AndrewParker通过研究生物化石发现，5.四亿年前，三叶虫早进化成眼睛（如下图所示）。动物有了视觉，就可以看到食物，然后开始主动捕食。因此，随着捕食者和被捕食者之间复杂行为的演化，动物的种类不断增加。因此，许多科学家认为，生命的爆发始于动物获得视觉后的生存过程，视觉在生物进化过程中非常重要。

关于视觉有很多有趣的发现，比如螳螂虾的眼睛可以检测到偏振光。人眼和普通相机只能感觉到光的强度信息，而不能检测到光的偏振信息。澳大利亚昆士兰大学的研究人员发现，螳螂虾的眼睛（见图1-2）可以检测到偏振光。根据生物医学和光学的理论知识，生物组织的特性与偏振信息有关，因此螳螂虾的眼睛可以“诊断”生物组织病变https://phys.org/news/2013-09-mantis-shrimp-world-eyesbut.html。此外，蜻蜓和其他昆虫有复眼结构（见图1-3），蜘蛛有很多眼睛，青蛙的眼睛只能看到动态场景，狗对颜色信息的分辨率很低。

那么，在介绍了生物的视觉功能后，什么是机器视觉呢？

机器视觉是机器（通常指数字计算机）图像的自动处理和报告“图像是什么”它用于识别图像中的内容，如自动目标识别。

机器视觉一般以计算机为中心，主要由视觉传感器、高速图像采集系统和专用图像处理系统等模块组成。

根据DavidA.Forsyth和JeanPonce计算机视觉的定义是利用几何、物理和学习理论来建立模型，从而利用统计方法来处理数据。它是指在透彻理解相机性能和物理成像过程的基础上，通过对每个像素值的简单推理，将多个图像中可能获得的信息整合成一个相互关联的整体，确定像素之间的关系，从而分离它们，或推断一些形状信息，然后使用几何信息或概率统计来识别对象。

考虑到系统的输入输出模式，机器视觉系统的输入是图像或图像序列，输出是描述。此外，机器视觉由两部分组成：特征测量和基于这些特征的模式识别。

机器视觉不同于图像处理。图像处理的目的是使图像处理得更好，图像处理系统的输出仍然是图像，而机器视觉系统的输出是与图像内容相关的信息。图像处理可分为低级图像处理、中级图像处理和图像处理，包括图像增强、图像编码、图像压缩、图像恢复和重建等。

机器视觉的发展

图1-4显示了20世纪70年代以来机器视觉发展过程中的一些主题，包括机器视觉发展初期（20世纪70年代）的数字图像处理和积木世界、20世纪80年代的卡尔曼滤波、正则化、90年代的图像分割、基于统计的图像处理以及21世纪计算摄像学和机器视觉的深度学习。

图片

1.20世纪70年代

机器视觉始于20世纪70年代初，被视为模拟人类智能并赋予机器人智能行为感知的一部分。当时，一些早期的人工智能和机器人研究人员（如麻省理工大学、斯坦福大学和卡内基）·梅隆大学的研究人员)认为，在解决高层次推理和规划等更困难问题的过程中，解决了高层次推理和规划的问题“视觉输入”问题应该是一个简单的步骤。例如，1966年，麻省理工大学的麻省理工大学。MarvinMinsky让他的本科生GeraldJaySussman暑假把相机连接到电脑上，让电脑描述它看到的东西。现在，我们知道这些看似简单的问题并不容易解决。

数字图像处理出现在20世纪60年代。与现有的数字图像处理领域不同，机器视觉期望从图像中恢复物体的三维结构，以获得完整的场景理解。场景理解的早期尝试包括对象（即对象）“积木世界”)边缘提取，然后从二维线的拓扑结构中推断其三维结构。当时，一些学者提出了一些线标记算法，边缘检测也是一个活跃的研究领域。

20世纪70年代，人们还研究了物体的三维建模。Barrow，Tenenbaum与Marr提出了一种理解亮度和阴影变化的方法，并通过表面方向和阴影恢复三维结构。当时，还有一些更定量的机器视觉方法，包括基于特征的三维视觉对应（stereocorrespondence）基于亮度的算法和光流（opticalflow）与此同时，关于恢复三维结构和相机运动的研究也开始出现。

另外，DavidMarr特别介绍了其关于（视觉）信息处理系统表达的三个层次：

1)计算理论:计算(任务)的目的是什么？已知或可以对这个问题施加的约束是什么？

2)表达和算法：输入、输出和中间信息是如何表达的哪些算法来计算预期的结果？

3）硬件实现：表达和算法如何反映在实际硬件上，即生物视觉系统或特殊硅片上？相反，硬件约束如何用于指导表达和算法的选择？随着机器视觉对芯片计算能力需求的不断增加，这个问题再次变得非常重要。

2.20世纪80年代

20世纪80年代，图像金字塔和尺度空间开始被广泛用于从粗到精的对应点搜索。20世纪80年代末，在一些应用中，小波变换开始取代图像金字塔。

三维视觉重建“由X到形状”方法包括从阴影到形状，从光度三维视觉到形状，从纹理到形状，从焦点到形状。在此期间，探索更准确的边缘和轮廓检测方法是一个活跃的研究领域，包括引入动态进化轮廓跟踪器，如Snake模型。三维视觉、光流，从X到形状和边缘检测算法，如果作为变分优化问题，可以用相同的数学框架统一描述，可以用正则化的方法增加鲁棒性。此外，卡尔曼滤波和三维距离数据在20世纪90年代（rangedata）在过去的十年里，处理仍然是一个非常活跃的研究领域。

3.20世纪90年代

20世纪90年代，视觉发展如下：

1)关于在识别中使用投影不变量的研究呈爆炸性增长，这种方法可以有效地用于从运动到结构的问题。初的许多研究都是针对投影重建的，它不需要相机校准的结果。与此同时，一些人提出使用因子分解方法来有效地解决近似正交投影的问题，然后扩展到透视投影。该领域开始使用全球优化方法，后来被认为是摄影测量中常用的“光束平差法”相关。

2)使用颜色和亮度进行精细测量，并与的辐射传输和形成彩色图像的物理模型相结合。这项工作始于20世纪80年代，形成了一个名字“基于物理视觉（physics-basedvisio）”的子领域。

3)光流方法不断改进。

4)在密集立体视觉对应算法方面也取得了许多进展。

上一篇： 机器视觉行业增速惊人，千亿蓝海规模初步显现

下一篇： 中国机器视觉产业格局及未来发展趋势

新闻资讯

新闻资讯

推荐新闻Recommend

联系我们Contact Us

浅谈一点机器视觉