视觉是人类强烈的感知方式。它为人们提供了大量关于周围环境的信息,使人们能够有效地与周围环境互动。据统计,80%以上的人类从外界获得的信息是通过视觉获得的,50%的人脑皮层参与视觉功能的运行。
视觉对大多数动物来说都具有至关重要的意义。的计算机视觉学者李飞飞描述说,眼睛、视觉和视力是动物基本的东西。在寒武纪生命爆发之前,地球上的生物种类很少,都生活在水中,被动地获得食物。在寒武纪生命爆发阶段,新物种突然增多,在短短的1000万年里,生物种类增长了数十万倍。寒武纪生命爆发的原因尚未得到公认,但其中一个观点是,这与视觉有很大关系。牛津大学生物学家AndrewParker通过研究生物化石发现,5.四亿年前,三叶虫早进化成眼睛(如下图所示)。动物有了视觉,就可以看到食物,然后开始主动捕食。因此,随着捕食者和被捕食者之间复杂行为的演化,动物的种类不断增加。因此,许多科学家认为,生命的爆发始于动物获得视觉后的生存过程,视觉在生物进化过程中非常重要。
关于视觉有很多有趣的发现,比如螳螂虾的眼睛可以检测到偏振光。人眼和普通相机只能感觉到光的强度信息,而不能检测到光的偏振信息。澳大利亚昆士兰大学的研究人员发现,螳螂虾的眼睛(见图1-2)可以检测到偏振光。根据生物医学和光学的理论知识,生物组织的特性与偏振信息有关,因此螳螂虾的眼睛可以“诊断”生物组织病变https://phys.org/news/2013-09-mantis-shrimp-world-eyesbut.html。此外,蜻蜓和其他昆虫有复眼结构(见图1-3),蜘蛛有很多眼睛,青蛙的眼睛只能看到动态场景,狗对颜色信息的分辨率很低。
那么,在介绍了生物的视觉功能后,什么是机器视觉呢?
机器视觉是机器(通常指数字计算机)图像的自动处理和报告“图像是什么”它用于识别图像中的内容,如自动目标识别。
机器视觉一般以计算机为中心,主要由视觉传感器、高速图像采集系统和专用图像处理系统等模块组成。
根据DavidA.Forsyth和JeanPonce计算机视觉的定义是利用几何、物理和学习理论来建立模型,从而利用统计方法来处理数据。它是指在透彻理解相机性能和物理成像过程的基础上,通过对每个像素值的简单推理,将多个图像中可能获得的信息整合成一个相互关联的整体,确定像素之间的关系,从而分离它们,或推断一些形状信息,然后使用几何信息或概率统计来识别对象。
考虑到系统的输入输出模式,机器视觉系统的输入是图像或图像序列,输出是描述。此外,机器视觉由两部分组成:特征测量和基于这些特征的模式识别。
机器视觉不同于图像处理。图像处理的目的是使图像处理得更好,图像处理系统的输出仍然是图像,而机器视觉系统的输出是与图像内容相关的信息。图像处理可分为低级图像处理、中级图像处理和图像处理,包括图像增强、图像编码、图像压缩、图像恢复和重建等。
01
机器视觉的发展
图1-4显示了20世纪70年代以来机器视觉发展过程中的一些主题,包括机器视觉发展初期(20世纪70年代)的数字图像处理和积木世界、20世纪80年代的卡尔曼滤波、正则化、90年代的图像分割、基于统计的图像处理以及21世纪计算摄像学和机器视觉的深度学习。
图片
1.20世纪70年代
机器视觉始于20世纪70年代初,被视为模拟人类智能并赋予机器人智能行为感知的一部分。当时,一些早期的人工智能和机器人研究人员(如麻省理工大学、斯坦福大学和卡内基)·梅隆大学的研究人员)认为,在解决高层次推理和规划等更困难问题的过程中,解决了高层次推理和规划的问题“视觉输入”问题应该是一个简单的步骤。例如,1966年,麻省理工大学的麻省理工大学。MarvinMinsky让他的本科生GeraldJaySussman暑假把相机连接到电脑上,让电脑描述它看到的东西。现在,我们知道这些看似简单的问题并不容易解决。
数字图像处理出现在20世纪60年代。与现有的数字图像处理领域不同,机器视觉期望从图像中恢复物体的三维结构,以获得完整的场景理解。场景理解的早期尝试包括对象(即对象)“积木世界”)边缘提取,然后从二维线的拓扑结构中推断其三维结构。当时,一些学者提出了一些线标记算法,边缘检测也是一个活跃的研究领域。
20世纪70年代,人们还研究了物体的三维建模。Barrow,Tenenbaum与Marr提出了一种理解亮度和阴影变化的方法,并通过表面方向和阴影恢复三维结构。当时,还有一些更定量的机器视觉方法,包括基于特征的三维视觉对应(stereocorrespondence)基于亮度的算法和光流(opticalflow)与此同时,关于恢复三维结构和相机运动的研究也开始出现。
另外,DavidMarr特别介绍了其关于(视觉)信息处理系统表达的三个层次:
1)计算理论:计算(任务)的目的是什么?已知或可以对这个问题施加的约束是什么?
2)表达和算法:输入、输出和中间信息是如何表达的哪些算法来计算预期的结果?
3)硬件实现:表达和算法如何反映在实际硬件上,即生物视觉系统或特殊硅片上?相反,硬件约束如何用于指导表达和算法的选择?随着机器视觉对芯片计算能力需求的不断增加,这个问题再次变得非常重要。
2.20世纪80年代
20世纪80年代,图像金字塔和尺度空间开始被广泛用于从粗到精的对应点搜索。20世纪80年代末,在一些应用中,小波变换开始取代图像金字塔。
三维视觉重建“由X到形状”方法包括从阴影到形状,从光度三维视觉到形状,从纹理到形状,从焦点到形状。在此期间,探索更准确的边缘和轮廓检测方法是一个活跃的研究领域,包括引入动态进化轮廓跟踪器,如Snake模型。三维视觉、光流,从X到形状和边缘检测算法,如果作为变分优化问题,可以用相同的数学框架统一描述,可以用正则化的方法增加鲁棒性。此外,卡尔曼滤波和三维距离数据在20世纪90年代(rangedata)在过去的十年里,处理仍然是一个非常活跃的研究领域。
3.20世纪90年代
20世纪90年代,视觉发展如下:
1)关于在识别中使用投影不变量的研究呈爆炸性增长,这种方法可以有效地用于从运动到结构的问题。初的许多研究都是针对投影重建的,它不需要相机校准的结果。与此同时,一些人提出使用因子分解方法来有效地解决近似正交投影的问题,然后扩展到透视投影。该领域开始使用全球优化方法,后来被认为是摄影测量中常用的“光束平差法”相关。
2)使用颜色和亮度进行精细测量,并与的辐射传输和形成彩色图像的物理模型相结合。这项工作始于20世纪80年代,形成了一个名字“基于物理视觉(physics-basedvisio)”的子领域。
3)光流方法不断改进。
4)在密集立体视觉对应算法方面也取得了许多进展。
联系电话:150-2003-5767
企业邮箱:qdhaoke@163.com
公司地址:青岛城阳区春阳路119号国家
质量基础设施基地1号楼1007