龚健雅院士:人工智能时代测绘遥感技术的发展机遇与挑战

时间:2019-07-25 08:00:01 来源:火焰网 当前位置:永鑫说网络 > 微博 > 手机阅读

来源:《武汉大学学报·信息科学版》2018年12期

作者:龚健雅

第一作者:龚健雅, 博士, 教授, 中国科学院院士, 长期从事地理信息理论和摄影测量与遥感基础研究


摘 要:人工智能技术迅猛发展将对各行各业造成巨大影响。测绘遥感是一个与人工智能密切相关的领域,在人工智能领域迅速发展的大环境下,测绘遥感学科既有很好的发展机遇,也面临很大的学科危机。首先介绍了人工智能的范畴和与测绘遥感相关的领域,然后介绍了人工智能两大热门领域——机器视觉和机器学习在摄影测量与遥感领域的应用进展,最后介绍了基于时空大数据的认知与推理研究进展,展示了测绘遥感的时空大数据在自然和社会感知、认知与推理的应用前景,希望测绘遥感学科在人工智能时代获得大发展。


关键词:人工智能 摄影测量 遥感 机器视觉 机器学习 时空大数据


     无论在学术界、产业界或是公众生活中,人工智能都称得上当前最热门的一个话题,也是目前发展最快的一个领域。回顾人工智能发展历程,1956年达特茅斯会议的召开标志着人工智能研究的开启,历经60年的发展,两起两落,每次兴盛都是人工智能算法有了新的突破,比如50年代神经网络理论的提出,80年代反向传播算法的出现等。而每次低潮又是计算性能和数据规模的局限不能满足实际应用的需求,从而导致政府和投资的冷落。自2013年始,以深度学习为代表的神经网络算法为核心,在大数据和图形处理器(gra- phics processing unit, GPU)大规模应用的推动下,在语音识别、图像识别领域达到甚至超过了人类平均水平,迎来了人工智能研究的第三次高潮。如今,人们不仅能频繁看到人工智能的研究与技术进展的报道,如AlphaGo打败了人类围棋手,波士顿动力公司的机器人做出空翻等高难度动作等,也能不时地感受到人工智能对生活的影响,如家中新添的扫地机器人,高铁进站的“刷脸”,手机即时翻译等。这一切无不宣告世界正进入人工智能时代,而且发展迅猛,影响深远。人工智能的迅速发展对各行各业将造成巨大冲击,许多行业可能在这场变革中消失,一些行业将获得大发展。测绘遥感是一个与人工智能关联密切的领域,在这样的背景下既有发展的机遇,也面临很大的危机, 本文将着重讨论。

人工智能可以分成6个研究方向[1]。①机器视觉,包括三维重建、模式识别、图像理解等;②语言理解与交流,包括语音识别、合成,人机对话交流,机器翻译等;③机器人学,包括机械、控制、设计、运动规划、任务规划等;④认知与推理,包含各种物理和社会常识的认知与推理;⑤博弈与伦理,包括多代理人(agents)的交互、对抗与合作,机器人与社会融合等;⑥机器学习,包括各种统计的建模、分析工具和计算方法等。

前3项是类人的外观,是与外界接触的部件。类比人的五官(眼、耳、鼻、舌、身),人工智能的研究方向中包含了其中三官。机器视觉相当于人的眼睛,语音理解与交互相当于人的耳朵,机器人学主要研究智能机器人的运动器官,包括能够运动的脚、能够工作的机械手、能够空翻的身体等等。而后3项相当于人脑的功能,认知与推理是智能体需要具备的基本能力,它可以是简单的认知与推理,也可以是复杂的高级的认知与推理,认知与推理过程可以是计算机算法驱动,也可以是已有规则或者知识的直接驱动;机器学习是一个增加智能体知识、提高智能体认知与推理水平的过程;博弈与伦理则是更高级的智能,它不仅涉及到智能体与智能体之间的协同,还涉及到人与智能体之间的协同与融合。一个智能体可能包含一个或者多个方面的智能,如机器翻译可能仅包含语言理解和机器学习,但人脸识别可能包括机器视觉、机器学习和认知与推理等。当一个智能体具备以上6个方面的智能时,就可能进入到强智能时代。

什么时候能够进入强智能时代,强智能时代的标志是什么,笔者给出了一个例子。如果哪一天机器人与人进行一场足球赛并取得胜利,则可以认为强智能时代已来。原因在于,这种比赛要求机器人不仅具有以上6个方面的能力,且各方面能力应高级到足以打败人类。人工智能要到达这一水平,可能还需要几十年的时间。

人工智能的发展过程中许多衍生的技术是可以用于其他领域的,并且有可能推动其他领域的技术变革。智能科技产业形成从宏观到微观的各领域的智能化新需求,将重塑全球经济结构,催生新技术、新产品、新产业、新业态、新模式,打造智能经济、智能社会和智能生活。测绘遥感是一个与人工智能密切相关的学科领域。摄影测量与遥感和机器视觉有许多概念、原理、理论、方法与技术上的重叠,它们都是用来感知环境的技术;其区别是摄影测量与遥感主要是感知地球和自然环境,而机器视觉主要是感知智能体关注的目标和环境,但是它们在数学和物理上的原理基本相同。机器学习,特别是最近几年快速发展的深度学习方法,在机器视觉、模式识别、语音理解等方面得到广泛有效的应用,可说是一个革命性的技术,在摄影测量与遥感领域也得到广泛应用。认知与推理是一种更广义的智能,在时空大数据挖掘和智慧城市等方面将大有用武之地。本文将讨论机器视觉、机器学习和认知与推理在测绘遥感学科的应用。


1 机器视觉及其在摄影测量与遥感领域的应用

机器视觉或者称计算机视觉,是一门研究用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等的学科。广义上,计算机视觉包括图像处理、目标重建与识别、景物分析、图像理解等内容。狭义上,计算机视觉通常是通过对采集的图片或视频进行处理以获得相应场景的三维信息,即三维重建。

20世纪40年代,贝尔实验室的Julesz发现任意视差图都可恢复立体感,无需事先识别单幅图像的含义;而此前心理和神经学家认为人需要先感知才能产生立体感。由此Marr认识到复杂的神经和心理过程可用直接的数学计算表达,并提出三维重建的计算视觉理论。他在1982年发表的《视觉:从计算的视角研究人的视觉信息表达与处理》[2]中详细分析了二维图像的表达、立体图像的对应和重建、算法以及硬件的实现,是计算机视觉的开山之作。20世纪80年代同时也是计算机视觉的第一段黄金时期。许多经典的算法和算子,如Canny边缘检测[3]、shape from shading[4]、Hough变换[5]、LoG(Laplace of Gaussian)[6]等都起源于70-80年代。除了图像处理,早期的计算机视觉同样关注几何和三维重建问题。不过,在计算机和数码相机还未成熟之前,摄影测量与计算机视觉当时的状况距离Marr所提倡的三维重建理论依然相去甚远。

与计算机视觉相似,摄影测量学是一门利用光学像片研究被摄物体的形状、位置、大小、特性及相互位置关系的学科,简而言之,摄影测量学是以摄影为工具,以测量为目的。事实上,摄影测量学的历史远早于计算机视觉。19世纪早期,德国教授舒尔兹发现银的混合物在日光下会变黑;1839年,法国画家达盖尔发明了银版摄影法,并制作了世界上第一台真正的照相机;19世纪中叶,法国测量学家和摄影测量学的先驱Fourcade首先发现了用立体照片可重建立体视觉,从而促进了摄影测量学的诞生。在其后漫长的岁月里,相机和照片帮助人们将地球表层地形地物在室内重建三维立体,从而将野外测量工作搬运至室内。“内业”工作成为主体,照片和摄影测量仪器替代了三脚架、经纬仪和标尺,成了主要的研究对象。随着航空航天技术的发展,以航空航天飞行器为载体的摄影测量应运而生。第一次世界大战中,首台航摄仪问世,立体坐标量测仪和1318立体测图仪投入使用,标志着航空摄影测量学的理论、方法与技术体系初步形成。1957年,第一颗卫星被发射到外太空,同时开启了卫星摄影测量时代。

1973年,贝尔实验室的Boyle和Smith发明了电荷耦合器件(charge-coupled device,CCD)[7],促成数码相机和数字摄影测量时代的诞生。以CCD/互补金属氧化物半导体(complementary metal oxide semiconductor, CMOS)数字成像器件为代表的数字摄影技术开启了数字摄影测量理论与方法的研究。从此,计算机成为测量的主要工具,数字影像和摄影测量算法替代了胶片和摄影测量仪器成为主要研究对象,形成了目前的数字摄影测量理论、方法与技术体系。与此同时,计算机视觉也得到迅猛发展,并成为计算机领域的一个热门方向。

90年代后,两个领域都得到数码成像技术和计算机技术的强大推动。仅几何而言,两门学科具有同样的理论基础,即小孔成像和双目视觉原理。但在应用和技术细节上,两者存在区别。如数字摄影测量主要用于相对静态的地形地物测绘,使用航空和航天平台,所用的相机通常为专业量测相机;而计算机视觉主要以普通相机、手动和车载移动平台为主,用于运动目标的实时重建与识别,应用领域包括人脸识别、机器人和无人驾驶车等大众应用领域。在技术方法上,如相机检校,摄影测量一般布设有高精度三维检校场,而计算机视觉常采用二维平面棋盘。在空中三角测量方面,摄影测量一般用严密的光束法区域网平差,而在计算机视觉中一般称为从运动恢复结构(structure from motion, SfM)[8],除了用全局的光束法平差,也采用一些非全局解法,如增量式的局部平差、滤波[9]等;这些差异源于摄影测量需要更高的测量精度。此外,还有一些近似等价的概念,由于学科的发展而具有不同的称呼。如平差中的粗差探测,摄影测量中称为选权迭代的方法,在计算机视觉中则称为权衰减法;又如为了处理法方程系数阵(即Hessian矩阵)接近奇异的问题,计算机视觉中常用L-M(Levenberg-Marquardt)算法[10],而摄影测量中常用岭估计法[11]。一般而言,计算机视觉中理论的严密性要高于摄影测量,算法发展也非常迅速,当然,反过来说,摄影测量在工程和实用性方面可能更占优势。

计算机视觉中的同时定位与地图构建(simul-taneous localization and mapping, SLAM)[12]已经成为一个重要研究支流,是机器人和无人驾驶车的必备技术。早期的SLAM以激光扫描仪为主,这也是SLAM中Mapping的由来;后来基于视觉的SLAM(Visual SLAM)成为主流,并与摄影测量特别是实时摄影测量在各个研究点上(匹配、平差、定位和重建)都有共同之处。实际上,Visual SLAM的原理与摄影测量的空中三角测量类似。空中三角测量与SLAM的明显区别在于,前者是通过连接点构建航带,确定航摄仪的6个外方位元素,即摄站定位;而后者在定位的同时生成密集点云。早在21世纪初,美国为了精确测量“勇气号”和“机遇号”火星探测器的具体位置,就采用了空中三角测量区域网平差的原理,根据每天获得的火星表面的序列影像,通过匹配同名点,建立“航带”模型,以此精确计算每个摄站点的坐标位置,以纠正遥测定位产生的误差。该项目的首席研究员是时任俄亥俄州立大学测量系教授的李荣兴博士[13]。图 1所示为“勇气号”火星探测器基于序列影像采用区域网平差对火星探测器进行精确导航与定位的示意图,蓝色为遥测的位置,红色为纠正后的位置。这一实例说明,摄影测量工作者早就采用了区域网平差的方法为火星机器人导航定位,即Visual SLAM。


图 1 采用区域网平差方法为火星机器人导航定位

由此可见,摄影测量与计算机视觉在原理、方法和应用上都有很多相通的地方。在进入21世纪后,两者的融合速度又得到进一步提升,它们之间的技术交叉点是无人机和车载移动平台。摄影测量的一个重要发展方向是地面移动测量系统,它可以用来采集道路和街景;而计算机视觉同样关注道路信息的提取与重建,并应用于机器人、城市地图、智能交通和自动驾驶汽车中。同时,无人机航摄技术除了是摄影测量中的一个方便快捷的测量技术,也是计算机视觉所关注的未来焦点。

由于计算机视觉领域研究学者云集,应用领域又很广泛,发展了大量新理论和新方法。摄影测量工作者应在这场技术变革中拥抱新技术,学会跨界融合,并发挥自己的优势,贡献自己的智慧,方能使自己的学科立于不败之地,同时与其他学科一起推动智能科学的发展。

为了促进测绘遥感学科与计算机视觉的交叉融合,紧跟人工智能领域的技术潮流,国内学者组织了专门的人工智能研究团队,积极行动。图 2为武汉大学研发的无人驾驶汽车和机器人。无人驾驶汽车技术除了可以用于无人驾驶的交通通行以外,一个重要应用是用于无人测绘。无人驾驶汽车上装载的各种传感设备除了用于汽车本身的导航定位以外,还可以自动获取道路及周边环境信息,进行自动测量。智能机器人也将广泛应用于室内外测量,特别是一些困难和危险地区,如煤矿井下测量等。一方面,测绘遥感学者在人工智能大潮中参与人工智能技术的发展,另一方面,人工智能技术的进步将推动测绘遥感技术更深层次的变革。


图 2 武汉大学研制的无人驾驶汽车与室内智能机器人

2 机器学习及其在摄影测量与遥感领域的应用

当前人工智能发展的一个重要方向是机器学习。从1955年John McCarthy提出人工智能的概念以来,机器学习就作为人工智能的一个重要方向。机器学习的基本原理是寻找某种函数,能从数据与类别之间得到正确或最佳的映射。基于统计学习的思想不仅长期应用于机器学习,在摄影测量与遥感领域也得到广泛应用,如监督和非监督目标识别与分类方法。基于传统统计学习的遥感影像的监督与非监督分类以及经典的神经元网络方法的研究进展一直很慢,目标识别的准确度和分类精度难以大幅提高,机器学习有效地改变了这一现状。

2006年,Hinton的研究表明,采用一种逐层的贪心算法可实现深度神经元网络的训练[14],深度学习的概念由此浮出水面。深度学习算法的突破来自于LeCun Yann、Bengio Yoshua和Hinton Geoffrey 3位科学家在深度卷积网络方面的杰出工作。他们通过多层的深度卷积处理抽取图像的抽象特征,而这原本深度依赖算法设计者的经验。目前的研究进展已经有能力训练一个深度网络,根据目标任务的不同来选取不同的特征,实现了人工智能方法和实践上的突破。2012年,在ImageNet挑战赛中,深度学习的方法夺得第一,并一举超过传统机器学习方法10个百分点[15];而第二至第四名相差不超过1%,显示了传统方法的天花板。随后的大量实验表明,无论在图像分类、物体识别、语音识别、遥感应用等关于学习和语义的研究领域,深度学习都占据上风,深度学习的时代由此开启。

除了自然语言处理(natural language processing, NLP)[16]以外,深度学习最重要的应用是在视觉图像上,如手写字体识别[17]、自然图像分类[18]和目标检索等等。深度学习在计算机视觉领域得到广泛应用,推动了人脸识别、机器人和无人驾驶车等相关技术的蓬勃发展。由于摄影测量的研究对象也是视觉图像,因此摄影测量也成为深度学习发展最受益的学科之一。

摄影测量的两个主要任务是目标几何定位和属性的提取,包括从二维像片重建三维几何以及地物要素分类。将深度学习应用于几何定位目前还未进入摄影测量研究领域,但已经出现在密切相关的计算机视觉领域,如SfM与SLAM。然而,深度学习方法的定位精度目前尚不能同传统的方法相比,约相差一个数量级[17]。对于三维重建中的关键技术——密集匹配,深度学习已经取得很好的应用效果。如在KITTI等标准数据集[18]上,前10名的方法都是深度学习方法,展现了深度学习方法的应用潜力。

深度学习在摄影测量领域的另一个主要任务,即影像的语义提取方面,则取得了重要进展,并开始普及应用。基于图像的建筑、道路网等地物的提取数十年来一直是热门课题。虽然经典方法取得一定的效果,但距离实用、市场、商业软件尚有一定的距离。卷积神经网络(convolutional neural network, CNN)目前已成为道路网提取的主流方法。文献[19]通过级联式端到端CNN同时实现了道路网提取及道路中心线提取,与其他方法比较,分类精度更高。文献[20]通过CNN结合线积分卷积克服了树木遮蔽、房屋阴影造成的道路网残缺问题。文献[21]通过非监督学习预处理和空间相关性的应用,利用深度学习极大地提高了复杂城市场景的道路提取精度。文献[22]采用CNN实现了高分辨率多光谱卫星影像的建筑物提取。文献[19]在影像平面上进行二维卷积,在光谱方向上进行一维卷积,分别提取出影像空间特征和光谱特征,取得了比随机森林和全连接NLP更好的作物分类精度。肖志锋等使用深度学习方法对天地图上的高分辨率遥感影像进行语义检索,能够检索37类地物目标,准确率达90%以上。目前,深度学习已经广泛用于遥感图像的分类、识别、检索和提取,在语义上基本全面碾压了传统的方法[23]。表 1为肖志锋等开发的基于深度学习方法的遥感影像内容检索系统。从表 1可以看出,这里采用的基于深度级联降维网络的遥感图像特征提取方法(deep convolutional neural network, DCNN)的查全率和精度大大高于传统的LBF-HF(local binary pattern histogram Fourier)和EFT-HOG(the elliptic Fourier transform-histogram of oriented gradients)方法,其精度高出了20%~30%。

表 1 使用深度学习的影像内容检索方法与传统方法的精度比较


基于深度学习的方法除了可有效地用于遥感影像的地物分类与目标检索以外,在其他摄影测量与遥感数据处理方面也有广泛用途。例如,胡翔云等[24]采用深度学习方法进行激光雷达(light detection and ranging, LiDAR)点云数据处理。山地林区的点云数据滤波,从点云数据提取数字高程模型,自动化很难实现,一般需要人机交互作业,耗费大量人力物力。目前该小组采用机器学习方法,在人机交互作业过程中进行训练,学习到知识,然后再应用于点云数据的自动处理中,自动处理的准确率达到95%以上,大大提高了作业效率。图 3所示为广东某地的点云提取的地形断面,可以看出,该地区相当复杂,但是用深度学习获取的地面模型断面还是相当准确的(红色曲线)。这说明深度学习方法在点云数据自动处理方面有很好的应用前景。同理,深度学习方法在测绘

上一篇宝宝总是想上厕所怎么办?无非这3个原因!

下一篇柑橘得了黄龙病,除了柴刀,没有其他有效治疗方案

相关文章:

微博本月排行

微博精选