学会了吗(模式识别与人工智能)“一狐之腋“

学会了吗(模式识别与人工智能)“一狐之腋“

感知(模式识别)是从传感数据中判断模式的存在及类别,并给出结构化和关系化描述的过程。目前基于深度神经网络的模式识别方法仅解决了初级感知(检测、分类)问题,在高级感知层面对结构和关系的理解方面已有一定研究进展,但尚未解决。将知识进行模式识别与理解,并将结果用于决策规划,属于高级认知的范畴,是未来有待加强的方向。作者 | 星华 编辑 | 青木

今年10月12日,2021中国人工智能大会(CCAI 2021)在成都正式拉开帷幕。由23位中外院士领衔,近百位学术和技术精英齐聚西南人工智能新高地,深度呈现人工智能学术研究、技术创新和行业应用的最新成果。中国人工智能学会副理事长、中国科学院自动化研究所副所长/研究员、IAPR/IEEE/CAA/CAAI Fellow刘成林教授发表了题为《模式识别:从初级感知到高级认知》的演讲,向与会代表介绍了模式识别的内涵、演变、研究现状和未来研究方向。

学会了吗(模式识别与人工智能)“一狐之腋“

刘成林教授现任中国科学院自动化研究所副所长、中国科学院大学人工智能学院副院长。其研究领域为模式识别、机器学习、文档图像分析等。主要研究成果包括:在手写字符识别、分类器设计与学习、字符串识别、文档版面分析等方面提出了一系列有效方法;其发展的文本识别算法已广泛应用于邮政分拣机、表格处理、文档数字化、网络信息检索等领域。在国际期刊和国际会议上发表论文300余篇,合作撰写了文本识别英文专著。2005年获国际文档分析与识别会议IAPR/ICDAR Young Investigator Award(青年学者奖),2008年获国家杰出青年科学基金。为中国自动化学会、人工智能学会会士、IAPR Fellow、IEEE Fellow。

本次演讲首先对模式识别领域做了基本介绍,然后分析了模式识别的研究现状,介绍了一些在理解模式结构方面的新进展,最后从结合认知的角度谈到了未来值得研究的问题和方向。

以下为演讲全文,《人工智能技术评论》对其进行了编辑,在不改变原意的情况下。

什么是模式识别?

1.模式识别的内涵

模式识别或机器感知是人工智能领域的主要分支之一。人工智能模拟人的智能,因此模式识别模拟人的感知。感知是人或机器最重要的智能之一,因为人或机器需要从环境中获取信息,首先通过感知,例如对场景、人和文字的视觉识别,通过听觉与人交流等。心理学或认知科学对感知或模式识别的定义是:把得到的刺激,也就是感知信号与大脑中储存的信息进行匹配,从而确定感知到什么。从计算机实现模式识别的角度,也有各种定义,大致可分为两类:

综上所述,模式识别的定义是研究如何让机器模拟人的感知功能,从环境感知数据中检测、识别和理解目标、行为、事件等模式。

模式识别的基本过程是利用传感器(比如摄像头)获取感知数据(比如图像),在图像中检测并定位物体,然后利用模式分类器判断该物体属于哪一类,这是传统的模式识别过程。

如果要拓展到描述,就需要分析物体的内部结构以及图像中多个物体之间的关系,最后用自然语言的句子来描述。比如下图可能会给出这样的结果:“身穿火箭队11号球衣的姚明和他的教练站在一起。”如果我们不知道这个人是谁,结果可能是“两个身高差距很大的人站在一起”。这是一个相对复杂的模式理解过程。

学会了吗(模式识别与人工智能)“一狐之腋“

模式识别和感知几乎是同义词,但侧重点不同。“感知”侧重于应用,而“模式识别”侧重于技术和方法。如今我们经常谈论感知和认知,因此需要明确相关概念。模式识别和感知的内容比较广泛,它的处理对象是传感器数据(图像、视频、音频等),从中判断模式(纹理、物体、行为、事件)的存在、类别和具体描述(如部分与部分之间的关​​系)。比较初级的感知,如对纹理的检测或分类或判断,需要的知识相对较少,我们称之为初级感知。比较高级的感知是对这种模式有较深入的理解,可能需要一些先验知识。认知一般指基于知识的逻辑推理,其范围包括知识获取、推理、语义理解等。很多时候认知和感知是混在一起的。 比如我们跟人交流的时候,眼睛在看,耳朵在听,大脑在思考,这些都在同一时间发生。就算我们什么都不看、什么都不听,闭上眼睛去思考,那也不是一个纯粹的逻辑推理过程,因为大脑思考的时候会浮现出一些图像,所以感知和认知有很多交集。这种交集可以看成是高级感知,因为需要一些知识才能深入理解模式。再进一步,如果说到高级认知,就是跨模态或者跨任务的一些复杂推理过程,或者基于语义的应用(比如回答问题、人机交互、自动驾驶决策等)。

2. 模式识别方法的演变

模式识别与人工智能领域的发展几乎是初步的,从上世纪 50 年代开始就提出了许多方法,我们可以看到最早的模式识别论文发表于 1957 年。上世纪 50 年代到 60 年代,主要方法基于统计决策,即统计模式识别。句法模式识别在 60 年代末开始被提出,70 年代到 80 年代,句法模式识别或者结构模式识别是研究重点。当然统计模式识别也在不断向前发展,80 年代中期,多层神经网络受到广泛关注,90 年代开始出现多种学习方法。

机器学习是在 1960 年代提出的,最早的机器学习主要是指模式分类器的参数估计(比如 NJ Nilsson 的 Learning Machines),但现在涉及的内容更加广泛。1990 年代又提出了大量的机器学习方法,也是围绕模式识别问题,主要用于模式分类器设计或者分类器参数估计,包括 90 年代比较有代表性的支持向量机。2000 年以后又出现了更多的学习方法,包括多分类器(集成学习)、多任务学习、概率图模型、迁移学习等等。现在主要是深度学习方法,可以说是最主流,几乎占主导地位的方法。

模式识别方法按照模式表示方法可分为两类:统计方法和结构方法。统计方法基于特征向量表示,广义上讲神经网络或支持向量机也属于统计方法。结构方法要求对模式进行结构化描述,近几十年来一直在研究,但目前实用性不强。20世纪80年代以来,统计与结构混合方法被提出得比较多,这种方法将统计特性融入结构模型中,如属性图、概率图模型等。现在神经网络越来越多地与图模型或图神经网络相结合。

从功能上看,模式分类器可以分为生成模型和判别模型。判别模型的目的是把不同类别的模式分开,主要关心的是可区分性。生成模型有点像我们大脑中的模板匹配或者特征匹配,比如我看到一个人,我会通过匹配我记忆中认识的人的图像或者特征来识别他,我大脑中的这些图像或者特征就像是一个生成模型。生成模型除了可以用来分类,还可以用于生成数据,因为它表达了各个类别的特征或者概率分布。

从模型学习的角度看,相关的学习方法分为生成学习或判别学习。判别学习是为了提高模型的分类能力,例如神经网络主要是判别学习,而生成学习是为了得到一类数据的表示模型。

模式识别研究现状

1. 目前主流方法

深度学习(深度神经网络)现在是模式识别领域的主导方法。深度学习最早是在2006年Hinton发表的文章中提出的,这篇文章提出了一种对多层神经网络进行逐层训练的方法,以克服层数较多时难以收敛的问题。20世纪80年代多层神经网络训练的误差反向传播算法(BP算法)之后,超过五层的神经网络就难以收敛,泛化性也差,逐层训练的方法在这方面做了很大的改进。早期的深度学习主要在语音识别方面取得了成功,例如循环神经网络LSTM(Long Short-Term Memory Network)也是在2006年提出的,在语音识别、手写识别等方面都产生了很大的影响。

学会了吗(模式识别与人工智能)“一狐之腋“

深度学习真正在人工智能领域产生广泛影响是在2012年以后。那一年深度卷积神经网络在大规模图像分类上显著超越传统方法的表现,从而引起了模式识别与计算机视觉领域研究者的广泛关注与追踪。在过去的十几年中,神经网络领域出现了大量不同的模型结构和学习算法被提出,包括各种卷积神经网络、循环神经网络、生成对抗网络、图神经网络以及现在的Transformer。从模式分类的角度看,大部分神经网络相当于一个映射函数,实现了从输入到输出的映射。如果用于模式分类,输入一张图像,直接映射到某一类别或者特征空间的某一区域,实现分类。

基于这种函数映射方法,只要有大量的标记数据训练(估算函数的参数),就可以达到非常高的分类性能,甚至超过我们人类的识别能力。

在过去十几年里,深度学习取得巨大成功主要得益于计算能力的提升,可以用大量数据来训练神经网络。在2012年的大规模图像分类竞赛(ImageNet)中,使用了超过100万张图像样本来训练深度卷积网络,分类准确率比之前传统的模式识别方法(基于人工特征提取)提高了10%以上。这是一个巨大的飞跃,因为在过去,传统方法很难提高1%。

现在深度神经网络可以自动从图像中提取特征,并且特征提取和分类器可以进行联合学习或者端到端学习,从而提取表达能力和判别能力更强的特征。深度学习在模式识别的其他任务上也取得了很大的进展。

例如,物体检测在过去被认为是一个难题。在 20 世纪 90 年代末人脸识别技术投入实用时,需要对图像中的人脸进行检测和定位。早期的检测方法基于滑动窗口分类,准确率和速度必然较低。目前提出的许多基于深度神经网络的两阶段或一阶段分类方法,实际上是将神经网络作为二分类器,判断图像的不同区域是前景区域还是背景区域。现在深度神经网络在强大的计算能力和大数据的支撑下,物体检测的准确率和速度得到了很大的提升。

图像分割在过去也是一件很难的事情,它是一个像素分类问题,就是把每个像素归类到不同的物体或者背景区域。根据不同的需求,目前已经提出了语义分割、实例分割、全景分割等很多有效的方法,并且取得了很大的进展。

前面提到的检测、分割、目标识别等都是分类问题,现在一些更加复杂的模式识别问题,比如图像描述等,也可以利用深度神经网络端到端的方式实现。

图像描述是指给定一张图片,用自然语言句子来描述图片的内容。端到端的方法在底层使用卷积神经网络提取特征,然后添加一个循环神经网络,即LSTM神经网络来生成语言。两个网络联合训练,使用大量图像和语言配对数据来训练神经网络,以达到更好的语言描述性能。最近也出现了一些可解释性更好的深度神经网络方法,将自下而上的物体检测与自上而下的语言生成模型相结合,先检测出很多候选物体区域,然后根据它们的关系分析生成句子。

图像分类、检测、分割、图像描述在过去都被认为是难题。然而在过去不到十年的时间里,性能得到了快速提升,很多技术已经广泛应用于我们的日常生活中。例如智能手机上用到了很多模式识别技术,包括人脸识别、文字识别、语音识别,在线图像检索也做得非常好。

这种数据驱动的神经网络多是端到端的模型,它能解决所有问题吗?其实这种方法还是有很多不足,还有很多问题需要解决。一个问题是深度神经网络需要标注大量的数据进行训练,标注数据的成本非常高。另外神经网络端到端的学习方式可解释性较差,人不是这样学习的,也不需要很多数据,人的识别模式可解释性更强。比如我们识别一个人,不但能认出是谁,还能解释这个人为什么是张三、李四,这个人的眼睛、鼻子、脸型、行为、身体等特征,我们都能给出详细的解释,而这是目前的神经网络很难做到的。

神经网络的解释能力较差还会导致识别的鲁棒性较差,即识别结果的稳定性较差、容易受到干扰。

现在我们来看一些例子。在很多实际应用中,识别的可信度非常高,有些时候识别结果肯定不能有错,可以把一些部分拒绝(不识别)。比如手写文本识别,基于深度学习已经取得了很高的识别准确率,但还是会有少量的错误。对于金额票据识别等应用,错误是不允许的,如果有些错误可以通过拒绝来消除,那么被拒绝的部分可以人工处理。但是深度神经网络的拒绝能力比人类差很多,因为它们是基于统计分类的,没有结构解释能力,容易把看似合理的模式分类错误。

深度神经网络在经过大数据训练后,可能识别准确率比人类高,但是它们不仅无法拒绝某些容易出错的区域,还会犯一些莫名其妙的错误。如下图所示,在对抗学习的情况下,给熊猫图片添加少量噪音,右边的图片在人类看来几乎没变化,但是神经网络得到的识别结果却截然不同。

比如下图,神经网络将其描述为“一个小孩拿着棒球棒”,这显然是错误的,不合逻辑的。这么小的孩子根本拿不住棒球棒。右上角的交通标志只是几个黑点,却被判断为限速标志。下面几张图片的描述结果也是错误的。倒数第二张是一个上面贴着一些贴纸的标志,却被认为是冰箱。由于深度神经网络不可解释,因此其鲁棒性也较差。

学会了吗(模式识别与人工智能)“一狐之腋“

到目前为止,统计方法和神经网络主导着模式识别领域,在大多数分类问题上做得非常好,甚至把图像描述问题当成分类问题来处理。这种方法没有结构化的解释能力。结构化模式识别从上世纪六七十年代开始被提出,其目的是试图统一分类和理解,与人类的识别方法类似,具有可解释性和小样本泛化性的优势。计算机视觉早期提出的所谓基于模型的物体识别或基于合成的分析都是结构化方法。虽然结构化方法在过去几十年里一直在研究,但由于开源平台相对较少、实现难度大、学习过程复杂、识别性能不够等原因,并没有被广泛接受。但是,如果现在只用神经网络等端到端的映射方法,未来提升的空间将非常小;而要通向模式理解和认知,必须走结构化模式识别的道路。

2. 结构模式识别的早期进展

20 世纪 70、80 年代流行的句法模式识别,是用语法或者树结构或图结构来表示模式,通过语法分析或结构模式匹配来进行识别。这些工作虽然很长时间没有投入实际使用,但这些思路对于我们目前的研究很有启发。20 世纪 80、90 年代以来也有很多基于笔画匹配的手写汉字识别的研究,其中也包括我自己做的一个工作:因为笔画提取非常困难,所以我们提出了一种基于笔画段动态合并匹配的方法。

基于图的方法目前还是主流方法,早在1973年就有两位美国科学家在IEEE Transaction on Computers上发表文章,提出了Pictorial Structure,即一个对象由多个部分组成,不同部分之间的关​​系用spring来表示,跟我们现在的图结构很相似。

2005年,芝加哥大学的Felzenszwalb等人利用概率图模型实现了这种图结构方法,用于人体姿态估计和人脸检测。后来又发展了一种基于判别性的组件的模型。这种组件模型表示一个物体的多个组件,每个组件的形状、位置和整体形状都用一个概率模型来表示。如果一个物体有不同的视角,它的外观可能会发生很大的变化,用混合模型来表示并用于物体检测,取得了很好的效果。

另外一个影响比较大的图方法叫星座模型(Constellation Model),是由加州理工学院提出的。这个模型有一个中心代表整体形状,各个组成部分的位置、尺度、形状用联合概念密度模型来表示,可以用于物体检测和识别。因为它是生成式模型,所以可以实现小样本泛化,各个类别在样本数量比较少的时候也能得到比较好的性能。

十几年前有一篇叫做Image Parsing的工作,就是用一个图来统一的描述一张图片中不同的前景和背景区域。在分析的时候,先用一个检测器检测出物体和文字区域,自下而上地产生一些假设,然后再用一个自上而下的生成模型来分析它们之间的关系。这个工作没有用到深度学习,所以分析的准确率比较有限。

今天的深度神经网络有很强的从数据中学习的能力,但是缺乏可解释性。我们希望针对图像场景分析等问题,能够让深度神经网络具有可解释性和高精度。我们可以将传统的结构模型和深度神经网络结合起来,比如先用卷积神经网络提取图像特征,做物体或部件的检测,然后在上层用一个结构模型来表示这些物体或部件之间的关系。

3. 一些最新进展

目前,图神经网络具有很强的学习和推理能力,使用起来非常灵活,但需要赋予其图结构。很多结构模型的学习需要细粒度的标注训练数据,有的也能实现弱监督学习。另一个值得注意的方向是,有一些结构可解释的神经网络,它们采用模块化结构,可以自动学习可分解的组件。这里我会介绍一些近期在结构理解方面的代表性工作,包括可解释神经网络、深度图匹配、公式识别、图像场景理解等,其中每个方向都形成了一系列的工作。

可解释神经网络的代表是Hinton等人提出的胶囊网络,网络中的每个胶囊都是一个可以检测物体和部件的模块,而且不同的胶囊之间相互独立,可以识别图像中重叠的部件或物体。

另一个是最近提出的组合神经网络,它是一种两层的“与或”图表示,可以检测物体的不同部分,即使某些部分被遮挡也能检测到。该模型可以从弱标记数据中学习,只要标记了物体的位置,而无需标记各个部分。在遮挡的情况下,其性能明显优于传统的物体检测网络。

图匹配已经被研究了几十年,关键问题有两个,一个是组合优化,也就是如何克服指数复杂度的问题。另一个是它的距离度量,过去是人工设计的,现在深度神经网络可以自动学习距离度量,但需要大量有对应节点标签的图数据进行训练,当然有时也可以用合成数据代替。

结构分析方法用于零样本识别(使用从已知类别的样本中学习到的模型,在不需要训练样本的情况下识别新的类别)可以产生更好的泛化效果。这是我们实验室在基于图的零样本视频分类方面所做的工作。由于视频涉及很多对象和原子行为,我们使用图网络来表示不同对象之间的关系、不同类别之间的关系以及对象与行为之间的关系,以便将这种结构关系推广到新的类别。

数学公式识别也是一个很复杂的结构模式识别问题,目前手写公式识别最好的方法也只能达到50-60%的整体识别准确率,由于公式符号串很长,想要全部正确识别非常困难,因此需要采用可解释的结构识别模型,对公式中的符号进行同时识别和定位。

过去传统方法都是自下而上进行字符分割再识别,但整体识别准确率必然较低。前几年主流方法是采用端到端的神经网络结构,解码器直接从输入图片中解码出公式字符串,但没有进行字符定位。这种没有字符定位的公式识别方法除非识别率达到100%,否则是不适用的,因为很难定位和编辑错字的部分。

学会了吗(模式识别与人工智能)“一狐之腋“

我们目前采用的一个方法是采用图到图的映射,每个输入笔画代表一个节点,这样整个公式就构成了一个输入图。希望输出图中的每个节点对应一个符号,边界代表符号之间的关系,这样就会给出一个可解释的结果。这种方法在训练之后可以达到最高的识别准确率,而且可解释性很强。这个模型的训练还需要标注公式中符号的位置,我们目前正在研究它的弱监督学习方法。

图像场景理解方面也有一些新进展。斯坦福大学李飞飞研究组的工作从图文配准的角度,训练了一个用于图像描述的语言生成模型。场景图的生成,就是把图像中不同的物体和背景区域用一个图来表示,每个节点代表一个物体或者一个背景区域,边代表它们之间的关系,结构一目了然。图像处理底层采用卷积神经网络提取特征,检测候选物体并上传到图神经网络进行分析。

我们用类似的方法来解析交通标志。标志上有很多符号和文字。开车时要找到“我应该去哪里”这样的信息,我们需要了解每个符号的含义以及它们之间的关系。图像-文本匹配现在也是一个相对复杂的问题,因为图像中对象的顺序与文本中单词的顺序不一致,所以我们需要学习这种配准关系。这是我实验室的同事提出的一种结合自下而上和自上而下的方法。

视觉问答是现在比较热门的课题,就是让机器看一张图片,然后从图片中找到给定语言问题的答案。有些答案可以直接从图片中找到,而有些则可能需要一些背景知识或常识。

前几年的一些方法也是端到端的方法。比如这个模型有两个阶段,首先用一个神经网络来分析问题的句子,并产生一个解决问题的策略(称为layout policy),然后这个策略动态地生成一些模块化的网络,动态地从图像中寻找答案。最近中山大学的一个研究小组发表了一个可解释的视觉问答方法,将问题句子表示为一个语义依赖树,并遍历树的节点,从而动态地从图像中寻找答案。

总之,深度学习方法如今已经将模式识别和计算机视觉向前推进了一大步。在基于大数据训练提高模式分类的性能之后,剩下的问题就是回归到模式识别的初衷,即模式的结构化理解。只有实现了模式的结构化理解,才具有可靠性和鲁棒性,而结构化理解方法对小样本学习、开放环境适应、可解释性等都会有很大的帮助。

未来的研究方向

从最近的一些研究进展中,我们可以看到,为了解决复杂的模式识别问题,统计和结构模型的混合,神经网络 +结构模型,可解释的神经网络,视觉 +语言和其他研究都可以吸引越来越多的关注,这也可以看到许多基于种典模式识别和结构模式识别的早期方法。

未来的研究指示包括:

最后,让我回应今天的主题:从主要的认知到主要的认知。相应的结构模型表示,学习和推理较高的是感知和认知的结合,这是高级认知,包括语义理解,语义推理,语义应用和决策。

Leifeng网络Leifeng网络

相关推荐
新闻聚焦
猜你喜欢
热门推荐
 
Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。