雷锋网 AI 科技评论按:本文为 BIGSCity 的知乎专栏内容,作者王小贱。北航智慧城市兴趣组 BIGSCITY是隶属于北京航空航天大学计算机学院的一个学术研究小组,小组致力于研究机器学习与数据挖掘在城市科学、社会科学等领域的交叉应用技术。AI 科技评论获得 BIGSCity 授权转载,敬请期待更多后续内容。非常开心本文成为 BIGSCity 兴趣组的第一篇投稿,《深度学习的可解释性研究》系列预计包含 3-4 篇内容,用尽可能浅显的语言带领大家了解可解释性的概念与方法以及关于深度学习可解释性工作的研究成果,不定期更新内容(欢迎催更)。可解释性是什么?广义上的可解释性指在我们需要了解或解决一件事情的时候,我们可以获得我们所需要的足够的可以理解的信息。比如我们在调试 bug 的时候,需要通过变量审查和日志信息定位到问题出在哪里。比如在科学研究中面临一个新问题的研究时,我们需要查阅一些资料来了解这个新问题的基本概念和研究现状,以获得对研究方向的正确认识。反过来理解,如果在一些情境中我们无法得到相应的足够的信息,那么这些事情对我们来说都是不可解释的。比如刘慈欣的短篇《朝闻道》中霍金提出的「宇宙的目的是什么」这个问题一下子把无所不知的排险者卡住了,因为再高等的文明都没办法理解和掌握造物主创造宇宙时的全部信息,这些终极问题对我们来说永远都是不可解释的。而具体到机器学习领域来说,以最用户友好的决策树模型为例,模型每作出一个决策都会通过一个决策序列来向我们展示模型的决策依据:比如男性&未婚&博士&秃头的条件对应「不感兴趣」这个决策,而且决策树模型自带的基于信息理论的筛选变量标准也有助于帮助我们理解在模型决策产生的过程中哪些变量起到了显著的作用。所以在一定程度上,我们认为决策树模型是一个具有比较好的可解释性的模型,在以后的介绍中我们也会讲到,以决策树为代表的规则模型在可解释性研究方面起到了非常关键的作用。再以用户最不友好的多层神经网络模型为例,模型产生决策的依据是什么呢?大概是以比如 1/(e^-(2*1/(e^(-(2*x+y))+1) + 3*1/(e^(-(8*x+5*y))+1))+1) 是否大于 0.5 为标准(这已经是最简单的模型结构了),这一连串的非线性函数的叠加公式让人难以直接理解神经网络的「脑回路」,所以深度神经网络习惯性被大家认为是黑箱模型。17 年 ICML 的 Tutorial 中给出的一个关于可解释性的定义是:Interpretation is the process of giving explanations to Human.总结一下就是「说人话」,「说人话」,「说人话」,不以人类可以理解的方式给出的解释都叫耍流氓,记住这三个字,你就差不多把握了可解释性的精髓所在。我们为什么需要可解释性?广义上来说我们对可解释性的需求主要来源于对问题和任务了解得还不够充分。具体到深度学习/机器学习领域,就像我们上文提到的多层神经网络存在的问题,尽管高度的非线性赋予了多层神经网络极高的模型表示能力,配合一些堪称现代炼丹术的调参技术可以在很多问题上达到非常喜人的表现,大家如果经常关注 AI 的头条新闻,那些机器学习和神经网络不可思议的最新突破甚至经常会让人产生 AI 马上要取代人类的恐惧和幻觉。但正如近日贝叶斯网络的创始人 Pearl 所指出的,「几乎所有的深度学习突破性的本质上来说都只是些曲线拟合罢了」,他认为今天人工智能领域的技术水平只不过是上一代机器已有功能的增强版。虽然我们造出了准确度极高的机器,但最后只能得到一堆看上去毫无意义的模型参数和拟合度非常高的判定结果,但实际上模型本身也意味着知识,我们希望知道模型究竟从数据中学到了哪些知识(以人类可以理解的方式表达的)从而产生了最终的决策。从中是不是可以帮助我们发现一些潜在的关联,比如我想基于深度学习模型开发一个帮助医生判定病人风险的应用,除了最终的判定结果之外,我可能还需要了解模型产生这样的判定是基于病人哪些因素的考虑。如果一个模型完全不可解释,那么在很多领域的应用就会因为没办法给出更多可靠的信息而受到限制。这也是为什么在深度学习准确率这么高的情况下,仍然有一大部分人倾向于应用可解释性高的传统统计学模型的原因。不可解释同样也意味着危险,事实上很多领域对深度学习模型应用的顾虑除了模型本身无法给出足够的信息之外,也有或多或少关于安全性的考虑。比如,下面一个非常经典的关于对抗样本的例子,对于一个 CNN 模型,在熊猫的图片中添加了一些噪声之后却以 99.3% 的概率被判定为长臂猿。在熊猫图片中加入噪声,模型以 99.3% 的概率将图片识别为长臂猿事实上其他一些可解释性较好的模型面对的对抗样本问题可能甚至比深度学习模型更多,但具备可解释性的模型在面对这些问题的时候是可以对异常产生的原因进行追踪和定位的,比如线性回归模型中我们可以发现某个输入参数过大/过小导致了最后判别失常。但深度学习模型很难说上面这两幅图到底是因为哪些区别导致了判定结果出现了如此大的偏差。尽管关于对抗样本的研究最近也非常火热,但依然缺乏具备可解释性的关于这类问题的解释。当然很多学者对可解释性的必要性也存有疑惑,在 NIPS 2017 会场上,曾进行了一场非常激烈火爆的主题为「可解释性在机器学习中是否必要」的辩论,大家对可解释性的呼声还是非常高的。但人工智能三巨头之一的 Yann LeCun 却认为:人类大脑是非常有限的,我们没有那么多脑容量去研究所有东西的可解释性。有些东西是需要解释的,比如法律,但大多数情况下,它们并没有你想象中那么重要。比如世界上有那么多应用、网站,你每天用 Facebook、Google 的时候,你也没想着要寻求它们背后的可解释性。LeCun 也举了一个例子:他多年前和一群经济学家也做了一个模型来预测房价。第一个用的简单的线性于猜测模型,经济学家也能解释清楚其中的原理;第二个用的是复杂的神经网络,但效果比第一个好上不少。结果,这群经济学家想要开公司做了。你说他们会选哪个?LeCun 表示,任何时候在这两种里面选择都会选效果好的。就像很多年里虽然我们不知道药物里的成分但一直在用一样。但是不可否认的是,可解释性始终是一个非常好的性质,如果我们能兼顾效率、准确度、说人话这三个方面,具备可解释性模型将在很多应用场景中具有不可替代的优势。有哪些可解释性方法?我们之前也提到机器学习的目的是从数据中发现知识或解决问题,那么在这个过程中只要是能够提供给我们关于数据或模型的可以理解的信息,有助于我们更充分地发现知识、理解和解决问题的方法,那么都可以归类为可解释性方法。如果按照可解释性方法进行的过程进行划分的话,大概可以划分为三个大类:1. 在建模之前的可解释性方法2. 建立本身具备可解释性的模型3. 在建模之后使用可解释性方法对模型作出解释在建模之前的可解释性方法这一类方法其实主要涉及一些数据预处理或数据展示的方法。机器学习解决的是从数据中发现知识和规律的问题,如果我们对想要处理的数据特征所知甚少,指望对所要解决的问题本身有很好的理解是不现实的,在建模之前的可解释性方法的关键在于帮助我们迅速而全面地了解数据分布的特征,从而帮助我们考虑在建模过程中可能面临的问题并选择一种最合理的模型来逼近问题所能达到的最优解。数据可视化方法就是一类非常重要的建模前可解释性方法。很多对数据挖掘稍微有些了解的人可能会认为数据可视化是数据挖掘工作的最后一步,大概就是通过设计一些好看又唬人的图表或来展示你的分析挖掘成果。但大多数时候,我们在真正要研究一个数据问题之前,通过建立一系列方方面面的可视化方法来建立我们对数据的直观理解是非常必须的,特别是当数据量非常大或者数据维度非常高的时候,比如一些时空高维数据,如果可以建立一些一些交互式的可视化方法将会极大地帮助我们从各个层次角度理解数据的分布,在这个方面我们实验室也做过一些非常不错的工作。还有一类比较重要的方法是探索性质的数据分析,可以帮助我们更好地理解数据的分布情况。比如一种称为 MMD-critic 方法中,可以帮助我们找到数据中一些具有代表性或者不具代表性的样本。使用 MMD-critic 从 Imagenet 数据集中学到的代表性样本和非代表性样本(以两种狗为例)建立本身具备可解释性的模型建立本身具备可解释性的模型是我个人觉得是最关键的一类可解释性方法,同样也是一类要求和限定很高的方法,具备「说人话」能力的可解释性模型大概可以分为以下几种:1. 基于规则的方法(Rule-based)2. 基于单个特征的方法(Per-feature-based)3. 基于实例的方法(Case-based)4. 稀疏性方法(Sparsity)5. 单调性方法(Monotonicity)基于规则的方法比如我们提到的非常经典的决策树模型。这类模型中任何的一个决策都可以对应到一个逻辑规则表示。但当规则表示过多或者原始的特征本身就不是特别好解释的时候,基于规则的方法有时候也不太适用。基于单个特征的方法主要是一些非常经典的线性模型,比如线性回归、逻辑回归、广义线性回归、广义加性模型等,这类模型可以说是现在可解释性最高的方法,可能学习机器学习或计算机相关专业的朋友会认为线性回归是最基本最低级的模型,但如果大家学过计量经济学,就会发现大半本书都在讨论线性模型,包括经济学及相关领域的论文其实大多数也都是使用线性回归作为方法来进行研究。这种非常经典的模型全世界每秒都会被用到大概 800 多万次。为什么大家这么青睐这个模型呢?除了模型的结构比较简单之外,更重要的是线性回归模型及其一些变种拥有非常 solid 的统计学基础,统计学可以说是最看重可解释性的一门学科了,上百年来无数数学家统计学家探讨了在各种不同情况下的模型的参数估计、参数修正、假设检验、边界条件等等问题,目的就是为了使得在各种不同情况下都能使模型具有有非常好的可解释性,如果大家有时间有兴趣的话,除了学习机器学习深度模型模型之外还可以尽量多了解一些统计学的知识,可能对一些问题会获得完全不一样的思考和理解。基于实例的方法主要是通过一些代表性的样本来解释聚类/分类结果的方法。比如下图所展示的贝叶斯实例模型(Bayesian Case Model,BCM),我们将样本分成三个组团,可以分别找出每个组团中具有的代表性样例和重要的子空间。比如对于下面第一类聚类来说,绿脸是具有代表性的样本,而绿色、方块是具有代表性的特征子空间。使用 BCM 学到的分类及其对应的代表性样本和代表性特征子空间基于实例的方法的一些局限在于可能挑出来的样本不具有代表性或者人们可能会有过度泛化的倾向。基于稀疏性的方法主要是利用信息的稀疏性特质,将模型尽可能地简化表示。比如如下图的一种图稀疏性的 LDA 方法,根据层次性的单词信息形成了层次性的主题表达,这样一些小的主题就可以被更泛化的主题所概括,从而可以使我们更容易理解特定主题所代表的含义。Graph-based LDA 中的主题层次结构基于单调性的方法:在很多机器学习问题中,有一些输入和输出之间存在正相关/负相关关系,如果在模型训练中我们可以找出这种单调性的关系就可以让模型具有更高的可解释性。比如医生对患特定疾病的概率的估计主要由一些跟该疾病相关联的高风险因素决定,找出单调性关系就可以帮助我们识别这些高风险因素。在建模之后使用可解释性性方法作出解释建模后的可解释性方法主要是针对具有黑箱性质的深度学习模型而言的,主要分为以下几类的工作:1. 隐层分析方法2. 模拟/代理模型3. 敏感性分析方法这部分是我们接下来介绍和研究的重点,因此主要放在后续的文章中进行讲解,在本篇中不作过多介绍。除了对深度学习模型本身进行解释的方法之外,也有一部分工作旨在建立本身具有可解释性的深度学习模型,这和我们前面介绍通用的可解释性模型有区别也有联系,也放到以后的文章中进行介绍。如果对本系列感兴趣或有疑问,欢迎私信交流。关于 BIGSCity北航智慧城市兴趣组 BIGSCITY 是隶属于北京航空航天大学计算机学院的一个学术研究小组,小组致力于研究机器学习与数据挖掘在城市科学、社会科学等领域的交叉应用技术。BIGSCITY 的研究兴趣包括:城市计算,时空数据挖掘,机器学习可解释性,以及 AI 在交通、健康、金融等领域的应用等。本专栏将介绍 BIGSCITY 的一些研究成果,不定期更新与课题组研究相关的研究工作介绍,以及介绍与 BIGSCITY 相关的一切有趣的内容。关于 BIGSCITY 的详细情况参见研究组主页:https://www.bigscity.com/参考文献1. Google Brain, Interpretable Machine Learning: The fuss, the concrete and the questions.2. Kim B, Koyejo O, Khanna R, et al. Examples are not enough, learn to criticize! Criticism for Interpretability[C]. neural information processing systems, 2016: 2280-2288.3. Kim B, Rudin C, Shah J. The Bayesian Case Model: A Generative Approach for Case-Based Reasoning and Prototype Classification[J]. Computer Science, 2015, 3:1952-1960.4. Doshi-Velez F, Wallace B C, Adams R. Graph-sparse LDA: a topic model with structured sparsity[J]. Computer Science, 2014.
近年来,深度学习系统的解释方法已引起人们的广泛关注。现有的深度神经网络可解释方法主要分为基于数据的方法和基于模型的方法。基于数据的可解释性分析方法中最典型的是可视化方法。可视化方法主要通过可视化工具将数据中的重要部分进行标注,将学习过程与原始数据结合起来,进而帮助我们直观地理解深度学习的学习过程。例如,塞尔瓦拉朱(Selvaraju)等人使用了可视化方法,通过对卷积层的梯度生成热力图,对输入图像中的重要像素进行显示和标注,帮助我们理解深度学习的学习区域;欧拉(Olah)等人则使用了特征可视化的方法,对神经元学习到的内容进行可视化。这些可视化方法让人们对神经网络的内在机理有了直接印象,但是由于这类方法无法深人了解模型内部结构,难以对模型决策逻辑进行直接解释,因此对于神经网络的黑盒问题并没有实质性地解决。基于模型的可解释性分析方法主要分为代理模型和自动特征提取两种。代理模型方法是通过构建新的模型以模拟黑盒模型的输入和输出,通过该代理模型来理解原黑盒模型,比较典型的有里贝罗(Ribeiro)等人提出的基于模型无关的局部可解释性描述(Local Interpretable Model-Agnostic Explanations,LIME)的线性代理模型。自动特征提取则是另一种研究深度学习系统可解释性的方法,其主要通过对输入、输出以及模型内部元素的关系进行研究,进而分析解释其决策逻辑。具体有通过对各层、各神经元使用if-then规则进行自动特征提取的KT方法,使用采样进行自动特征提取的方法,以及通过连接权、偏导、输入变量的改变来判断输入变量重要程度的敏感性分析方法等。尽管这些方法能对现有神经网络的决策逻辑进行一定的分析,但是无法直接构建可解释性的神经网络。基于数据的可解释分析方法虽然能对神经网络的决策逻辑提供直观的印象,但是很难指导我们进行有目的的建模。而基于模型的可解释分析方法虽然在一定程度上对可解释性有所帮助,但是仍然很难帮助我们解决深度学习系统难以判读的问题。所以寻找一种新的能同时拥有可判读和可理解两大特要性,并可直接构建新的神经网络的方法成为了解决深度学习智能系统安全的核心问题之一。
「CV研究合辑」,是智东西公开课针对计算机视觉推出的一档合辑,聚焦于计算机视觉前沿领域研究成果与进展的讲解。每一讲由主讲与答疑两个环节组成,其中,主讲60分钟,采用视频直播形式,答疑30分钟,将在相应交流群进行。神经网络由于网络特征或决策逻辑在语义层面难以理解,同时也缺少数学工具去诊断与评测网络的特征表达能力,进而解释目前不同神经网络模型的信息处理特点,一直被大家称为是一种“黑箱”。而如何对神经网络进行“解释”,称为近年来的热门研究方向。生成对抗网络近年来随着其不断的发展,生成图片的质量以及模型的训练稳定性不断提高。然而,对于对抗生成网络的可解释性还少有研究。生成图片的过程是否有迹可循?生成模型是否像分类模型一样可以学到高级的语义信息?除了生成高清图片之外,一个预训练好的生成模型还有哪些应用?6月5日晚8点,智东西公开课「CV研究合辑」第7讲直播开讲,由香港中文大学MMLab在读博士沈宇军为大家深度讲解《生成对抗网络的可解释性研究及其应用》。沈博士将从隐空间的角度出发,深入分析对抗生成网络的可解释性,并介绍如何对生成网络自发学到的知识进行再利用,使得一个预训练好的模型可以被应用到各种各样的任务中去。沈宇军,香港中文大学MMLab在读博士,师从汤晓鸥教授和周博磊教授,香港博士研究生奖学金计划(HKPFS)获得者。沈博士本科毕业于清华大学电子工程系。课程内容主题:生成对抗网络的可解释性研究及其应用提纲:1、生成对抗网络的可解释性2、基于隐空间可解释性的深度解析3、如何对生成网络自发学到的知识进行再利用讲师介绍沈宇军,香港中文大学MMLab在读博士,师从汤晓鸥教授和周博磊教授,香港博士研究生奖学金计划(HKPFS)获得者;本科毕业于清华大学电子工程系。直播信息直播时间:6月5日20点直播地点:智东西公开课小程序答疑地址:GAN交流群加入交流群本次课程的讲解分为主讲和答疑两部分,主讲以视频直播形式,答疑将在「GAN交流群」进行。加入交流群,除了可以免费收看直播之外,还能认识讲师,与更多同行和同学一起学习,并进行深度讨论。扫码添加小助手糖糖(ID:hitang20)即可申请,备注“姓名-公司/学校/单位-职位/专业”的朋友将会优先审核通过哦~
机器之心分析师网络分析师:张雨嘉编辑:Joni Zhong随着机器学习(ML)领域的深入发展,机器人在教育、引导、医疗方面都有巨大的应用。但如今人们不仅关注于机器人执行任务的准确和效率,更希望理解其决策的原因和行动,从而判断是否信任答案,而这正也是可解释人工智能(XAI)所要研究的问题。XAI 主要解决以下问题:对于使用者而言某些机器学习模型如同黑盒一般,给它一个输入,决策出一个结果。比如大部分深度学习的模型,没人能确切知道它决策的依据以及决策是否可靠。如图 1 的 output 所示,为一般网络给出的决策,缺乏可解释性的结果让使用者感到困惑,严重限制了其在现实任务中的广泛应用。图 1 如今的深度学习 [1] 所以为了提高机器学习模型的可解释性和透明性,使用户和决策模型之间建立信任关系,近年来学术界进行了广泛和深入的研究并提出了可解释的机器学习模型。如图 2,模型在决策的同时给出相应的解释,以获得用户的信任和理解。图 2 可解释的机器学习 [1] 对于机器学习模型来说,我们常常会提到2个概念:模型准确性(accuracy)和模型复杂度(complexity)。模型的复杂度与准确性相关,又与模型的可解释性相对立。因此我们希望找到一种模型如图 3 所示,具有可解释性的同时尽可能保证模型的准确性和复杂度。图 3 模型性能与可解释的关系 [1] 由于人机交互这一需求的急剧增加,可解释人工智能(XAI)模型引起了学者的广泛研究。2019 年 Sule Anjomshoae[2] 等人提出将 XAI 分为数据驱动(data-driven)XAI 和目标驱动(goal-driven)XAI。除了 XAI,2018 年英国曼彻斯特大学 Cangelosi 教授和意大利 Chella 团队 [3] 不仅注意到人对机器可解释性的信任,还研究了机器对人的信任模型。他们是基于心理学的 ToM(心智理论)来建立一个认知模型来实现。以下我们将从上述这两方面详细说明。人对机器的信任对决策提供解释的能力是智力的一个标志,但什么形式的解释最能促进人类对机器的信任还不明确。朱松纯教授团队最近在 science robotics 杂志上提出了一个 GEP 集成框架 [4],整合数据驱动的触觉模型和符号行动规划器(symbol planner)提供功能和机械解释。研究者设计了一个打开具有多种安全锁机制的药瓶的操作任务,然后通过一个机器人在该任务上对这个集成式框架进行了检验。框架如图 1 所示,主要分为演示、学习和评价三方面。图 1 GEP 总体框架 [4](A)使用触觉手套收集人体演示数据。(B)通过诱导语法模型来学习符号表示。(C)使用自动编码器学习触觉表示。对机器人动作的功能解释。(D)使用 GEP 框架对这两部分进行整合,得出行动规划。(E)不同模型的性能比较。(F)产生有效的解释以促进人类的信任。为了学习人类如何打开药瓶,演示部分采用一个带有力传感器 [5] 的触觉手套来捕捉打开药瓶时的姿势和演示者的力。为了测试机器人系统的泛化能力,我们用与训练数据不同的瓶子进行测试。 但由于人类与机器人的表现形式不同,即人有 5 个手指,而机器人可能只有 2 或 3 个。因此机器人系统的触觉模型不能简单地复制人的姿势和施加的力;相反,机器人应该模仿动作,以打开药瓶的最终效果为目标。这就必须使用一个触觉预测模型(haptic model)让机器人根据感知到的人类和机器人的力量,像人类一样想象下一步骤最可能出现的动作及姿势。 触觉预测模型的三步过程如图 2 所示:图 2(A)通过触觉手套(有 26 个维度的力量数据)收集*人类*状态中的力量信息。同时图 2(C)从机器人末端执行器中的传感器(具有三维力数据)记录的*机器人*状态中的力量信息。结合人类和机器人两方面信息,在中间的图 2(B)的 autoencoder 体现了触觉表征和动作预测模型。通过学习一个自动编码器,将触觉映射网络同行动预测网络进行结合,并预测下一步采取什么行动。图 2 触觉预测模型 [4]又因为打开药瓶是一种具有挑战性的多步操作,所以使用符号表示有利于捕捉任务的必要约束。一个优良的符号规划器是机器人系统基于人类演示学习一个随机的语法模型,并将其用作获取任务的组成性质和长期限制的符号表征。符号行动规划器用来编码任务执行序列的语义知识。它使用随机的上下文无关语法来表示任务,其中终端节点 (单词) 是动作,句子是动作序列。给定一个动作语法,规划器根据动作历史找到下一个执行的最佳动作,类似于用给出的一部分句子预测下一个单词。最后,这种动作序列被输入到 [6] 中提出的语法归纳算法中用来解析和预测机器人动作序列。我们用 the Earley parser [7] 解析器和动作语法作为符号规划器(symbolic planner)来表示计划动作的过程。另外,利用这种规划器还可解决单样本的模仿学习问题,详见论文《Continuous Relaxation of Symbolic Planner for one-shot Imitation Learning》[8] 为了将符号规划器所引导的长期任务结构与从触觉信号中学习到的操作策略相结合,可以使用 GEP 将符号规划器与具体化的触觉模型 f 相结合 [7],其公式如下式 1,是同时考虑语法先验和触觉信号可能性的一个后验概率。其中 G 为动作语法,f_t 是触觉输入,a_{t+1} 是用符号规划器得到的 t+1 时刻动作,最后找到 t+1 时刻的最佳动作 a_{t+1}^{*}。使用 GEP 框架搜索最有可能发生下一步动作的例子,如图 3c 所示。搜索过程从前缀树的根节点开始,这是一个空的终端符号。当搜索到达叶节点时,搜索就会终止,所有非叶节点都表示终端符号(即动作), 而最后一个非叶节点将是执行的下一个操作的概率。(1)图 3 GEP 搜索过程示例 [4]实验结果如图 4,显示了机器人打开人类演示的三个药瓶和两个新药瓶的成功率。可以看出触觉模型和符号规划器的性能各有千秋,但使用 GEP 的组合规划器在所有情况下都能产生最佳性能。因此,整合由符号规划器提供的长期任务结构和触觉模型提供的实时感觉信息可以达到最佳的机器人性能。图 4 机器人在不同条件下的性能 [4] 触觉模型和符号规划器能够实时地向人类解释机器人的行为,所以验证机器的可解释性与人类信任的关系由五组实验进行。实验分组为基准不解释组(baseline)、符号解释组(symbolic)、触觉解释组(haptic)、GEP 解释组(GEP)和文本解释组(text)组成。对于基准不解释小组,参与者只观看从试图打开药瓶的机器人录制的 RGB 视频,其余各个组别的解释如图 5 所示。图 5 不同组别的不同解释形式 [4] 在实验阶段,向参与者提供了两次机器人演示,一次成功打开一个药瓶,一次拧同样的瓶子失败。在不同解释小组下观察机器人演示后,参与者提供一个信任评级的问题:「你在多大程度上相信这个机器人有能力打开一个药瓶?(信任值在 0 到 100 之间)」。这一评级为机器人打开药瓶的能力提供了一个定性的衡量人类信任的标准。 人类对不同解释组的信任结果如图 6A 所示,我们发现,具有符号规划和触觉解释面板的 GEP 组产生的信任度最高,其评分显著优于不解释的基准组。此外,符号组(symbolic)的高信任度表明查看了演示机器人实时内部决策的符号动作规划器解释在培养信任方面起着重要作用。然而,触觉解释组(haptic)的信任度与基准组确没有显著差异,这意味着仅仅基于触觉信号的可视化界面解释并不是获得信任的有效方法。最后,文本组(text)提供了一个摘要描述来解释机器人的行为反而降低了人们的信任度,这表明在培养人类信任方面,对机器人长期内部决策的详细解释要比解释机器人行为的摘要文本描述有效得多。图 6 信任度与性能比较 [4] 除了信任度比较,不同模型的预测正确率也是我们关注的重点。由图 6B 可以看出,基于预测准确性的实验产生了与 A 图相似的结果。GEP 组参与者的预测准确率明显高于基准组。因此,摘要文本解释和仅仅基于触觉信号的解释并不是获得人类信任的有效方法,而 GEP 和符号解释与机器人系统建立了相似程度的人类信任。总之,人类似乎需要机器人对执行的动作序列的内部决策进行实时地解释,以建立对执行多步骤复杂任务机器的信任。 因此,对于任务性能来说,触觉模型对于机器人成功地打开具有高复杂度的药瓶起着重要的作用。然而,获得人类信任的主要贡献是由符号规划器提供的实时机械解释得到的。因此,促进最信任的模型组件不一定与那些有助于最佳任务性能的组件相对应。这种差异意味着应该将高信任组件与高性能组件集成起来,以最大限度地提高人类的信任和任务的成功执行。具有可解释模型的机器人为将机器人融入日常生活和工作提供重要的一步。机器对人的信任前面的一个研究着重于如何提升机器人里面的模型,也就是将信任归因于机器人,但很少有人研究相反的情况。Cangelosi 等基于心理学的 ToM(Theory of Mind)理论提出一个机器人的认知模型 (cognitive architecture),可以根据交互信息决策人类的可信程度,模拟机器人被不断被「欺骗」或者被「协助」时的「心理活动」。ToM 是一个关于人类认知的解释,说明了一个人可以推理别人心理状态的能力。比方说,一个人在与另外一个人相处的时候,会「代入」别人的角色,从而理解对方的意图。这种能力是随着年龄增长而逐渐学习的,比如著名的 Anne-and-Sally 实验。该文在 Patacchiola 和 Cangelosi[9] 研究的基础上设计了一个贝叶斯信任模型,该模型结合了 ToM 和信任的各个方面,并将其用于重现范德比尔特实验 [10]。该实验本是一个测量不同年龄是否拥有 ToM 的心理学实验,正确判断他人可信度的能力与 ToM 的成熟度密切相关。一个成熟的 ToM 在成年人中具有普遍性,它允许一个人事先进行行为预测并提供可信度方面的线索。但对于学龄前儿童来说,却不一定拥有这种成熟的 ToM。因此范德比尔特实验是给 90 名学龄前儿童(平均分为 3 岁、4 岁和 5 岁)播放了一段视频,其中一名成年演员扮演帮助者或是骗子,分别给参与者提供了正确或错误的建议。最后,参与者将决定是否遵循这一建议。根据儿童提交的选择,我们发现只有 5 岁的孩子才能区分帮助者和骗子的区别,从而证明拥有一个成熟的 ToM。该文利用人形机器人 Pepper,集成了一个基于 ToM 的认知和信任模型,并得到情景记忆系统的支持来重现该实验。该机器能够学会区分值得信赖和不值得信赖的信息来源,并且根据其互动修改信任的行为。这种认知机器人系统需要能够经受发展心理学试验 [10],即 5 岁以上儿童才具有成熟的 ToM 认知能力。机器人需要拥有一个信任和 ToM 计算模型,才能预测交互者的意图。该模型是由 Patacchiola[9] 设计发展的贝叶斯信任模型,它采用概率方法来解决信任估计问题。 模拟机器人和交互者之间联系的贝叶斯网络(BN)如图 1 所示,节点 XR 和 YR 分别代表机器人的信任和动作。节点 YR 的后验分布决定机器选择要执行的操作。YI 和 YR 之间的联系代表了交互者的意见对代理人行动的影响。然后,机器人的行动是其自己的信念 XR 和交互者的行动 YI 的结果。最后,对真实情况 XI 的估计使机器能够有效地区分是否信任交互者。图 1 人机交互联系 [3] 利用自己过去的记忆在现在和未来做出决定是增强认知过程的一项重要技能,将使机器人对一个从未熟悉过的人作出合理的反应。这种算法应该遵循的设计准则是:记忆随着时间的推移而消失;细节与记忆的数量成比例地消失;令人震惊的事件,如惊喜和背叛,应该比普通的经历更难忘记。为此情景信任网络借鉴了在移动机器人定位中广泛使用的粒子滤波技术,当遇到未知的交互者时,该组件都会动态生成一定数量的事件(episode)来训练新的 BN。表示记忆重要度 v 的计算如下式 2,定义在 [0,1] 区间中。其中varepsilon {j}^{(s{i})} 是形成BN网络 si 中的第 j 次事件,E_{si} 是由不同事件构成的重放数据集。计算的含义为每一事件的信息量 I(varepsilon {j}^{(s{i})}) 与其重放数据集的总信息熵 H(E_{si}) 之间的差值,再除以与记忆形成时间有关的离散时间差Delta t+1。(2)一旦计算出了 v 值,就可以将其投影为在重放数据集中的重复次数 F(v),如式 3 所示。通过观察机器人与不同的交互者而得到的重要值 v 的概率分布,将重要度 v 小于或等于 0.005 的值丢弃(即遗忘该记忆)。(3)回到类粒子滤波的算法中,我们知道在粒子滤波中粒子的生成和分布都有技巧。在本文中,如何生成重放事件(replay episode)中的样本数 k?我们应该假定:k 太低会导致一个容易受骗的信任网络,高值则会使它对变化不敏感,而目标是让机器人对交互者的信任是坚定但多变的。在不同 k 值下产生的情景信任网络的平均熵如图 2 所示,可以看出当取 k=10 时,大小适中、偶数并且还是局部熵的最小值。图 2 不同样本数产生的情景信任网络的平均熵 [3]实验中,让机器人分别与 8 位交互者沟通,其中有帮助者(helper)和欺骗者(tricker)。结果如图 3 所示,绿色条表示信任,红色条倾向于不信任。当横坐标信任因子 T=0 时,交互者既不可信也不信任,机器人会随机行事。由此可见,一个经常被骗的机器人会倾向于不信任它第一次遇到的人,而一个受到善待的机器人会尝试去信任,直到提出相反的证据。图 3 不同交互下情景信任网络的可靠性直方图 [3] 训练时采用一种人形机器人模拟交互场景,如图 4 所示,机器人通过与交互者的沟通,进行人脸识别并训练 ToM 模型,决策是否相信该交互者提供的信息。其中 helper 提供正确信息,tricker 提供错误信息。图 4 人机交互场景步骤 [3] 在测试时,当识别到已知人脸时,会调用相关的信任值并在随后的计算中使用。否则,将使用情景记忆为交互者快速生成一个新的信任值。如果信任的结果与事实不符,则检测错误,更新信任值,使机器人逐渐适应交互者的行为。 这种方法将原始模型集成到一个完整的机器人体系中,并扩展了一个情景记忆组件,使其能够利用过去的经验来发展性格,以提高其认知能力与互动安全。未来,由于 BN 网络的灵活性,重新组织节点和边缘权值使其在现实生活中会更加通用,并且可以拓展到机器人辅助手术、老年人护理和自主驾驶 [11] 等领域。总结可解释机器学习在机器人上的应用主要体现在人机交互中,这两篇文章从不同角度和不同方法衡量和提高机器对人的信任与人对机器的信任。朱松纯教授团队的文章主要利用可解释性 AI 方法,令用户清楚机器人的动作选择。另外利用 GEP 框架,该模型在某程度上结合了人类的触觉力度,从而使概率框架中的学习和搜索更有效率。但本文基本上只是学习了开瓶子一个任务动作,该框架如何学习多任务,或者甚至归纳出新的行为动作,还是一个疑问。通过人机交互的问卷实验,从而定量检验人的信任程度也是一个创新之处。而 Cangelosi 等的文章,则利用一个巧妙的方向,考虑模仿机器人的心理「变化」。也是因为事件比较简单,所以可以利用类蒙地卡罗的方法学习各种的离散状况。但如果当事件变得复杂时,该方法是否可以 scalable,怎样有效率地学习,应该是下一步的方向。机器对人的信任在实际应用中占有重要地位。在军事安全中,如果机器盲目相信操作者指令,则可能导致错误的决策。在医疗手术中,如果医生盲目相信机器作出的判断,则很有可能危及病人的生命。所以,如何平衡两者之间的关系还需进行广泛的研究。我们也希望未来的人机协作可以更安全、可信地进入社区,服务大众。分析师简介:张雨嘉,现在西安理工大学攻读模式识别方面的硕士学位,主要研究基于深度学习的图像视频处理方法,对机器学习也抱有极大的兴趣。作为机器之心技术分析师的一员,希望能跟各位一起研究探讨,共同提高学习。参考文献:[1]DARPA 2019 人工智能研讨会[2]Anjomshoae S, Najjar A, Calvaresi D, et al. Explainable agents and robots: Results from a systematic literature review[C]//Proceedings of the 18th International Conference on Autonomous Agents and MultiAgent Systems. International Foundation for Autonomous Agents and Multiagent Systems, 2019: 1078-1088.[3]Vinanzi S, Patacchiola M, Chella A, et al. Would a robot trust you? Developmental robotics model of trust and theory of mind[J]. Philosophical Transactions of the Royal Society B, 2019, 374(1771): 20180032.[4]Edmonds M, Gao F, Liu H, et al. A tale of two explanations: Enhancing human trust by explaining robot behavior[J]. Science Robotics, 2019, 4(37).[5]Liu H, Xie X, Millar M, et al. A glove-based system for studying hand-object manipulation via joint pose and force sensing[C]//2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2017: 6617-6624.[6]Tu K, Pavlovskaia M, Zhu S C. Unsupervised structure learning of stochastic and-or grammars[C]//Advances in neural information processing systems. 2013: 1322-1330.[7]Qi S, Jia B, Zhu S C. Generalized earley parser: Bridging symbolic grammars and sequence data for future prediction[J]. arXiv preprint arXiv:1806.03497, 2018.[8]Huang D A, Xu D, Zhu Y, et al. Continuous Relaxation of Symbolic Planner for One-Shot Imitation Learning[J]. arXiv preprint arXiv:1908.06769, 2019.[9]Patacchiola M, Cangelosi A. A developmental Bayesian model of trust in artificial cognitive systems[C]//2016 Joint IEEE International Conference on Development and Learning and Epigenetic Robotics (ICDL-EpiRob). IEEE, 2016: 117-123.[10]Vanderbilt K E, Liu D, Heyman G D. The development of distrust[J]. Child development, 2011, 82(5): 1372-1380.[11]Helldin T, Falkman G, Riveiro M, et al. Presenting system uncertainty in automotive UIs for supporting trust calibration in autonomous driving[C]//Proceedings of the 5th international conference on automotive user interfaces and interactive vehicular applications. 2013: 210-217.
选自 KDnuggets作者:Jesus Rodriguez机器之心编译参与:李诗萌、路最近,谷歌大脑团队发表了一篇论文,文中提出了一种叫做概念激活向量(Concept Activation vectors,CAV)的新方法,这种方法为深度学习模型的可解释性提供了一个全新的视角。可解释性仍然是现代深度学习应用的最大挑战之一。计算模型和深度学习研究领域近期取得了很大进展,创建了非常复杂的模型,这些模型可以包括数千个隐藏层、数千万神经元。虽然创建高级深度神经网络相对简单,但理解如何创建这些模型以及它们如何使用知识仍然是一个挑战。最近,谷歌大脑(Google Brain)团队发表了一篇论文《Interpretability Beyond Feature Attribution: Quantitative Testing with Concept Activation Vectors (TCAV)》,提出一种叫作「概念激活向量」(Concept Activation Vectors,CAV)的新方法,为深度学习模型的可解释性提供了全新视角。论文地址:https://arxiv.org/pdf/1711.11279.pdfGitHub 地址:https://github.com/tensorflow/tcav可解释性与准确率理解 CAV 技术,需要首先理解深度学习模型可解释性难题的本质。在这一代深度学习技术中,模型准确率与可解释性之间存在永久的冲突。可解释性与准确性之间的冲突也是实现复杂知识任务与如何实现这些任务之间的冲突。知识与控制、性能与可解释性、效率与简洁……这些问题都可以通过权衡准确率与可解释性来解释。你想要最佳结果还是想理解这些结果是如何产生的?这是数据科学家在每个深度学习场景中都要回答的问题。很多深度学习技术本质上是复杂的,尽管在很多情况下它们产生的结果是准确的,但是它们难以解释。如果我们绘制一些著名深度学习模型的可解释性和准确率,可以得到:深度学习模型的可解释性不是一个单一的概念,可以跨多个层次来理解:要跨越上图定义的层次来解释模型,需要一些基础的构建块。在近期的一篇文章中,谷歌的研究人员概述了他们认为解释模型所需的基础构建块。谷歌将可解释性原则总结如下:理解隐藏层做了什么:深度学习模型中的大部分知识是在隐藏层中形成的。要解释深度学习模型,必须要从宏观角度理解不同隐藏层的功能。理解节点是如何激活的:可解释性的关键不是理解网络中单一神经元的功能,而是要理解在同一空间位置一起激活的互相连接的神经元组。通过互相连接的神经元组分割网络可以从更简单的抽象层次来理解其功能。理解概念是如何形成的:深度神经网络如何形成可组装成最终输出的单个概念,理解这一问题是另一个关键的可解释性构建块。而这些原则是谷歌新方法 CAV 的理论基础。概念激活向量(CAV)如前所述,可解释性的一般方法应该是根据深度模型所考虑的输入特征来描述其预测结果。一个经典例子就是 logistic 回归分类器,一般会把分类器中的系数权重解释为每个特征的重要性。但大部分深度学习模型在特征层面(如像素值)的运算,无法和人类能轻易理解的高级概念对应。此外,模型的内部值(例如神经激活)似乎是无法理解的。尽管像显著性图(saliency map)这样的技术可以有效测量特定像素区域的重要性,但它们无法和更高级的概念相对应。CAV 的核心思想是度量模型输出中概念的相关性。对概念来说,CAV 是概念示例集的值方向上的一个向量。在他们的论文中,谷歌研究团队还提到了一种名为 TCAV(Testing with CAV)的新型线性可解释性方法,这种方法用方向导数(directional derivatives)来量化模型预测对 CAV 学习到的底层高级概念的敏感度。从概念上讲,定义 TCAV 有以下四个目标:易于访问:用户几乎不需要 ML 专业知识。可定制化:适应任何概念(比如性别),而且不受限于训练过程中所考虑的概念。插件准备:不需要重新训练或修改 ML 模型就可以直接工作。全局量化:用单个量化方法就可以解释整个类或整组示例,而且不只是解释数据输入。为了实现上述目标,TCAV 方法分为三个基本步骤:给模型定义相关概念;理解预测结果对这些概念的敏感度;全局定量解释每个概念对每个模型预测类的相对重要性。TCAV 方法中的第一步是定义感兴趣的概念(CAV)。TCAV 使用的方法是,选择一组可以表示这个概念的示例集,或者可以找到具备该概念的独立数据集的示例集。通过训练能够分辨概念示例产生的激活和任意层产生的激活的线性分类器,学得 CAV。第二步是生成 TCAV 分数,该分数表示预测结果对特定概念的敏感度。TCAV 用方向导数实现了这一点,方向导数可以在神经激活层衡量 ML 预测值对沿着概念方向变化的输入的敏感度。最后一步是评估学到的 CAV 的全局相关性,来避免依赖不相关的 CAV。TCAV 技术的一大缺陷是可能学到无意义的 CAV。毕竟,就算用随机选择的一组图片也会得到 CAV。基于这种随机概念的测试不太可能有意义。为了解决这一问题,TCAV 引入了统计显著性检验,根据随机的训练次数(一般是 500 次)评估 CAV。这一步的思路是,有意义的概念会让训练过程中的 TCAV 分数保持一致。TCAV 的效果谷歌大脑团队进行了多项实验来对比 TCAV 和其他可解释性方法的效率。在最引人瞩目的一项实验中,该团队用显著性图来理解出租车的概念。该显著性图的输出如下图所示:谷歌大脑团队用这些图像作为测试数据集,在 Amazon Mechanical Turk 上用 50 人进行了实验。每个人做 6 项任务(3 object classes x 2s aliency map types),所有这些任务都针对单个模型。任务顺序是随机的。在每项任务中,工作人员首先会看到四张图像及其对应的显著性掩码(saliency mask)。然后他们对图像对模型的重要性(10 分制)、标题对模型的重要性(10 分制)以及他们对自己答案的确信程度(5 分制)等问题进行打分。这些工作人员一共评估了 60 张不同的图像(120 个不同的显著性图)。实验的基本事实是图像概念与标题概念更相关。但当看到显著性图时,人们认为标题概念更重要(0% 噪声模型)或没有差别(100% 噪声模型)。相比之下,TCAV 的结果正确地表明了图像概念更重要。TCAV 是近几年间研究神经网络可解释性领域中最具创新性的方法之一。GitHub 上有 TCAV 的初始技术代码,我们期待看到一些主流深度学习框架会采用这一想法。
近日,索信达控股有限公司(简称:索信达)旗下金融人工智能实验室对外发布《机器学习模型的“可解释性”研究》,重点阐述了机器学习模型的“可解释性”的重要意义以及索信达在机器学习可解释性领域的创新实践。索信达在研究中指出,神经网络的发展,为机器学习和人工智能领域带来了显著的突破,复杂的网络结构层出不穷,在计算机视觉和自然语言处理领域获得了极大的成功。除了模型的预测表现,透明度和可解释性也是机器学习模型是否值得信赖的重要考核标准。索信达金融人工智能实验室负责人邵平表示,随着机器学习的发展,不同的算法纷纷涌现,特别是在深度学习领域,不同的神经网络模型在图像识别、语音识别、自然语言处理等方面都已经取得了一定的成果。但是模型的效果往往是以牺牲模型的可解释性为代价,在深度学习中网络模型越来越复杂,导致了它的解释性很差,我们很难向非专业人士解释清楚得到的结果。如果没有充分的可解释性,这些模型在医药、金融等领域的应用将受到很多限制。例如,银行的信用评分模型不仅要预测精确,各种决策理由也要令人信服。在银行业,人们有权询问为什么自己的信用评分比较低,而业务人员不能仅仅解释为因为您的模型评分低。而在医疗这一极负“责任”的领域,使用模型来诊断疾病更加需要可解释性。但讽刺的是,即使神经网络可解释性差,在乳腺癌切片的图像诊断上,机器学习模型可以达到89%的准确性,而训练过的病理学家只有73%的平均准确率。由此可见,我们既无法因为其可解释性差而放弃使用这一高效模型,亦不能完全依赖这个“黑箱子”来帮助人类做出重大决策。据索信达介绍,《机器学习模型的“可解释性”研究》在其官方微信公众号首发,上半部分内容将围绕模型的可解释性来对比和介绍传统统计学模型和神经网络模型的特点,介绍神经网络模型原理及其与统计学模型的关系,以及关于神经网络可解释性的发展与研究方向。下半部分内容将重点介绍索信达采用一种更简化、预测精度高的新型可解释神经网络模型在银行业中的创新实践与应用,帮助银行创造更大的业务价值。
机器之心分析师网络分析师:立早编辑: H4O一直以来,深度网络在图像识别,检测,语言等领域都有强大的能力。研究者们的重点都在如何提升网络性能上,很少有人能说清楚深度神经网络为何能够得到较好的泛化能力,有的研究者习惯从原理上来说明这个问题,有的研究者则会从中间结果来解释,当然这些观点都各有千秋。在 NeurIPS 2019 上,有些学者在网络的可解释性上发表了自己的研究。以下就两篇论文从两种不同的角度来描述研究者们对于泛化能力的理解和解释。论文 1:Intrinsic dimension of data representations in deep neural networks论文链接:https://arxiv.org/pdf/1905.12784v1.pdf对于一个深度网络,网络通过多层神经层渐进的转换输入,这其中的几何解释应该是什么样的呢?本文的作者通过实验发现,以固有维度(ID:intrinsic dimensionality)为切入点,可以发现训练好的网络相比较未训练网络而言,其每层的固有维度数量级均小于每层单元数,而且 ID 的存在可以来衡量网络的泛化性能。1 首先,ID是什么?ID 是描述数据信息所需要的最小的且不造成重要信息损失的维度。目前的深度神经网络中,我们普遍的都知道过量的参数导致了模型的过参数化,带来了冗余信息,神经网络压缩就是由此产生的。那么,有没有什么定量的统计量来显示网络的复杂度或者评估网络呢,本文就是以固有维度为切入点来探索该统计量和模型泛化能力之间的关系。2 ID 的评估方法作者用 TwoNN 这个方法来估计 ID,TwoNN 的简单流程如下图所示。图 1:TwoNN 估计 ID 的流程。图 1 左图表示的是某神经网络第二层的两个维度的数据点集,右图是运用 TwoNN 算法简要估计 ID 的流程。首先,TwoNN 算法随机采样一个数据点,并通过计算距离选取出这个数据点对应的最近邻(r1)和其次近邻(r2),计算这两个邻居之间的比值。通过概率分布估算出这个比值的分布,最后通过多次采样计算估算出数据的 ID,例如,在图 1 中的数据中 ID 约为 1。当 ID 在 20 以下的时候,TwoNN 算法可以无限的逼近真实的 ID。而 ID 的真实数值较大,且仅有有限的采样数据的时候,TwoNN 估计出来的 ID 是小于真实值的。因此,在这个情况下,利用 TwoNN 估计出来的 ID 值可以看做一个真实 ID 值的下界。3 实验结果和结论以上是对 ID 的介绍以及评估方法的介绍。利用这个估算方法,本文。但是,总的来说本文的重点部分就是通过对 ID 的研究,回答如下的几个问题。在 CNN 网络中,不同的 layer 之间,ID 是否会变化?ID 和网络的线性维度是否有区别?ID 和网络泛化性能之间是否有联系?接下来,我们来一个个的回答如上的三个问题。问题 1:在 CNN 网络中,不同的 layers 之间,ID 是否会变化?首先,作者在 VGG-16 上用 ImageNet 预训练,并在一个 1440 张的综合数据集上微调,得到如下图所示的曲线。图 2:ID 在不同的 layer 之间的变化。从图 2 中,我们可以明显的看到,ID 在不同层之间是有个先上升后下降的过程。尤其是在最后一层,ID 达到一个最小的量级。图 3:ID 和绝对深度、相对深度的关系。在图 2 中,我们已经发现 ID 在层级之间是够「驼背」的样式,那么这个驼峰的出现是和绝对深度还是相对深度有关呢?图 3 可以回答这个问题,在图 3 的右图中,我们可以发现这个趋势跟相对深度有关,基本的驼峰出现在 0.2-0.4 的相对深度之间。当然从图 3 的大量实验,也更能佐证图 2 的 ID 和层之间的趋势。问题 2:ID 和网络的线性维度是否有区别?为了回答第二个问题,作者选用了 PCA 作为线性降维的方法来和 ID 对比。图 4:PCA 和 ID 与模型数据降维之间的关系。在图 4A 中,PCA 的特征值谱中出现了一个间隙,这个可以表明数据降维之后并不在一个线性的空间中,而是一个弯曲流形中。问题 3:ID 和网络泛化性能之间是否有联系?图 5:网络最后一层 ID 和精度之间的关系。图 5 是作者在一系列的网络实验中,以精度为衡量指标,计算不同网络最后一层的 ID。我们可以看到这个趋势大概是一个线性的关系。这就表明,最后一层的 ID 跟网络的测试精度之间是存在这紧密的联系的,那是否也可以换句话说,该层的 ID 可以表明网络的泛化性能。4 讨论作者还做了很多的其他辅助的实验,比如以上的结论在未训练的网路上不成立,在随机的标签 labels 上训练出来的网络中也不成立等等。但是,总的来说作者还是集中在是三个问题。ID 可以用来表明网络中的信息。其趋势表现为层级之间的先上升后下降。网络的泛化性能可以用 ID 来衡量,也就是最后一层的 ID。深度网络的降维过程将数据降维到一个弯曲流形的空间,而不是线性空间,这也可以在一定程度上表明网络的泛化性能。笔者认为,仅仅用 ID 这个统计量来解释网络性能当然还是不够的,但是这并不妨碍通过 ID 来指明之后网络训练或者测试的提升方向。比如说,我们是否可以用 ID 的趋势来判断一个网络设计的是够合理,训练的是否充分呢,或者又比如说,我们还能够通过最后一层的 ID 来初步评估网络的泛化性能呢?论文 2:This Looks Like That: Deep Learning for Interpretable Image Recognition论文链接:https://arxiv.org/pdf/1806.10574.pdf当人遇到图像判断的时候,总是会分解图片并解释分类的理由,而机器在判断的时候总是跟人的判断会有些差距。本文旨在缩小机器分类和人分类之间的差距,提出了一个 ProtoPNet,根据人判断的机理来分类图像。本文网络通过分解图像,得到不同的原型部分,通过组成这些信息最终得到正确的分类。1 人怎么分类?This looks like that图 1:怎么判断这个鸟的种类?图 1 显示的是一个褐雀鹀,那么你怎么判断出来的呢?通常来说,我们会回答,它的头部、它的翅膀部分很像一个典型的褐雀鹀。这个时候,你会发现在人类的判断机制中,我们是着重关注图像的几个部分并且跟给定的物种典型的部分来对比。这就是所谓的「这个看上去像那个」。2 ProtoPNet怎么学习人?既然人是通过 this looks like that 来解释的,那么机器学习的模型是否可以模仿这个过程来解释模型推理的依据呢?本文提出的 ProtoPNet 就是从推理的可解释性角度来处理图像。该网络的结构如下图所示:图 2:ProtoPNet 网络结构。如图 2 所示,输入一张推理图片,输出分类的结果。该网络主要由卷积网络 f,原型层(prototype layer)以及一个全连接层 h 组成。卷积网络 f:在卷积网络部分,网络可以是 VGG,ResNet 等经典结构,并且以 ImageNet 的预训练参数初始化。假设输入图像的大小为 224*243,通过卷积网络输出的大小为 HWD(e.g H=W=7),令 z=f(x) 表示卷积输出。这一部分也就是常见的特征提取作用。原型层(prototype layer):在 prototype layer 部分,网络学习了 m 个原型 P,这些原型 P 以卷积层的特征图为输入,经过 m 组的卷积网络得到不同 patch 的原型激活值,该原型激活图的大小在本文中为 h=w=1。不同的原型 p 可以表示不同的典型部位,计算 pj 和 z 之间的 L2 距离,并将这个距离转换为相似度分数。这种由分数表示的激活图表明了图像中的典型部分的显著强度。全连接层 h:经过前面的提取特征并聚类到原型得到相似度分数后,m 个相似度分数通过全连接层 h,得到最终的输出单元,经过 softmax 之后得到预测概率,分类图片结果。本文在训练这个网络的时候,通过对以下三个步骤迭代的进行优化完成网络更新。除了最后一层前面运用 SGD典型特征的映射过程最后一层的凸优化3 网络的可解释性在第二部分,我们概述了这个网络的结构部分并且解释了每个部分的作用和组成,但是我们并不知道这个网络为什么能学习人的解释机制呢?那么接下来,我们来看看如何通过这个网络的前向来描述这个网络的解释原理。图 3:网络的解释过程。如图 3 所示,最上面的是一张测试图片。在网络的推理过程中,为什么可以判定为一个红腹啄木鸟而不是红顶啄木鸟呢?图 3 的左半部分是网络判断测试图片为红腹啄木鸟的依据。第一列的三张图为测试照片的经过网络圈出来的典型部分,第二列和第三列表示的是训练图片中的原型,第四列为激活特征图显示测试图像中的原型所在的显著性位置。在第二列和第三列我们可以看到三个典型的特征部分,头部,翅膀以及喙。当网络通过卷积层 f 提取特征之后,并通过原型层得到这些显著特征之后,网络通过对这些典型分数进行加权求和(也就是全连接层),最终网络得到判断为红腹啄木鸟的置信度得分 32.736。同样,图 3 的右边是判断为红顶啄木鸟的置信度分数为 16.886。通过选取最大的 softmax 的数值,网络可以得出这个测试图像的最终分类。这一个过程也就是网络在推理过程中,looks like 可以得到很好的解释。4 实验对比作为一个解释性的网络,并不代表网络本身的推理(识别)能力不强,作者在这个角度上做了如下的对比实验。图 4:ProtoPNet 和其他网络的性能对比。网络主要以没有解释功能的网络为主,也就是识别网络,比如常见的分类网络。图 4 上半部分对比没有可解释性功能的网络例如 VGG16,ResNet34 等等,ProtoPNet 精度下降约 3.5%。但是,通过增加合适的原型数量,ProtoPNet 还是可以提升性能的。而与其他研究者提出的解释网络相比,图 4 下半部分对比这些网络的识别性能,比如关注目标层面的 CAM,关注部分注意力的 Part R-CNN,ProtoPNet 利用部分层次注意力和原型之间的结合,能达到一个比较好的结果。总而言之,本文的解释性网络不仅仅在解释网络的判别原理,而且根据这个原理能够达到一个较好的识别精度。在我看来,通过对比 ProtoPNet 和不同网络性能,验证了作者论述的,ProtoPNet 不仅仅关注实例层或者仅仅关注部分信息,而是结合了部分层次以及原型 case 之间的信息,才能在解释和识别之间达到一个很好的平衡。5 总结本文的主要目的是探索机器模型在推理过程中的为什么这个问题,其比较别出心裁的参照了人类的「这个看上去像那个」的回答思路,提出的 ProtoPNet,在可解释性和分类精度上都有不错的表现。这两篇论文均是研究论文可解释性原理的,只不过论述的角度有所不同。论文 1 从统计学的角度,分析网络的固有维度,以此来展示网络的泛化性能。而论文 2 从可视化的角度来展示了这个网络的推理的功能。这些不同的角度都试图分析网络的可解释性,并给网络性能的提升提出不同的提升方向。分析师简介:立早,工学硕士,研究方向为模式识别。目前从事人脸识别、检测和神经网络压缩方向的工作。希望能够一直学习,多多交流,不断进步。
解释性分析,大多考生都在挣扎在前期做题的思路里面,在材料中寻找各种问题、影响、对策、原因,牢牢记住对于材料内容的区块分析。但是解释型分析,找准分析对象,进而进行相关内容的解释,对要点进行加工,从而进行整合书写,才是我们答题的规范思路以及破题的重点。很多考生在解释型分析的分析环节,存在诸多难点,今天中公教育专家将着重进行讲解。一、答题思路解释型分析:总分总。题型判断:对划线句、复合名词的理解、认识。分析对象:关联词叠加的长句 a、b、c、d——e 答题思路:第一步综合;解释长句整体含义。第二步分析:每一个关键词含义+关联词深层作用。第三步综合:直接对策或命题者的观点。答题语言:该词、句意为....(空一格)xxx关键词具体表现为...xxx关键词表现为....)(空一格)因此,要....二、试题讲解学者论述中有“以商道来行人道”一语,请根据给定资料谈谈你对此的理解。(20分)要求(1)分析到位、层次分明、表达准确;(2)不超过200字。1审题:题干:对...的理解——解释性分析。分析对象:以商道来行人道,商道? 人道?。材料范围:全篇材料2找点:材料1要点1:消费扶贫不是单纯的慈善,既是公益行为,也是经济行为,却绝不是强买强卖材料2要点2:以商道行人道:消费者出于自愿购买扶贫农产品,但最终决定他们能不能留下的,是产品的质量和特色,必须抓好质量品质。材料3要点3:解释::贫困地区的老百姓、城市的消费者、组织市场流通等方面,都能够得利,市场秩序就成长起来了。要点4:以商道行人道的方式:推进供给侧改革、加强基地建设、标准化生产、重视各个环节 ,提升体验感,让消费者买的情愿吃的满意。材料5:要点5:商道指经济规律,人道指出于责任感帮助贫困人口脱贫3加工要点1:消费扶贫不是单纯的慈善,既是公益行为,也是经济行为,却绝不是强买强卖——分析要点2:以商道行人道:消费者出于自愿购买扶贫农产品,但最终决定他们能不能留下的,是产品的质量和特色,必须抓好质量品质。——分析要点3:解释:贫困地区的老百姓、城市的消费者、组织市场流通等方面,都能够得利,市场秩序就成长起来了。——解释要点4:以商道行人道的方式:推进供给侧改革、加强基地建设、标准化生产、重视各个环节 ,提升体验感,让消费者买的情愿吃的满意。——结论要点5:商道指经济规律,人道指出于责任感帮助贫困人口脱贫——解释4书写“以商道来行人道”是指“消费扶贫”可以使贫困地区老百姓、城市的消费者、市场流通等各方都能得利,使市场秩序成长。“商道”即市场经济规律,“人道”即公众出于责任感帮助贫困人口脱贫。(解释)“消费扶贫”不是单纯的慈善,它既是公益行为也是经济行为。虽然消费者是自愿购买扶贫产品,最终决定他们能不能留下的,是产品的质量和特色。所以贫困地区要做好标准化生产,提升消费者的体验感,让消费者买得情愿、吃得满意。(结论)
比较管理既要从事共时性研究,更要从事历时性研究科学研究不但要描述可观察的世界,而且要描述隐藏在现象背后的世界,描述可观察的世界可称为“描述性研究”,相应地,描述隐藏在现象背后的世界,可称为“解释性研究”翻阅国内20世纪90年代出版的一些《比较管理学》教材。有意无意地把比较管理视为描述性研究,许多内容停留在浅层次的比较或表面的现象堆积上,致使比较管理研究偏离了其发展的轨道,失去了其应有的学术魅力。不难说明,这种简单描述方法根本无法完成比较管理的使命。当然,不是说不需要描述性研究,描述性研究是比较管理研究的重要组成部分,是解释性研究的重要基础和前提。比如大内的《Z理论》一书,有约一半篇幅在讲述从A到Z的应用问题。但大内本人很清楚很谨慎,他提醒人们这些步骤只是供人们讨论的焦点,而不是提高管理水平的“食谱”。波普尔指出,科学的目的是:为所有那些给我们印象深刻而又需要解释的东西找到令人满意的解释。所谓的一种解释(或是一种因果性的解释)就是指组用来描述有待解释的事态的陈述,而其他的解释性的陈述,则构成有关“解释”这个词的更狭义的“解释”。在社会科学各领域,比较研究似乎呈现出一种共性,即解释性研究。凡是比较,而且能够在学术上有所创见者,在已有的事例中基本上都没超出解释性这一范围。比如,亨廷顿的比较研究著作《变化社会的政治秩序》及其文明冲突论,汤因比的皇皇巨著《历史研究》。这种比较基本上都属于认知和解释,这种研究很值得管理学界借鉴,比较管理的硏究对象是管理行为背后的管理运作机理,要比较不同情境下管理活动的异同,我们就必须回答“是什么因素决定了不同情境下管理活动的异同”。比较管理学虽然也要回答是什么。换句话说,比较管理既要从事共时性研究,更要从事历时性研究。因此,比较管理学在本质上应该属于解释性科学,唯有如此,比较管理研究才能对管理演化过程中复杂的多元因果关系做出深刻的理解和说明。这样,我们对管理模式进行解释性分析,就可能超越“存在”(共时性),进人“过程”(历时性),通过历史的时间长河分析其遗传机制、变异机制和选择机制等,从而对一国管理模式今天为何这样而不是那样做出有说服力的解释。这种解释既有利于人们发现一国管理模式中的特殊经验,也有利于提炼出管理模式中的普适规律。事实上,比较管理学从来没有离开解释和认知,大内的《Z理论》、戴尔的《伟大的组织者》、钱德勒的《战略与结构》,这些经典的比较研究的成功之作,也都没超出解释性这一学科的性质现实生活中还有一类研究,这类研究属于“改造世界”性质的研究。我们姑且把这类研究称为“对策性研究”我们不是不需要对策性研究,问题是,对策性研究的建议往往应该发生在理论解释之后。有许多学者常常不是先找准问题,寻找问题产生的原因,不去探究问题背后的社会环境与结构,不去运用恰当的理论工具和方法对问题进行深度剖析和解释,而是匆匆忙忙地提建议、做对策。这种所谓的“研究”不应该提倡,我们可以看到一些学者的有益提醒:较管理学的研究,不在于找出可以引进或者模仿的楷模,而在于通过比较认识不同模式之间的差异形成机制,提供引进或者模仿的可能性论证。学术研究从来都是解释性的,而不是对策性的。由比较研究直接进入对策研究,很可能不是比较管理学的真正出路。但是,对策研究往往具有现实的吸引力,这值得学界警惕。那么比较管理研究可以引人演化分析范式吗?解释性学科必须拥有解释性的分析范式与之匹配,我们才有可能对事物之间纷繁复杂的关系做出深刻的解释和说明。我们刚刚提及共时性与历时性这一对术语。共时性和历时性相对,是索绪尔提出的对系统的观察研究的两个不同的方向。共时性的一切牵涉到对事物的静态的方面,历时性的一切牵涉到事物的进化方面。共时性方法可以归结为对事物收集整理后在一个时点上进行截面式研究,历时性方法则随着时间从上往下探究或从下往上追溯。在比较管理研究领域,颇为流行的仍然是“文化分析范式”。比如,人们仍然习惯于采用霍夫斯泰德的文化五维度理论去解读管理问题,特别是跨文化管理问题。这是必要的,但又具有明显的局限性。五维度分析可以解释管理活动中的“文化”现象,可以进行一些管理活动的共时性分析,但在回答诸如一种管理模式的发生、发展和演化这类复杂的问题时,“文化分析范式”就显得有些苍白或空泛。在研究这类复杂问题时,进化生物学和演化经济学为我们提供了科学的分析方法,特别是一些历时性分析的方法。遗憾的是,迄今为止,这种科学方法没有进入比较管理学家的视野。与功能生物学研究分子工程不同,进化生物学研究物种的演化。遗传、变异和选择是进化生物学的核心范畴。演化经济学同进化生物学一样,始终在提问上致力于历史起源和过程解释,主张比较的、历史的、回溯的方法。霍奇逊指出,生物学将一般性原则(例如分类法和进化规律)与关于特定机制和现象的特殊研究相结合。这就是为什么社会科学必须更接近生物学而不是物理学的一个原因。比较管理学之所以在相当长的一段时间里几乎成为一门“沉闷的科学”一个方面的原因就是由于其缺乏有效的分析工具去解释是什么因素导致不同情境的管理特性的形成,这些因素是如何演化从而影响到管理特性的改变。现在,我们欣喜地发现,演化分析方法完全可能“激活”比较管理学,使其从“沉闷”转入“活跃”,在科学研究中,隐喻或类比是一种常见的方法。它是从其他学科引入新的认识论并与本学科杂交产生理论创新的重要途径。它既可以帮助当事人从本专业已“锁定”的思维模式中挣脱出来,又有助于新范式的内核的形成。演化理论中许多重要范畴和理论,对比较管理研究具有非常重要的价值。比如,演化经济学强调事物发生的初始条件与结构、注重分析主体能动性与制度结构的关系、致力于寻找事物发展的基因及发展过程中惯例的特殊作用,以及历史的偶然性和不确定性、累积因果效应、个体群思维方法、路径依赖、互补性等重要理论范畴具有深邃的学术内涵和极大的学术魅力。可以预见,引人演化分析方法会大幅度地改写比较管理学,甚至可能引发一场管理学方法上的革命。
综合分析通常是我们在申论小题作答中,最头疼的一类题目,同学们往往会被题干和材料以及答案的整理给搞蒙,其实自我们黑龙江省好中,综合分析的考察频率还是不高的,但是一旦考察,也是能够拉开分值的一道题目,而且在综合分析中解释型分析也是我们考察的重点,所以要求我们要把握好题型的作答方法,建立起题干预材料之间的练习,精准把握此类题型,接下来中公教育就从几个方面去谈谈这类题型的整体作答思路:一、解释作答对象的含义给定资料提到“随着大数据时代的来临,信用成为每个人的第二张身份证”,谈谈你对这句话的理解请结合给定资料谈谈“40年巨变之后,说走就走,路不再长”的理解通过精读题干,我们能看出这样让谈理解的题型就属于解释型分析,我们可以将理解、解释、含义、意思作为题型判断的大致依据。其次,我们也能够判断出作答对象,一般来说解释分析会以让我们谈对于一句话/一个词/一个短语的解释。我们可以优先回到所在的段落,先看这段中这句话的上下文与没有解释。如果有的话,直接抄写,如果没有的话,阅读完整篇材料之后,用自己的理解概括出这句话的本质含义也可二、分析观点围绕作答对象多角度分析,思考维度要广,与作答对象的解释相关的所有要点我们都要呈现出来,遵照原文,原文中有什么内容我们就写什么如寒门难出贵子指的就是中国教育资源不公平,那就要围绕中国教育资源不公平进行寻找(原因,问题影响)此步骤可以将要点要素分别呈现。如原因:1、2、3、4、问题:1、2、3、4、三、落实观点得出对策或结论:进行总结/对策,到底是什么来看材料,材料中给了总结,就书写总结,材料中给了对策,就直接抄写对策四、作答框架这句话的含义是(具体解释)。分析如下:原因:问题:影响……。因此(所以/可见)+对策/总结