“统计学就像比基尼,你所看到的就是真实显露的,但隐藏起来的才是至关重要的”——无名氏统计是有一些枯燥,但同时也可以很有趣,不是么?我们知道统计学包括描述性统计和推论统计,而今天的主题是描述性统计的介绍。什么是描述性统计呢?维基百科的定义:"A descriptive statistic is a summary statistic that quantitatively describes orsummarizes features of a collection of information."中文翻译:描述性统计是一种汇总统计,用于定量描述或总结信息集合的特征。这里把关键词勾划一下:1、Describe-描述2、Summarize-总结注意:描述性统计的对象既可以是总体,也可以总体的一部分即是样本。一、描述性统计的分类描述性统计又分为 § 集中趋势 Measures of central tendency § 离散趋势 Measures of Dispersion1、集中趋势 Measures of Central Tendency集中趋势又称 “数据的中心位置”,它是一组数据的代表值。集中趋势的概念就是平均数(Average)的概念,它能够对总体的某一特征具有代表性,表明所研究的对象在一定时间、空间条件下的共同性质和一般水平。常用的集中趋势统计量(statistics)有:§ 算数均值§ 中位数§ 众数再强调下,在统计学中,这三个统计量都有 average(平均) 的含义。1、均值 Mean某组观测值的算术平均数(Arithmetic mean)2、中位数 Median按大小顺序排列的数据组之中点位置对应的数值,该数值把数据组分成两半3、众数 Mode出现频次最高的观测值。看起来集中趋势的概念很简单,那么有什么现实价值?这里我们举两个简化的例子加以说明:某创业公司A有10个员工,其中1人月薪10万,9人月薪2万;创业公司B也有10个员工,其中1人月薪5万,9人月薪2.5万。现在假设你要对两家公司员工的收入水平进行对比,你会如何做呢?通过简单计算我们可得:公司A: 算术平均 Mean 2.8万;中位数 Median 2万;众数 Mode 2万公司B: 算术平均 Mean 2.75万;中位数 Median 2.5万;众数 Mode 2.5万如果看均值 Mean,结果是A公司比B公司高(少数高收入者会把整体平均拉高);如果看中位数 Median,显然B公司更高。那么应该用Mean还是Median?这取决于我们的目的。如果我们的目的是研究大多数人的薪资水平,显然用中位数更好,因为B公司90%的人的薪水要高于A公司。但是在现实生活中,我们往往看到的是用均值mean进行统计说明,尤其是国内媒体,经常用均值来描述某地区某时间段的收入水平。一个不好的结果是,大部分人都会觉得自己“被平均”了。这样做出来的数据固然好看(就像上述公司A),但并不能更准确地展示普通大众真实的收入水平。看到这里,你应该就能深刻理解“统计学就像比基尼,你所看到的就是真实显露的,但隐藏起来的才是至关重要的”这句话的含义了是不。二、离散趋势 Measure of Dispersion所谓离散趋势就是研究观测值偏离中心值(center) 的程度。仅仅研究集中趋势往往是不够的,所以还需要研究离散趋势Measure of Dispersion. 常用离散统计量有:§ 极差§ 标准差(方差)§ 四分位数间距§ 变异系数(相对标准差)1、极差 Range为一组数据的最大值和最小值之差。极差的计算较简单,但是它只考虑了数据中的最大值和最小值,而忽略了全部观察值之间的差异。极差在SPC控制图中有大量应用。2、方差或标准差 Variance or Standard deviation方差和标准差所反映的是一组数据与其均值为代表的中心的平均离散水平。因为标准差的计算应用到每一个变量值,所以,会受到极端值的影响,当数据中有较明显的极端值(outlier)时不宜使用。必须知道这一点,所有方差/标准差分析的前提是:样本总体服从正态分布,如果不服从,就要有补救措施,比如数据转换。3、四分位数间距 Inter Quartile Range (IQR)即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。第三 "四分位数" 与第一 "四分位数" 的差距又称四分位距, 常和中位数一起使用。比如箱型图。4、变异系数 Coefficient of Variation (CV)又叫相对标准差(RSD),变异系数CV是原始数据标准差与原始数据平均数的比。标准差只能度量一组数据对其均值的偏离程度。但若要比较两组数据的离散程度,用两个标准差直接进行比较有时就显得不合适了。例如一个总体的标准差是10,均值是100;如果另有一个总体的标准差是20,均值是2000。如果直接用标准差来进行比较,后一总体的标准差是前一总体标准差的2倍,似乎前一总体的分布集中,而后一总体的分布分散。但前一总体用标准差来衡量的各数据的差异量是其均值的1/10;后一总体用标准差来衡量的各数据差异是其均值的1/100,是微不足道的。可见用标准差与均值的比值大小来衡量不同总体数据的相对分散程度更合理。三、图形化工具前文刚开始我们提到关于描述性统计的两个关键词是 Describe(描述) 和 Summarize(总结);同时我们也介绍了可以通过集中趋势统计量以及离散趋势统计量来对目标数据进行描述、总结。但这些统计量基本都是数学计算,比较抽象,有没有更好的方法呢?答案是有:Visulization!没错,那就是一系列的图形化工具。在Excel软件或者Minitab软件都有很多图形化工具用以描述、总结和展示数据,下面摘选部分:§ 柱状图§ 条形图§ 箱型图§ 散点图§ 雷达图§ 气泡图
责编 | 皮卡鱼作者 | 大冉研究资料已经收集、整理好了(见护理研究——质性研究<4>资料整理(2)),咋进行深入分析呢?怎么从大量的资料中提炼出来研究的主题呢?不同的研究方法,使用什么分析方法呢?资料的分析方法与质性研究方法不同。质性研究方法中现象学研究方法、扎根理论、人种学研究等好比是指导思想,而分析方法就是行动步骤,所以他们是对应关系。千万不要出现错乱使用。不少老师对质性内容分析法 的概念理解不清,常将其与 Colaizzi 七步法 相混淆。如有作者在摘要中指出使用内容分析法进行资料分析,正文中却提到采用Colaizzi 七步分析法作为分析策略,显然是将这两种方法混为一谈[1]。1内容分析法是在描述性质性研究中使用的资料分析方法,描述性质性研究是用来直接描述某一体验或事件( 描述体验或事件),用日常语言描述参与者的体验。举例[2]:查倩倩, 钮美娥, 汪茜雅, 等. 肠息肉切除术后患者未按时复查肠镜行为意向的质性研究[J]. 中国护理管理, 2018,18(12):1626-1629.内容分析法[2]具体步骤如下:1. 反复仔细阅读访谈转录文本直至有整体感;2. 拆散资料,逐行分析,找出有重要意义的陈述,并对它们进行编码;3. 对反复出现的陈述、事物、现象进行编码、归类,产生主题;4. 寻找主题之间的关联,形成主题群;5. 如此循环直至饱和,即不再有新的主题和亚主题呈现。整体过程主要是:2Colaizzi 七步法是在现象学质性研究中使用的资料分析方法,现象学研究方法是针对某种特定的现象,分析该现象中的内在成分和外在成分,把其中的重要要素提炼出来,并探讨各要素之间及各要素与周围情景之间关系的一种质性研究方法。举例[5]:胡露红, 席新学, 熊沫, 等. 住院患者参与用药安全核查认知及态度的质性研究[J]. 护理学杂志, 2019,34(13):11-14.Colaizzi [6, 7]七步法具体步骤如下:1.仔细阅读所有访谈资料,对研究对象的描述形成大致的理解;2.摘录出与研究问题相吻合的、有意义的陈述;3.归纳和提炼有意义的陈述并进行编码;4.将编码后的观点汇总,寻找共同的概念或特性,形成主题、主题群、范畴;5.将主题联系到研究对象进行详尽的叙述;6.陈述构成该现象的本质性结构;7.将最终的分析结果返回研究对象处,求证内容的真实性。整体过程主要是:尽管Colaizzi 七步法与质性内容分析法有部分相似之处,如资料整理,编码,归类,提炼主题等,但Colaizzi 七步法一般用于现象学研究方法,现象学适用于对某类体验进行描述或诠释(例如:某患者的某种心理体验的现状和影响因素,一般要研究者深入理解现象背后的含义);而质性内容分析法适用于对某一体或事件进行直接描述或低推断性诠释(例如:某疾病的临床症状描述,一般是只对现象/体验等进行描述,常用于需求评估、方案修订、发展干预手段、量表发展时的概念澄清等);两者适用范围不同,不宜混用。 参考文献:[1] 朱丹玲, 周云仙. 护理文献中质性内容分析法的应用误区探讨[J]. 护理学杂志, 2018,33(21):97-99.[2] 查倩倩, 钮美娥, 汪茜雅, 等. 肠息肉切除术后患者未按时复查肠镜行为意向的质性研究[J]. 中国护理管理, 2018,18(12):1626-1629.[3] 杨爱玲. 老年骨质疏松症患者骨折风险认知及其防范依从性的质性研究[D]. 浙江中医药大学, 2016.[4] Sandelowski M. Whatever happened to qualitative description?[J]. Research in Nursing & Health, 2000,23(4):334.[5] 胡露红, 席新学, 熊沫, 等. 住院患者参与用药安全核查认知及态度的质性研究[J]. 护理学杂志, 2019,34(13):11-14.[6] 刘延迪. 14例糖尿病患者病耻感现状的质性研究[D]. 吉林大学, 2018.[7] 护理学研究方法[M]. 2012.声明本文所用部分素材来源于网络如涉及版权问题,请联系小编删除原创内容,欢迎转载(σ)σ..:*☆哎哟不错哦!!
1、主效应:实验所获得的由一个因素的不同水平引起的因变量单独效应称为该因素的主效应。2、交互作用:在多因素实验中各因素间不同水平的结合所产生的复杂的变化称为因素间的交互作用。3、危险因素:又称危险因子,泛指能引起某特定不良结局(如疾病)发生,或使其发生的概率增加的因子,包括个人行为、生活方式、环境和遗传等多方面的因素。4、暴露因素:又称研究因素,凡是接触过某种因素或具备某种心理行为特征都可以称为暴露,暴露因素可以是机体固有的、先天的,也可以是体外的、后天的。5、自变量:由实验者主动操纵变化的条件称之为自变量。6、因变量:由实验变量引起的某种特定的反应称为因变量7、控制变量:除实验变量之外,其他一切能够影响因变量的条件和因素则称之为控制变量。8、定量研究:以实证主义方法论作为基础,目的在于预测和控制,采用演绎推理法对数据资料进行数量分析和统计分析的研究。9、定性研究:以人文主义方法论为基础,目的在于描述和解释,采用归纳推理法收集文本信息,并从整体上进行理解的研究。10、观察法:又称外观法、自然观察法或客观观察法,是在自然条件下通过有目的、有计划地观察被试的言语、表情和行为等外部表现来了解其心理活动的方法。11、问卷法(questionnairemethod):是研究者以按照一定要求和程序编制的问卷为工具来收集数据资料的一种方法。12、相关研究:用于探索变量间的关系,并根据这种关系就研究对象的特征与行为作出解释与预测。13、因果研究:用于探讨引发变量之间的关系,心理科学研究中心任务就是确定各种变量之间的因果关系。14、现况研究:又称横断面调查,是通过对特定时点(或期间)和特定范围内人群中的相关因素与心理行为或疾病分布的描述,探讨因素与心理行为或疾病分布可能的病因关系。15、个案研究法:研究者通过对个案的深入调查来研究或探讨与之相关的心理或行为问题,这种心理学的研究方法称为个案研究法。16、实验研究:是指在观察和调查的基础上,对研究的某些变量进行操作和控制,创设一定情景,以探求心理现象的原因、发展规律的研究方法,其目的在于揭示变量之间的因果关系。17、总体:指在规定范围内共同具有某些可观测特征的个体或某类客体的完整集合体。18、样本:就是按照科学的抽样方法从研究对象的总体中抽取一定数量的个体,构成能够代表总体的集合。19、被试内设计:通常也叫重复测量设计,指通过观察和测量同一个被试接受所有处理条件,比较两个或更多的不同处理条件的效果。20、被试间设计:指每个被试(组)只能接受一种自变量水平或多个水平结合中的一种实验处理。21、系统误差:又叫常定误差,指由恒定而规律的无关变量引起的误差。22、随机误差:指由偶然的无关变量引起的误差。23、归纳法:先取样观察、收集资料并记录若干个别事例、探求事物的共同特征,找出事物间的关系,得出通则性结论。24、演绎法:从通则性的陈述开始,根据逻辑推理的法则,将通则性结论推广到其它未经观察的部分,从而获得一项个别性的陈述。25、信度:即可靠性,是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。26、效度:即有效性,是指一项测验能测到所要测量的内容或达到某种目的的程度。27、操作定义:在定义一个变量时,不直接描述被定义变量的特征、性质,而是说明观察或测量被定义变量所要做的实际活动。28、描述性研究:又称描述流行病学,是研究特定人群中疾病、健康状况的分布及其决定因素,并研究防治疾病及促进健康的策略和措施的科学29、访谈法:是研究者通过与研究对象有目的的交谈来收集有关对方心理特征与行为数据资料的研究方法,是定性研究最主要的方法。 30、现场研究:也称“实地研究”、“自然研究”,是指在自然条件下或真实生活情境中实施的各种研究。31、社会测量法:在社会心理研究中,对研究对象的属性在数量上赋值的过程称为社会测量。32、社会调查法:是有目的、有计划、有系统地搜集有关研究对象社会现实状况或历史状况材料的方法
(一)符号分析法1、概念:20世纪六七十年代,符号学成为最流行的文本分析方法。对于理解文本的意义,符号学研究方法有其独到之处。符号就是代表某种事物或思想的记号或标志。它具有三个要素:符号的形式、被符号所指涉的对象,以及人们提供的对符号意义的解释。符号学是研究符号的学科。各种形式的符号都是它的研究对象。分析媒介文本里的符号,目的不在于描述符号本身,而在于发现每个符号的能指和所指之间的关系。2、分析步骤:(1)文本里都出现了哪些符号,尽可能多地列举它们,考察每个符号的能指和所指,判断重要的符号体现的隐含义和意识形态。(2)考察文本里的符号如何组合在一起。(3)考察文本里符号采用了什么手法而被联系在一起,是否运用可隐喻或转喻手法。(二)文本分析法1、概念:文本分析法是研究媒体内容的多种方法的总称,它包含多个理论流派和思想资源,并无统一的操作程序。一般来说,它是研究者用来描述和解释媒介讯息的一种研究方法,侧重于描述文本的内容、结构和功能,解释层次的潜在意义,很少使用数字和统计手段来呈现研究结果。用文本分析法研究媒介内容,也经常被称为“解读”媒介内容。2、特点:文本分析法强调对媒介内容的深入理解,它的优势在于获得深入的隐含的意义。但文本分析法研究对象规模较小,代表性低。(三)深度访谈法1、概念:深度访谈是为搜集个人特定经验及其动机和情感所做的深入的访问。在自由交谈中,从被调查者的反应、态度、意见中探求深层的东西,因此要求经过特殊训练的专家主持。深度访谈法不采用问卷,但必须事先准备好“面谈必要”;访问不要求面面俱到,但要对主题有深入的探讨;提问顺序和方式可以根据被访者的具体情况而调整,目的是促使被访者深入、连贯、自主地表达自己的态度和意见。2、特点:(1)无结构的、直接的、一对一的访问(2)样本量较小(3)可获取详细资料(4)访问时间较长(5)要求访员有很高的访谈技术和刺探技术(6)虽有访谈提纲,但根据被访者反应,允许改变提问的措辞和顺序(7)结果依赖访员(8)可对被访者的非语言反应进行较长时间的观察3、访谈技术(1)阶梯前进,沿着一定的问题线探索(2)隐秘问题寻探,重点放在个人深切相关的“痛点”上(3)象征性分析,通过反面的比较来分析对象的含义4、评价(1)优点:资料详尽;深入被访者内心(2)缺点:结果依赖访员;随机性小样本,不能概括普遍性的结论(四)民族志法1、概念:或称田野调查法,源于人类学。研究者通常采取参与观察的方式,深入到特定团体生活中,持续相当一段时间,从而询问或观察所发生的事物,然后从内部观点对其意义做出说明。近期媒体民族志的重要领域包括:日常生活情景式的接收;节目类型与文化认识能力的分析;科技与消费。2、步骤(1)选择研究对象(2)提出民族志对象(3)通过参与性观察、个案方法等途径搜集民族志资料(4)进行民族志分析(5)书写民族志3、原则(1)从广义来说,民族志学研究关注所有的文化形式,包括日常生活、宗教和艺术;(2)由于研究者本身就是最基本的研究工具,因而必须进行长期的参与观察;(3)必须采用多重资料收集法,以核实观察中发现的资料。4、评价:(1)优点:从人物和事件生产的自然环境下进行研究,因而能够得到丰富、系统、详细具体的资料。可以研究一些不容易接近、较封闭的群体。(2)缺点:花费较高的费用和较长时间;结果高度依赖研究者的个人能力。(五)人种学方法起源于欧洲现象学家的研究成果。它主要是利用参与观察法和深度调查,同时非常强调日常会话,因为会话是日常互动最基本的媒介过程。人种学是在广义的文化概念下对特定的文化情境做深入的、解析性的描述,它以一种非常全面的方式从人类认识自己的多个角度来思考。其目的在于认识一个社会制度里的人的信念和习俗,强调使社会成员联结起来的共同点。该方法要求从个体出发,摒弃了自然科学中的严格控制,观察发生在自然情境中的现象。大量依赖对研究对象的观察、定性判断和描述;重视过程,旨在获得整体的画面;还涉及反复的、即时的理解手段以及在研究过程中不断进行自我调整。(六)焦点小组座谈法一般由一位训练有素的主持人组织,引导6—12个人针对某一主题开展自由讨论。焦点小组访谈法包括在特定的情境下收集有关调查对象的情景定义的资料。这种方法通常采用一种开放式提问,以便得出有关研究的媒介信息的高度自主的资料。访谈一般以事先确定的假设为中心,然后这些假设被用作访谈的焦点,主持人努力引导个人理解某个媒体信息,由深入细致的、自由型的访问引起,帮助回忆,然后通过调查或实验而获得的更加量化的资料加以检验。作为一种研究技巧,小组访谈法曾在二战期间用于宣传效果的研究。后来很长一段时间内都作为市场研究的方法,直到20世纪80年代至90年代,大众传播学开始关注意义生成和媒介内容与技术的阐明时,这种方法才得以在传播学领域中复兴。(七)投影技法这是一种间接的(隐蔽性的)定性研究方法,其主要特点是:有隐蔽的调查目的;用无结构的、非直接的询问方式;鼓励被调查者将自己对所关心问题的潜在动机、态度等投射出来;不要求被访者描述自己的行为;在解释他人的行为时,将自己的动机、态度等投射到有关情景之中;类似心理咨询分析患者的心理,分析被访者所投射的态度。主要包括:联想技法、完成技法、结构技法、表现技法四种类型。具体程序有:1、收集资料:收集资料时,可以采用各种方法,如深度访谈、文献分析等。2、分析定性资料3、辅助分析:主要是实地调查或访谈,对资料进行选择、筛选;用矩阵、图形或表格等形式重新安排资料等。4、分析程序:包括归纳法和理论建立法。5、定性研究报告:三种形式是单纯描述、分析讨论(以研究产生的概念为主)、实质说明(以期对理论有所贡献)。
雷锋网 AI 科技评论按:本文为 BIGSCity 的知乎专栏内容,作者王小贱。北航智慧城市兴趣组 BIGSCITY是隶属于北京航空航天大学计算机学院的一个学术研究小组,小组致力于研究机器学习与数据挖掘在城市科学、社会科学等领域的交叉应用技术。AI 科技评论获得 BIGSCity 授权转载,敬请期待更多后续内容。非常开心本文成为 BIGSCity 兴趣组的第一篇投稿,《深度学习的可解释性研究》系列预计包含 3-4 篇内容,用尽可能浅显的语言带领大家了解可解释性的概念与方法以及关于深度学习可解释性工作的研究成果,不定期更新内容(欢迎催更)。可解释性是什么?广义上的可解释性指在我们需要了解或解决一件事情的时候,我们可以获得我们所需要的足够的可以理解的信息。比如我们在调试 bug 的时候,需要通过变量审查和日志信息定位到问题出在哪里。比如在科学研究中面临一个新问题的研究时,我们需要查阅一些资料来了解这个新问题的基本概念和研究现状,以获得对研究方向的正确认识。反过来理解,如果在一些情境中我们无法得到相应的足够的信息,那么这些事情对我们来说都是不可解释的。比如刘慈欣的短篇《朝闻道》中霍金提出的「宇宙的目的是什么」这个问题一下子把无所不知的排险者卡住了,因为再高等的文明都没办法理解和掌握造物主创造宇宙时的全部信息,这些终极问题对我们来说永远都是不可解释的。而具体到机器学习领域来说,以最用户友好的决策树模型为例,模型每作出一个决策都会通过一个决策序列来向我们展示模型的决策依据:比如男性&未婚&博士&秃头的条件对应「不感兴趣」这个决策,而且决策树模型自带的基于信息理论的筛选变量标准也有助于帮助我们理解在模型决策产生的过程中哪些变量起到了显著的作用。所以在一定程度上,我们认为决策树模型是一个具有比较好的可解释性的模型,在以后的介绍中我们也会讲到,以决策树为代表的规则模型在可解释性研究方面起到了非常关键的作用。再以用户最不友好的多层神经网络模型为例,模型产生决策的依据是什么呢?大概是以比如 1/(e^-(2*1/(e^(-(2*x+y))+1) + 3*1/(e^(-(8*x+5*y))+1))+1) 是否大于 0.5 为标准(这已经是最简单的模型结构了),这一连串的非线性函数的叠加公式让人难以直接理解神经网络的「脑回路」,所以深度神经网络习惯性被大家认为是黑箱模型。17 年 ICML 的 Tutorial 中给出的一个关于可解释性的定义是:Interpretation is the process of giving explanations to Human.总结一下就是「说人话」,「说人话」,「说人话」,不以人类可以理解的方式给出的解释都叫耍流氓,记住这三个字,你就差不多把握了可解释性的精髓所在。我们为什么需要可解释性?广义上来说我们对可解释性的需求主要来源于对问题和任务了解得还不够充分。具体到深度学习/机器学习领域,就像我们上文提到的多层神经网络存在的问题,尽管高度的非线性赋予了多层神经网络极高的模型表示能力,配合一些堪称现代炼丹术的调参技术可以在很多问题上达到非常喜人的表现,大家如果经常关注 AI 的头条新闻,那些机器学习和神经网络不可思议的最新突破甚至经常会让人产生 AI 马上要取代人类的恐惧和幻觉。但正如近日贝叶斯网络的创始人 Pearl 所指出的,「几乎所有的深度学习突破性的本质上来说都只是些曲线拟合罢了」,他认为今天人工智能领域的技术水平只不过是上一代机器已有功能的增强版。虽然我们造出了准确度极高的机器,但最后只能得到一堆看上去毫无意义的模型参数和拟合度非常高的判定结果,但实际上模型本身也意味着知识,我们希望知道模型究竟从数据中学到了哪些知识(以人类可以理解的方式表达的)从而产生了最终的决策。从中是不是可以帮助我们发现一些潜在的关联,比如我想基于深度学习模型开发一个帮助医生判定病人风险的应用,除了最终的判定结果之外,我可能还需要了解模型产生这样的判定是基于病人哪些因素的考虑。如果一个模型完全不可解释,那么在很多领域的应用就会因为没办法给出更多可靠的信息而受到限制。这也是为什么在深度学习准确率这么高的情况下,仍然有一大部分人倾向于应用可解释性高的传统统计学模型的原因。不可解释同样也意味着危险,事实上很多领域对深度学习模型应用的顾虑除了模型本身无法给出足够的信息之外,也有或多或少关于安全性的考虑。比如,下面一个非常经典的关于对抗样本的例子,对于一个 CNN 模型,在熊猫的图片中添加了一些噪声之后却以 99.3% 的概率被判定为长臂猿。在熊猫图片中加入噪声,模型以 99.3% 的概率将图片识别为长臂猿事实上其他一些可解释性较好的模型面对的对抗样本问题可能甚至比深度学习模型更多,但具备可解释性的模型在面对这些问题的时候是可以对异常产生的原因进行追踪和定位的,比如线性回归模型中我们可以发现某个输入参数过大/过小导致了最后判别失常。但深度学习模型很难说上面这两幅图到底是因为哪些区别导致了判定结果出现了如此大的偏差。尽管关于对抗样本的研究最近也非常火热,但依然缺乏具备可解释性的关于这类问题的解释。当然很多学者对可解释性的必要性也存有疑惑,在 NIPS 2017 会场上,曾进行了一场非常激烈火爆的主题为「可解释性在机器学习中是否必要」的辩论,大家对可解释性的呼声还是非常高的。但人工智能三巨头之一的 Yann LeCun 却认为:人类大脑是非常有限的,我们没有那么多脑容量去研究所有东西的可解释性。有些东西是需要解释的,比如法律,但大多数情况下,它们并没有你想象中那么重要。比如世界上有那么多应用、网站,你每天用 Facebook、Google 的时候,你也没想着要寻求它们背后的可解释性。LeCun 也举了一个例子:他多年前和一群经济学家也做了一个模型来预测房价。第一个用的简单的线性于猜测模型,经济学家也能解释清楚其中的原理;第二个用的是复杂的神经网络,但效果比第一个好上不少。结果,这群经济学家想要开公司做了。你说他们会选哪个?LeCun 表示,任何时候在这两种里面选择都会选效果好的。就像很多年里虽然我们不知道药物里的成分但一直在用一样。但是不可否认的是,可解释性始终是一个非常好的性质,如果我们能兼顾效率、准确度、说人话这三个方面,具备可解释性模型将在很多应用场景中具有不可替代的优势。有哪些可解释性方法?我们之前也提到机器学习的目的是从数据中发现知识或解决问题,那么在这个过程中只要是能够提供给我们关于数据或模型的可以理解的信息,有助于我们更充分地发现知识、理解和解决问题的方法,那么都可以归类为可解释性方法。如果按照可解释性方法进行的过程进行划分的话,大概可以划分为三个大类:1. 在建模之前的可解释性方法2. 建立本身具备可解释性的模型3. 在建模之后使用可解释性方法对模型作出解释在建模之前的可解释性方法这一类方法其实主要涉及一些数据预处理或数据展示的方法。机器学习解决的是从数据中发现知识和规律的问题,如果我们对想要处理的数据特征所知甚少,指望对所要解决的问题本身有很好的理解是不现实的,在建模之前的可解释性方法的关键在于帮助我们迅速而全面地了解数据分布的特征,从而帮助我们考虑在建模过程中可能面临的问题并选择一种最合理的模型来逼近问题所能达到的最优解。数据可视化方法就是一类非常重要的建模前可解释性方法。很多对数据挖掘稍微有些了解的人可能会认为数据可视化是数据挖掘工作的最后一步,大概就是通过设计一些好看又唬人的图表或来展示你的分析挖掘成果。但大多数时候,我们在真正要研究一个数据问题之前,通过建立一系列方方面面的可视化方法来建立我们对数据的直观理解是非常必须的,特别是当数据量非常大或者数据维度非常高的时候,比如一些时空高维数据,如果可以建立一些一些交互式的可视化方法将会极大地帮助我们从各个层次角度理解数据的分布,在这个方面我们实验室也做过一些非常不错的工作。还有一类比较重要的方法是探索性质的数据分析,可以帮助我们更好地理解数据的分布情况。比如一种称为 MMD-critic 方法中,可以帮助我们找到数据中一些具有代表性或者不具代表性的样本。使用 MMD-critic 从 Imagenet 数据集中学到的代表性样本和非代表性样本(以两种狗为例)建立本身具备可解释性的模型建立本身具备可解释性的模型是我个人觉得是最关键的一类可解释性方法,同样也是一类要求和限定很高的方法,具备「说人话」能力的可解释性模型大概可以分为以下几种:1. 基于规则的方法(Rule-based)2. 基于单个特征的方法(Per-feature-based)3. 基于实例的方法(Case-based)4. 稀疏性方法(Sparsity)5. 单调性方法(Monotonicity)基于规则的方法比如我们提到的非常经典的决策树模型。这类模型中任何的一个决策都可以对应到一个逻辑规则表示。但当规则表示过多或者原始的特征本身就不是特别好解释的时候,基于规则的方法有时候也不太适用。基于单个特征的方法主要是一些非常经典的线性模型,比如线性回归、逻辑回归、广义线性回归、广义加性模型等,这类模型可以说是现在可解释性最高的方法,可能学习机器学习或计算机相关专业的朋友会认为线性回归是最基本最低级的模型,但如果大家学过计量经济学,就会发现大半本书都在讨论线性模型,包括经济学及相关领域的论文其实大多数也都是使用线性回归作为方法来进行研究。这种非常经典的模型全世界每秒都会被用到大概 800 多万次。为什么大家这么青睐这个模型呢?除了模型的结构比较简单之外,更重要的是线性回归模型及其一些变种拥有非常 solid 的统计学基础,统计学可以说是最看重可解释性的一门学科了,上百年来无数数学家统计学家探讨了在各种不同情况下的模型的参数估计、参数修正、假设检验、边界条件等等问题,目的就是为了使得在各种不同情况下都能使模型具有有非常好的可解释性,如果大家有时间有兴趣的话,除了学习机器学习深度模型模型之外还可以尽量多了解一些统计学的知识,可能对一些问题会获得完全不一样的思考和理解。基于实例的方法主要是通过一些代表性的样本来解释聚类/分类结果的方法。比如下图所展示的贝叶斯实例模型(Bayesian Case Model,BCM),我们将样本分成三个组团,可以分别找出每个组团中具有的代表性样例和重要的子空间。比如对于下面第一类聚类来说,绿脸是具有代表性的样本,而绿色、方块是具有代表性的特征子空间。使用 BCM 学到的分类及其对应的代表性样本和代表性特征子空间基于实例的方法的一些局限在于可能挑出来的样本不具有代表性或者人们可能会有过度泛化的倾向。基于稀疏性的方法主要是利用信息的稀疏性特质,将模型尽可能地简化表示。比如如下图的一种图稀疏性的 LDA 方法,根据层次性的单词信息形成了层次性的主题表达,这样一些小的主题就可以被更泛化的主题所概括,从而可以使我们更容易理解特定主题所代表的含义。Graph-based LDA 中的主题层次结构基于单调性的方法:在很多机器学习问题中,有一些输入和输出之间存在正相关/负相关关系,如果在模型训练中我们可以找出这种单调性的关系就可以让模型具有更高的可解释性。比如医生对患特定疾病的概率的估计主要由一些跟该疾病相关联的高风险因素决定,找出单调性关系就可以帮助我们识别这些高风险因素。在建模之后使用可解释性性方法作出解释建模后的可解释性方法主要是针对具有黑箱性质的深度学习模型而言的,主要分为以下几类的工作:1. 隐层分析方法2. 模拟/代理模型3. 敏感性分析方法这部分是我们接下来介绍和研究的重点,因此主要放在后续的文章中进行讲解,在本篇中不作过多介绍。除了对深度学习模型本身进行解释的方法之外,也有一部分工作旨在建立本身具有可解释性的深度学习模型,这和我们前面介绍通用的可解释性模型有区别也有联系,也放到以后的文章中进行介绍。如果对本系列感兴趣或有疑问,欢迎私信交流。关于 BIGSCity北航智慧城市兴趣组 BIGSCITY 是隶属于北京航空航天大学计算机学院的一个学术研究小组,小组致力于研究机器学习与数据挖掘在城市科学、社会科学等领域的交叉应用技术。BIGSCITY 的研究兴趣包括:城市计算,时空数据挖掘,机器学习可解释性,以及 AI 在交通、健康、金融等领域的应用等。本专栏将介绍 BIGSCITY 的一些研究成果,不定期更新与课题组研究相关的研究工作介绍,以及介绍与 BIGSCITY 相关的一切有趣的内容。关于 BIGSCITY 的详细情况参见研究组主页:https://www.bigscity.com/参考文献1. Google Brain, Interpretable Machine Learning: The fuss, the concrete and the questions.2. Kim B, Koyejo O, Khanna R, et al. Examples are not enough, learn to criticize! Criticism for Interpretability[C]. neural information processing systems, 2016: 2280-2288.3. Kim B, Rudin C, Shah J. The Bayesian Case Model: A Generative Approach for Case-Based Reasoning and Prototype Classification[J]. Computer Science, 2015, 3:1952-1960.4. Doshi-Velez F, Wallace B C, Adams R. Graph-sparse LDA: a topic model with structured sparsity[J]. Computer Science, 2014.
研究方法作为知识生产的工具,其实跟背后的本体论是有很大的关系。我们完全可以不关注研究方法背后的本体论。很多人认为不需要关注,但是如果不关注的话,会导致研究方法的使用上会有很大的一个误差。那么定量研究方法和质性研究方法的区别何在?表面上看,一个是用数学,一个不用数学。也就是说是研究形式上的区别:一个采取量化的手法,一个不采取量化的方法,而是用文字表述的方法。但二者的区别,根本原因在于社会本体论预设的不同。量化方法本体论预设:社会世界类似于自然世界。所以社会科学可以模仿物理学,采取类似于自然科学的方法,数量化是必不可少的特征。科学性体现在实证性(或者经验性,注重可观察的证据),精密性(数学是特征)和揭示一般规律(从而可以做出预测)质性方法的本体论预设:社会世界不同于自然世界,因为社会是由人构成,人是有思想,情感,价值观念,信念等主观主义。人的行动是意义驱动的,而不是自然界中的刺激—反应行动。对意义的把握要通过理解,自然科学的客位立场无法达到对意义的理解。比如说对人的现象进行研究,就要理解人。比如说你要理解穆斯林的行为,你就要去读伊斯兰教的教义。如果不理解这个教义,怎么能理解它呢?我们很可能就是从一个非宗教徒的角度用自己的想法来裁剪它的行为,扭曲了它的行为,那这已经是违背现实了。意义可以定量的测量,但测量不是理解,因为测量可能是从客体立场来裁剪意义,甚至是研究者把自己的意义强加给研究对象。对意义的把握要从主体的立场出发。科学性首先体现在方法与社会科学研究对象的属性的匹配性。量化方法与社会现实的本体论属性不匹配。质性研究在实证上,与定量研究者一样。质性研究者也追求揭示规律,但社会规律与自然规律有不同的表现形式。科学性不在于严密性,严密性是我们追求的,但不仅仅在于严密性,它还在于研究方法和研究对象的本性的匹配性。
比较管理既要从事共时性研究,更要从事历时性研究科学研究不但要描述可观察的世界,而且要描述隐藏在现象背后的世界,描述可观察的世界可称为“描述性研究”,相应地,描述隐藏在现象背后的世界,可称为“解释性研究”翻阅国内20世纪90年代出版的一些《比较管理学》教材。有意无意地把比较管理视为描述性研究,许多内容停留在浅层次的比较或表面的现象堆积上,致使比较管理研究偏离了其发展的轨道,失去了其应有的学术魅力。不难说明,这种简单描述方法根本无法完成比较管理的使命。当然,不是说不需要描述性研究,描述性研究是比较管理研究的重要组成部分,是解释性研究的重要基础和前提。比如大内的《Z理论》一书,有约一半篇幅在讲述从A到Z的应用问题。但大内本人很清楚很谨慎,他提醒人们这些步骤只是供人们讨论的焦点,而不是提高管理水平的“食谱”。波普尔指出,科学的目的是:为所有那些给我们印象深刻而又需要解释的东西找到令人满意的解释。所谓的一种解释(或是一种因果性的解释)就是指组用来描述有待解释的事态的陈述,而其他的解释性的陈述,则构成有关“解释”这个词的更狭义的“解释”。在社会科学各领域,比较研究似乎呈现出一种共性,即解释性研究。凡是比较,而且能够在学术上有所创见者,在已有的事例中基本上都没超出解释性这一范围。比如,亨廷顿的比较研究著作《变化社会的政治秩序》及其文明冲突论,汤因比的皇皇巨著《历史研究》。这种比较基本上都属于认知和解释,这种研究很值得管理学界借鉴,比较管理的硏究对象是管理行为背后的管理运作机理,要比较不同情境下管理活动的异同,我们就必须回答“是什么因素决定了不同情境下管理活动的异同”。比较管理学虽然也要回答是什么。换句话说,比较管理既要从事共时性研究,更要从事历时性研究。因此,比较管理学在本质上应该属于解释性科学,唯有如此,比较管理研究才能对管理演化过程中复杂的多元因果关系做出深刻的理解和说明。这样,我们对管理模式进行解释性分析,就可能超越“存在”(共时性),进人“过程”(历时性),通过历史的时间长河分析其遗传机制、变异机制和选择机制等,从而对一国管理模式今天为何这样而不是那样做出有说服力的解释。这种解释既有利于人们发现一国管理模式中的特殊经验,也有利于提炼出管理模式中的普适规律。事实上,比较管理学从来没有离开解释和认知,大内的《Z理论》、戴尔的《伟大的组织者》、钱德勒的《战略与结构》,这些经典的比较研究的成功之作,也都没超出解释性这一学科的性质现实生活中还有一类研究,这类研究属于“改造世界”性质的研究。我们姑且把这类研究称为“对策性研究”我们不是不需要对策性研究,问题是,对策性研究的建议往往应该发生在理论解释之后。有许多学者常常不是先找准问题,寻找问题产生的原因,不去探究问题背后的社会环境与结构,不去运用恰当的理论工具和方法对问题进行深度剖析和解释,而是匆匆忙忙地提建议、做对策。这种所谓的“研究”不应该提倡,我们可以看到一些学者的有益提醒:较管理学的研究,不在于找出可以引进或者模仿的楷模,而在于通过比较认识不同模式之间的差异形成机制,提供引进或者模仿的可能性论证。学术研究从来都是解释性的,而不是对策性的。由比较研究直接进入对策研究,很可能不是比较管理学的真正出路。但是,对策研究往往具有现实的吸引力,这值得学界警惕。那么比较管理研究可以引人演化分析范式吗?解释性学科必须拥有解释性的分析范式与之匹配,我们才有可能对事物之间纷繁复杂的关系做出深刻的解释和说明。我们刚刚提及共时性与历时性这一对术语。共时性和历时性相对,是索绪尔提出的对系统的观察研究的两个不同的方向。共时性的一切牵涉到对事物的静态的方面,历时性的一切牵涉到事物的进化方面。共时性方法可以归结为对事物收集整理后在一个时点上进行截面式研究,历时性方法则随着时间从上往下探究或从下往上追溯。在比较管理研究领域,颇为流行的仍然是“文化分析范式”。比如,人们仍然习惯于采用霍夫斯泰德的文化五维度理论去解读管理问题,特别是跨文化管理问题。这是必要的,但又具有明显的局限性。五维度分析可以解释管理活动中的“文化”现象,可以进行一些管理活动的共时性分析,但在回答诸如一种管理模式的发生、发展和演化这类复杂的问题时,“文化分析范式”就显得有些苍白或空泛。在研究这类复杂问题时,进化生物学和演化经济学为我们提供了科学的分析方法,特别是一些历时性分析的方法。遗憾的是,迄今为止,这种科学方法没有进入比较管理学家的视野。与功能生物学研究分子工程不同,进化生物学研究物种的演化。遗传、变异和选择是进化生物学的核心范畴。演化经济学同进化生物学一样,始终在提问上致力于历史起源和过程解释,主张比较的、历史的、回溯的方法。霍奇逊指出,生物学将一般性原则(例如分类法和进化规律)与关于特定机制和现象的特殊研究相结合。这就是为什么社会科学必须更接近生物学而不是物理学的一个原因。比较管理学之所以在相当长的一段时间里几乎成为一门“沉闷的科学”一个方面的原因就是由于其缺乏有效的分析工具去解释是什么因素导致不同情境的管理特性的形成,这些因素是如何演化从而影响到管理特性的改变。现在,我们欣喜地发现,演化分析方法完全可能“激活”比较管理学,使其从“沉闷”转入“活跃”,在科学研究中,隐喻或类比是一种常见的方法。它是从其他学科引入新的认识论并与本学科杂交产生理论创新的重要途径。它既可以帮助当事人从本专业已“锁定”的思维模式中挣脱出来,又有助于新范式的内核的形成。演化理论中许多重要范畴和理论,对比较管理研究具有非常重要的价值。比如,演化经济学强调事物发生的初始条件与结构、注重分析主体能动性与制度结构的关系、致力于寻找事物发展的基因及发展过程中惯例的特殊作用,以及历史的偶然性和不确定性、累积因果效应、个体群思维方法、路径依赖、互补性等重要理论范畴具有深邃的学术内涵和极大的学术魅力。可以预见,引人演化分析方法会大幅度地改写比较管理学,甚至可能引发一场管理学方法上的革命。
今天给大家写一个SEO非常重要的优化方法技巧,就是通过多用描述的方法来优化网站的一种重点页面。但是我们这里说描述,并不仅仅是指description,description只是其中之一。我们的意思是在网站各个网页上一些需要针对文字内容进行优化的地方,我们建议采用描述性的SEO优化方法。例如:(SEO每天一贴)(互联网十八般武艺全站各栏目)比如说,关于网页标题的优化,其实写成一句包含关键词的短语描述性内容,我觉得就比简单的关键词罗列的方式要好。再比如说,我们有时候会在首页的底部罗列一些首页要优化的关键词,其实这种做法也可以改成通过一段话的方式把这些关键词整合进来,而不只是单纯的罗列这些关键词。除此之外,还有在一些文章页面会有一个概括。但是我们优化这个概括的内容的话,大部分是从文章正文中摘取的一段,其实如果优化策略做的细致的话,这块内容也是可以结合关键词针对性的撰写,这也会对当前页的SEO有很大的帮助。还有很多页面,例如栏目页面,例如Tag页面,电商网站各种图片多文字少的页面,还有专题页面,都可以给这些页面增加少一段或者合理的几段描述性内容。这些内容都有助于网页页面的优化。有时候我们精心设计撰写了一段description的内容,但是却发现百度并不抓取description的内容,而是跑去抓取了网页上的某一段的描述文本内容。相信这种情况,我们经常看到。并不知道百度这是什么策略。相对于Google会比较稳定的抓取description的内容。针对百度这种情况的话,可能我们就要在网站或者网页上多设置几段文本描述内容。所以,我们这里说的是基于全站文字文本内容通过描述的方法来优化。而且,这个跟优化网页的标题的方法一样,如果能够针对每个网页进行个性化不重复的方式来优化的话,就更有价值。不要做那种在模版里面固定一种文案格式,然后全站页面统一调用。这种做法对关键词的优化,价值很低。那么最后再给大家极力建议这几类页面是要增加描述性文本的。重要的页面是:专题页面,栏目页面,Tag页面。专题页面获得排名的潜力还是非常高的,多合理增加一些描述性文本内容,有助于专题页面的内容优化。而且专题类型页面,本身就是靠强关联性的内容来获得排名提升。栏目页面获得排名的机会也非常大,栏目页面会在网站的导航栏等地方长期有固定的链接,因此获得比较高的权重。给栏目页多增加描述文本内容,也是能有助于提升栏目页的排名。最后是Tag页面,实际上Tag页面我现在已经没那么重视了,很少再看到有什么Tag页面获得比较好的表现的例子。但是如果有Tag页面,那么还是给Tag页面也设置文本描述内容好点。这个技巧大家可以尽可能的扩大,能用到文本描述的方式尽可能用文本描述。
回顾性研究论文同其它研究论文一样,在陈述资料来源、总结方法和结果之后,尚须对资料的结果及在总结过程中所遇到的问题加以分析和讨论,以回答研究所提出的问题。达晋编译认为,分析的关键在于严格的科学态度,正确地反映客观事实。论点要正确,论据要充分,论证要有严密的逻辑性。切忌主观意断,言过其实。在这方面常见的问题有:一、主题不集中。有的作者往往想在一篇论文中解决过多的问题,片面地追求全面、系统、完整。其结果是面面俱到,主次不分,重点不明。需要强调的是,临床回顾性研究论文与教科书或其它研究论文不同,不可能对病因、发病机制等作出新的、科学的结论,也不可能对药物或疗法的作用机理做出科学的解释。这是研究本身的性质所局限了的。因此,在作资料的解释时,一般只要求着重解决一两个问题,把主题集中到最主要、最有实际内容、作者最有体会的问题上。围绕主题,展开讨论。其它有关的问题只能处于从属的地位,不能与重点问题相提并论,更不能喧宾夺主。企图什么问题都解决,结果是什么问题也解决不好。二、推论主观。临床回顾性研究可以总结和发现一些疾病的发生、发展乃至治疗的规律性,也可以从现有资料的分析中给今后工作的开展以某种启示。但是,不少作者往往以这些规律和启示为依据,无限延伸,加以推论。这种利用现有资料进行主题以外的某些推论,不管作者的逻辑过程如何合理,总不免带有一定的盲目性,甚至弄巧成拙。从统计学角度看,企图将现有资料的结论应用于超出样本所代表的总体,是绝对不允许的。因为这样做是不客观的。三、套用文献。在对临床资料做出解释时,常常需要引证有关文献材料,以说明作者所得结果与前人的同类研究的结果有什么联系和区别,从而表明作者的见解。但是,在引用时决不能把文献资料当作左右作者研究结果的先人之见。特别是当自己的结果与前人的结果有出入时,更应该慎重地分析自己研究的材料,仔细地审查各种因素的干扰,并找出差别的真正原因。既不要对自己的结果不加分析和探讨而轻易否定,也不要对自己的结果寄予过高的奢望,甚至偏爱,草率地肯定。因为这里有可能受到各种偏因的影响而出现假象。因此,既不能把文献作为左右资料分析的先验性概念,也不能以自己的结果去硬搬前人所作的结论,否则,将使资料的分析缺乏科学性。四、不正确地利用统计学数据。数理统计能帮助我们在实践中少走弯路,少犯主观片面的错误。但是统计学的处理只能在资料系统化的基础上进行。在统计处理的任务完成之后,对结果的解释则取决于研究者的专业知识和经验了。统计的显著性不能代表解释的正确性,因为回顾性研究很难避免各种干扰因素及偏因的影响。只有当各种干扰因素及偏因受到良好的控制时,统计的结果才更能说明问题。否则,即使得到“有显著意义”的结果,也很可能是由于某种干扰造成的。因此,不经统计学处理就下结论不对,而把统计学处理看成“万能”,也是不对的。
所谓市场调研就是对某一目标,收集、整理、分析有关信息,通过对数据或信息的分析,得到相应结论,从而为企业决策提供参考,实现企业利益最大化。数据分析是市场调研中重要组成部分,在分析过程中我们会遇到许多统计分析方法。今天SPSSAU就来介绍8种市场调研中常用的数据统计分析方法,以及如何在SPSSAU使用这些方法。01 频数分析:分析比例,掌握基础信息无论是哪种领域的统计分析,频数分析都是最常用的方法。在市场调研中,频数分析也是最基础、使用最广泛的方法。一般可用来统计分析样本基本信息,统计比例,如消费者的基本信息,对产品的基本态度,是否愿意购买产品等。SPSSAU频数分析频数分析结果用图表展示能够更加清晰对比各项比例,SPSSAU频数分析默认提供饼图、圆环图、柱状图、条形图可选择。注:多选题统计频数或比例用【问卷研究->多选题】。02 描述分析:定量数据对比描述分析适用于分析对比定量数据。例如对比各维度均值,了解在哪些方面得分较高,哪些方面得分较低,找出优势项或短板项,从而制定出有针对性的改善方案。可用于分析产品满意度、用户需求等。SPSSAU描述分析描述分析结果如果有多个题要对比平均值,可通过折线图、柱形图、雷达图来展示。03 IPA分析:满意度-重要性分析IPA分析,又叫重要性表现程度分析法。是通过绘制散点图,对比不同项目或维度的重要度和服务表现,从而直观的识别出优势项、劣势项。适用于服务质量、满意度分析、产品竞争力分析等。SPSSAU象限图指标在不同的象限中分别对应不同的解释,针对不同象限可以建立针对性的优化措施。在第一象限的指标顾客重视度高并且实际满意度也很高,说明是优势项可以重点突出或保持。第二象限指标顾客较重视,但实现感知满意度不高,说明需要重点加强改善。第三象限重要性及满意度都不高,可以作为次重点改进。第四象限满意度大于重要性,可以适当减少对这些指标的关注。04 差异分析:交叉分析,寻找个性差异上面几个方法一般只是初步描述研究结果,想要更深入的探究分析项之间的差异性则要进行差异分析。例如探究不同背景的消费者在“认知”,“态度”,“行为”,“原因”上的差异;是大学生还是工薪族更加喜欢我的产品?不同学历的消费者对于产品的需求有没有差异等等。差异分析常见包括几类分析方法:方差分析、t 检验和卡方检验。其实核心的区别在于:数据类型不一样。如果是定类和定类,此时应该使用卡方分析;如果是定类和定量,此时应该使用方差或者t 检验。方差和T检验的区别在于,对于T检验的X来讲,其只能为2个类别比如男和女。如果X为3个类别比如本科以下,本科,本科以上;此时只能使用方差分析。三种方法都可在SPSSAU【通用方法】中使用。05 帕累托图:抓大放小,把握关键因素帕累托图,是“二八原则”的图形化体现。在数据分析中二八原则可以理解为:80%的结果是由20%的因素产生的。实际应用场景中,帕累托图可以用来评估产品、划分客户、员工管理等,找出找出导致前累积80%的项,并且重点关注和分析。SPSSAU有两处提供了帕累托图分析,一般可用【可视化->帕累托图】;如果是多选题则使用【问卷研究->多选题】默认会生成帕累托图。重点分析累积加和占比在80%内的相关项目,频数越靠前说明越是重要因素。06 聚类分析:用户分类通过聚类分析,我们可以找到一类人群的综合特征,并按照其特征细分成不同人群。相比用单一分类标准,聚类分析可以综合多个指标结果,得到更加合理的类别。SPSSAU聚类不同行为的客户有不同价值,比如可选择消费次数、购买量、顾客满意度、忠诚度等指标,对不同价值的客户进行分类。当变量较多时,可先做主成分或因子分析,得到每个维度(因子)的数据,再进行聚类。SPSSAU因子分析07 对应分析:寻找市场定位对应分析,是把一个交叉表结果通过图形的方式展现出来,用以表达不同的变量之间以及不同类别之间的关系。对应分析可应用在市场细分、产品定位等领域相关中。SPSSAU对应分析对应分析图通过图形可以解读出同一变量各类别的区分程度,以及不同变量各类别间的关联程度。第一,考察同一变量:查看同一变量的不同类别是否被清晰区分开。第二,考察变量间的关系:离原点越远,意味着该点对于‘关系幅度’的表达越强,即说明该点越能体现出‘关系’;第三,在相同区域点与点之间靠得越近,意味着它们之间关联关系越强;点与点之间靠得越远,意味着它们之间关联关系越弱。08 市场预测:回归分析回归分析是确定两种或两种以上变量间影响关系的方法。在市场调研中,回归分析可以用来探究销售量、顾客满意度的影响因素、预测销售量等。回归分析中,最简单也最常用的就是线性回归,可在SPSSAU【通用方法->线性回归】中使用。SPSSAU线性回归当因变量为定类数据,比如研究消费者对于酒精饮料和非酒精饮料的选择偏好及影响因素时,可以使用SPSSAU进阶方法里的二元logit回归。SPSSAU二元logit如果是时间序列数据,可以使用【计量经济->ARIMA预测】来预测未来预期销售量,SPSSAU默认自动找出最佳模型输出预测结果。ARIMA预测ARIMA模型拟合图