01元分析1.定义:1976年学者Glass所下定义:“元分析是以综合已有的发现为目的,对单个研究结果进行综合的统计学分析方法”。也称为“典型或定量元分析”。2.优点:与传统的文献综述相比,元分析能最大限度地减少各种偏向,确保结论的科学性、客观性和真实性。具体体现在:①元分析运用各种手段从一群独立研究中组织和提取信息,并对这些研究的结果做出总的估计,是一种定量方法;②它包含某一研究课题下所有可接受的文献,全面而客观,弥补了单一研究的不足;③元分析给出的通常是一般性的结论,是系统的和可重复的;④元分析方法能发现单一因果分析或关系分析研究所不能发现的潜在规律。3.缺点:①由于不同的研究所采用的研究方法和研究实验材料可能存在不一致,因此对其结果进行整合有可能是不适合的,即“apples- and-oranges problem”;②元分析中所引入的研究有可能是低质量的,那么其结果的可靠性就无法保证,即“garbage in-garbage out problem”;③具有统计学显著意义的研究结果较无显著性意义的结果或无效的结果被报告和发表的可能性更大,即发表偏见的问题;④在计算效果量的过程中,某些研究可能会存在着多个效果量,如果这些效果量来自同一个样本,那么对这些效果量的整合就会不适合。02操作步骤1.选题:选题与方法契合,突出研究价值2.文献搜索:全面客观,报告选择标准需要搜索的文献类型有两种,包括已发表的文献和未发表的文献。3.数据编录:内容详尽,避免主观因素的影响4.数据分析03经典案例论文基本信息题目:社交媒体自我呈现与主观幸福感关系的元分析作者:毛良斌来源:《现代传播》2020年【内容提要】采用元分析方法探讨社交媒体自我呈现与主观幸福感的关系。共有43篇实证研究纳入元分析,被试总人数为24386人。结果发现,社交媒体自我呈现确实能显著提高主观幸福感,效果量微弱;社交媒体自我呈现对主观幸福感的影响效应大小取决于自我呈现的方式;积极自我呈现和真实自我呈现均能显著提高主观幸福感,消极自我呈现则显著降低主观幸福感;社交媒体自我呈现强度显著提高主观幸福感,具体到主观幸福感各维度来看,自我呈现强度能显著提高积极情感,但不能显著提高生活满意感,也不能显著降低消极情感;主观幸福感测量工具和文化背景对社交媒体自我呈现与主观幸福感关系存在调节效应,但在被试类型上,则未发现调节效应。【关键词】社交媒体;自我呈现;主观幸福感;元分析;效果量【研究问题及研究假设】RQ1:社交媒体自我呈现能显著提升主观幸福感吗?RQ2:社交媒体自我呈现对主观幸福感的影响效果有多大?H1:被试类型不同,社交媒体自我呈现对主观幸福感影响效应存在显著差异。H2:主观幸福感测量工具不同,社交媒体自我呈现对主观幸福感影响效应存在显著差异。H3:文化环境不同,社交媒体自我呈现对主观幸福感影响效应存在显著差异。【研究设计】(一)文献检索和获取研究检索时间跨度为2000年1月至2020年3月。根据PRIMA STATEMENT提出的标准,研究文献查找和获取需经过四个步骤,即文献查找、文献筛选、资格审查和研究纳入。据此,研究获得符合元分析要求的文献43篇,其中英文31篇,中文12篇,独立样本量为24386人。(二)文献编码按照元分析编码方法,对43篇文献进行编码。样本特征编码包括作者、发表年份、研究设计类型、被试特征、独立样本量、测量工具、研究的文化背景;效果量编码主要围绕自变量与因变量相关的统计描述值,包括相关系数、回归系数、p值、t值、均值与标准差以及自变量和因变量测量的信度系数α值。研究先由论文作者对所有文献进行编码,再由一位传播学专业研究生进行再次编码,结果显示,所有项目两次编码结果的百分比一致性信度均在0.98以上。纳入元分析的43篇文献基本信息见表1。(三)统计分析使用ComprehensiveMeta-Analysis(CMA)软件进行数据处理和分析。选择r作为统一效果量,若提取到的效果量为其他统计值,则将其转化成r值再进入元分析。对t值、p值以及均值和标准差,直接使用CMA软件转化为r值。由于CMA没有直接针对回归系数β的转换,研究根据Peterson等人提供的简便公式r=β+0.05λ(β≥0,λ=1;β<0,λ=0),先将回归系数转换为相关系数,之后直接录入CMA进行分析。在分析前,研究者首先对每个从独立样本中提取出的相关系数做信度修正,以避免因量表信度缺陷而导致相关系数的衰减偏差,校正的公式为:,其中ESr代表初始效果量,EScr代表校正效果量,rxx和ryy分别代表自变量和因变量的测量信度系数。对于使用实验操控或者单个项目测量的情况,其测量信度系数用1代替。利用CMA软件对效果量进行处理和分析,分析过程中将每个EScr转换成对应的FisherZ值,再将FisherZ值的加权平均数转换为相关系数,得到总体效果量,并估计总体效果量的95%置信区间。责编:周梦琦
今天推荐的是2019年发表在European Journal of Epidemiology期刊的一篇元分析文章,这篇文章对元分析的设计、进行和发表提供了具体的指导步骤,虽然是对医学元分析的指南,但是绝大部分内容对社会科学领域也是适用的,故推荐大家读一读此文章。中文摘要为了给卫生保健中的循证实践、指南和政策以建议,要求以全面,有意义且省时的方式准确识别、整理和整合所有可用证据。证据综合的方法,例如精心进行的系统综述和元分析,是总结特定主题的必不可少的工具。不幸的是,并不是所有的系统综述都是真正系统的,并且它们的质量可能会有很大差异。由于进行良好的证据综合通常涉及一系列复杂的步骤,因此我们认为就如何进行系统综述和元分析制定连贯的逐步指南至关重要。尽管大多数有关系统综述的指南都侧重于如何报告或评估系统综述,但它们却缺乏有关如何有效地综合证据的指导。为促进证据综合的设计和开发,我们提供了一个清晰简洁的24步指南,指导如何进行观察性研究和临床试验的系统综述和元分析。我们描述了每个步骤,并通过具体示例进行了说明,并提供了相关参考资料以供进一步参考。该24步指南(1)简化了进行系统综述的方法,(2)为医疗保健专家和研究人员提供了进行系统评价和元分析的方法学上合理的工具,并且(3)可以提高现有证据综合的质量。本指南将帮助其读者更好地了解过程的复杂性、评估已发表的系统综述的质量并更好地理解(和使用)医学文献中的证据。英文题目和摘要:A 24-step guide on how to design, conct, and successfully publish a systematic review and meta-analysis in medical researchTo inform evidence-based practice in health care, guidelines and policies require accurate identification, collation, and integration of all available evidence in a comprehensive, meaningful, and time-efficient manner. Approaches to evidence synthesis such as carefully concted systematic reviews and meta-analyses are essential tools to summarize specific topics. Unfortunately, not all systematic reviews are truly systematic, and their quality can vary substantially. Since well-concted evidence synthesis typically involves a complex set of steps, we believe formulating a cohesive, step-by-step guide on how to conct a systemic review and meta-analysis is essential. While most of the guidelines on systematic reviews focus on how to report or appraise systematic reviews, they lack guidance on how to synthesize evidence efficiently. To facilitate the design and development of evidence syntheses, we provide a clear and concise, 24-step guide on how to perform a systematic review and meta-analysis of observational studies and clinical trials. We describe each step, illustrate it with concrete examples, and provide relevant references for further guidance. The 24-step guide (1) simplifies the methodology of concting a systematic review, (2) provides healthcare professionals and researchers with methodologically sound tools for concting systematic reviews and meta-analyses, and (3) it can enhance the quality of existing evidence synthesis efforts. This guide will help its readers to better understand the complexity of the process, appraise the quality of published systematic reviews, and better comprehend (and use) evidence from medical literature.
需要多少个研究才能进行元分析?这个问题基本上等于问随机效应模型元分析中需要多少个原始研究。因为在社会科学领域固定效应模型的假设很少满足,所以固定效应模型用的很少。对于这个问题没有一个简单的答案,但是最起码我们要清楚我们使用的方法存在的一些局限。在介绍今天推送的文章之前,我想先问大家一个问题,大家知道Comprehensive Meta-Analysis(简称CMA)软件在随机效应模型中估计异质性是使用的哪种方法吗?这种方法有什么局限吗?关于第一个问题,可以看下面视频截图。关于第二个问题,也就是CMA使用的这种估计方法有什么局限吗?这就是我们今天推荐的这篇文章回答的问题。想要提高元分析功底的、在论文中显得非常专业的、对元分析非常感兴趣的可以阅读一下这篇文章。英文题目和摘要Random-effects meta-analysis: the number of studies mattersThis paper investigates the impact of the number of studies on meta-analysis and meta-regression within the random-effects model framework. It is frequently neglected that inference in random-effects models requires a substantial number of studies included in meta-analysis to guarantee reliable conclusions. Several authors warn about the risk of inaccurate results of the traditional DerSimonian and Laird approach especially in the common case of meta-analysis involving a limited number of studies. This paper presents a selection of likelihood and non-likelihood methods for inference in meta-analysis proposed to overcome the limitations of the DerSimonian and Laird procere, with a focus on the effect of the number of studies. The applicability and the performance of the methods are investigated in terms of Type I error rates and empirical power to detect effects, according to scenarios of practical interest. Simulation studies and applications to real meta-analyses highlight that it is not possible to identify an approach uniformly superior to alternatives. The overall recommendation is to avoid the DerSimonian and Laird method when the number of meta-analysis studies is modest and prefer a more comprehensive procere that compares alternative inferential approaches. R code for meta-analysis according to all of the inferential methods examined in the paper is provided.中文摘要本文研究了随机效应模型框架内研究数量对元分析和元回归的影响。经常被忽略的是,在随机效应模型中进行推论需要元分析纳入大量研究,以保证得出可靠的结论。几位作者警告说,传统DerSimonian和Laird方法的结果可能不准确,尤其是在涉及有限研究数量的常见元分析中。本文呈现了用于元分析推论的似然法和非似然法的选择,旨在克服DerSimonian和Laird程序的局限性,重点关注研究数量的影响。根据实际感兴趣的情景,在I类错误率和探测效应的实际能力方面来研究方法的适用性和性能。模拟研究及其在实际元分析中的应用表明,不可能确定一种一致优于替代方法的方法。总体建议是,当元分析研究的数量较少时,应避免使用DerSimonian和Laird方法,而应通过比较其他推论方法来选择更全面的方法。提供了根据本文研究的所有推论方法进行元分析的R代码。
随着研究方法和技术的成熟,其报告会越来越规范。在心理学领域,元分析应用的比较多,对研究报告的规范性开始慢慢关注。其他社会科学领域,比如体育科学,生态学、教育学、管理学等,类似的趋势也正在慢慢显现。今天推荐的这篇文章2020年发表在Review of General Psychology期刊,对心理学元分析当前的报告实践进行了回顾。感兴趣的可以阅读一下这篇文章。英文题目和摘要An Empirical Review of Research and Reporting Practices in PsychologicalMeta-AnalysesAs meta-analytic studies have come to occupy a sizable contingent of published work in the psychological sciences, clarity in the research and reporting practices of such work is crucial to the interpretability and reprocibility of research findings. The present study examines the state of research and reporting practices within a random sample of 384 published psychological meta-analyses across several important dimensions (e.g., search methods, exclusion criteria, statistical techniques). In addition, we surveyed the first authors of the meta-analyses in our sample to ask them directly about the research practices employed and reporting decisions made in their studies, including the assessments and proceres they concted and the guidelines or materials they relied on. Upon cross-validating the first author responses with what was reported in their published meta-analyses, we identified numerous potential gaps in reporting and research practices. In addition to providing a survey of recent reporting practices, our findings suggest that (a) there are several research practices concted by meta-analysts that are ultimately not reported; (b) some aspects of meta-analysis research appear to be concted at disappointingly low rates; and (c) the adoption of the reporting standards, including the Meta-Analytic Reporting Standards (MARS), has been slow to nonexistent within psychological meta-analytic research.中文摘要由于元分析研究已经占据了心理科学领域已发表工作的相当大一部分,因此此类工作的研究和报告实践的清晰性对于研究结果的可解释性和可重复性性至关重要。在384个已发布的心理学元分析的随机样本中,本研究在几个重要维度(例如检索方法,排除标准,统计技术)上考察了研究和报告实践的状况。此外,我们对元分析样本中的第一作者进行了调查,直接询问他们研究中所采用的研究实践和报告决策,包括他们进行的评估和程序,以及所依靠的指南或材料。在对第一作者的回答与他们发表的元分析中报告的结果进行交叉验证后,我们发现了报告和研究实践中的许多潜在差距。除了提供对最近报告实践的调查之外,我们的发现还表明:(a)有一些由元分析学家倡导的研究实践最终并未得到报告;(b)元分析研究的某些方面似乎以令人失望的低比率进行;(c)在心理学元分析研究中,采用包括Meta-Analytic Reporting Standards(MARS)在内的报告标准的步伐缓慢甚至不存在。
在往期文章中(见微信公众号“元分析”),我们推荐了元分析经典书籍,但是,推荐的都是英文书籍。这次,我们精心选择了社会科学领域的元分析中文书籍,这些书籍都是前面推荐书籍的中文译本。英文比较好的还是建议读英文版本,如果觉得英文阅读有困难,可以考虑阅读中译本。Meta分析导论近20多年来,Meta分析作为一种整合系列独立研究结果的方法,已经成为很多领域极其重要的研究工具,在诸如医学、药理学、流行病学、教育学、心理学、商业和生态学等许多学科中得到应用。由于Meta分析方法涉及较深奥的统计学知识,往往较难学习和理解,《Meta分析导论》由浅入深、简明扼要地就有关Meta分析的相关主题进行了系统、广泛而深入的讨论,能使读者较快地理解和掌握该方法。《Meta分析导论》内容包括:Meta分析在研究过程中的地位和作用;效应量和干预效应的计算方法;固定和随机效应模型整合数据的方法;研究间的变异评估分析方法和正确解释;相关概念的案例及图文解释;Meta分析中共性错误的避免;Meta分析相关争议的讨论及进一步学习的相关资源链接。元分析研究方法(第5版)元分析已经成为管理学乃至整个社会科学非常重要的研究方法之一。本书系统介绍了进行元分析的七个基本步骤以及注意事项,并以心理学、教育学、医学等领域的例子作为示范,以通俗易懂的写作风格对元分析研究方法进行了简明清晰的论述和探讨。本书具有如下特点:权威性。本书是国外元分析的权威图书,已经更新至第5版,是一本深受全球元分析学者推崇的著作。实操性:本书实操性强,根据元分析的操作步骤安排章节,有助于读者快速学会元分析。简洁性:本书仅有9章,每章力争用小的篇幅对相关内容进行浓缩性介绍。本书适合本科高年级学生、硕士研究生和博士研究生学习使用,也适合有兴趣进行元分析研究的读者阅读参考。元分析(Meta-analysis)方法应用指导元分析(Meta-analysis)是一种数据分析方法。它对关于同一个问题的多项独立的定量研究结果进行再分析,进而得出更具普适性的结论。元分析已经有半个多世纪的历史,最初主要应用于医学领域,现在越来越广泛地应用于社会科学领域的各个学科中。本书主要介绍了元分析方法的基本原理和使用步骤,以及使用中的种种注意事项,并以社会科学研究方面的例子作为示范,对于实际应用元分析方法的读者具有良好的指导作用。
Hello,这里是行上行下,我是喵君姐姐~今天给大家分享一篇关于情绪偏向元分析文献解读,方便对元分析与情绪偏向感兴趣的小伙伴细细研读。该文章由袁加锦教授团队在国际行为与神经科学领域权威期刊《Neuroscience & Biobehavioral Reviews》(5-year IF:10.02)在线发表了题为“Emotional Bias varies with Stimulus type, Arousal and Task setting: Meta-analytic evidences”的学术论文。该项工作揭示了人类情绪偏向的影响因素与变化规律,为解决该领域的证据分歧和如何选择刺激情境实现轻松的情绪调节提供了重要参考。这项工作由袁加锦教授担任通讯作者,合作者包括博士生田宇(共同第一作者)等人。情绪偏向,是指人们对情绪刺激的不对称加工,包括负性偏向(对负性刺激相比正性刺激反应更强烈)和正性偏向(对正性刺激更敏感)。先前的研究表明,刺激唤醒(高/低)、刺激类型(情景/语言)、文化背景(东方/西方)和任务类型(外显/内隐)可以调节情绪偏向,但结果并不确定。为了了解情绪偏向是如何随这些因素而变化的,研究人员以P3波幅为指标进行了元分析。使用Hedges’g法对38项研究的49个效应值进行了计算,总共包含1263名被试。结果显示:唤醒度、刺激类型和任务类型是重要调节变量,特别是高唤醒刺激、场景刺激、外显情绪任务增强了负性偏向;而言语刺激却导致正性情绪偏向,同时内隐情绪任务或低唤醒度刺激却没有表现出显著的情绪偏向。这些结果表明,情绪偏向是不稳定的,其极性取决于刺激唤醒度,刺激类型和任务类型。这些发现对于如何通过情境选择进行情绪调节具有重要启示。关键字:情绪偏向 P3 唤醒 刺激类型 元分析 情绪调节人类的情绪偏向驱使我们趋近目标,而远离危险。常见的分类是将情绪刺激分为积极和消极两类但人类对情绪刺激的反应通常是不对称的,这被称为情绪偏向。具体来说,有两种情绪偏向现象:一种是负性偏向,描述的是对消极刺激的反应比积极刺激更强烈;另一种是正性偏向,描述的是对积极刺激的反应比消极刺激更强烈。这些情绪偏向反映了动机系统的激活,在进化上对人类的生存很重要。具体来说,负性偏向与促进人类防御行为(如躲避危险)的防御动机系统相关,而正性偏向与促进人类接近行为(如寻找食物)的欲望动机系统相关。为了研究情绪偏向,许多研究人员使用事件相关电位技术来比较不同时间、阶段和不同头皮位置的积极和消极刺激引起的脑活动差异。其中最显著的发现之一是:由于使用不同的刺激和任务,事件相关的潜在成分P3振幅发生变化。P3(也称为P3b、P300、晚期正成分或者晚期正电位)是位于中央-顶区的第三个正向事件相关电位成分。它可以由视觉或听觉刺激引起,它与多种认知加工过程有关,其功能一直被认为是复杂的,不能与特定的认知过程相联系。一个突出的观点是,P3振幅可能是认知图式被修改过程的表现,因此,P3振幅可被视为反映了信息加工导致的神经系统激活程度(Johnson,2010; Polich and John, 2004)。在情绪研究中,P3振幅被认为反映了大脑中注意资源的分配和情绪介入后动机环路的激活程度,可以作为一个客观指标来指示情绪加工的强度。实证研究表明,刺激的唤醒(高/低)、刺激的刺激类型(情景/言语)、刺激的处理类型(外显/内隐情绪任务)和参与者的文化背景(东方/西方)可能在情绪偏向中起重要作用。1.1 唤醒度对情绪偏向的影响唤醒度,是指由情绪刺激引起的生理激活强度,以往研究提示刺激唤醒度对情感偏向可能有影响。具体来说,高唤醒刺激与负性偏向有关;相比之下,大脑可能会对低唤醒的情绪刺激产生正性偏向。有相关的数据支持这一观点。使用低唤醒刺激的研究发现,相对于消极刺激,积极刺激会导致P3振幅的增加,而使用高唤醒刺激的研究发现,消极刺激相对于积极刺激导致P3振幅更大。更直接的证据是,一项操纵刺激唤醒度的研究发现,P3在高唤醒条件下呈现负性偏向,而在低唤醒条件下却表现出相反的情绪偏向。然而,已有研究结果却存在不一致。研究发现,当觉醒高低不同时,可能出现消极偏向或积极偏向或者没有情绪偏向。因此,唤醒对情绪偏向的影响仍然存在争议。 1.2 刺激类型对情绪偏向的影响情景呈现和语言描述是人们获得情感信息的两种最常见的刺激类型。语言描述和情景呈现是否同等有效的诱导情感反应是一个悬而未决的问题。在实证研究中,情景呈现体现在图像上,而言语描述通常表现在文字上。一个关于文字和图像处理区别的理论观点认为:在进入的情感方面之前,文字处理包含了比图像处理更多额外的过程。文字的额外处理包括自上而下的处理,并产生心理表征,帮助我们获得情感方面的刺激。由于自我保护的本能,文字的消极心理表征可能通过个体的意识系统被削弱。因此,文字和图片之间的情感偏向可能是不同的。然而,实证研究的结果并不一致。一些研究发现,以P3振幅为指标,文字可能引起正性偏向,而图片导致负性偏向。相比之下,也有一些研究发现了文字的负性偏向和图片的正性偏向或无情绪偏向。因此,需要进行元分析来澄清这些问题。1.3 文化背景对情绪偏向的影响文化背景通过文化一致性的方式为人们的体验和表达情感做准备,从而调节情感偏好。具体来说,欧美人更喜欢积极性较高的积极状态,例如兴奋和兴高采烈,而东亚人更喜欢体验积极性较低的积极状态,例如和平与安宁。东西方文化在情感偏好上的差异,可能导致西方文化背景的被试比东方文化背景的被试体验到更多的情感积极性。因此,我们有理由推断文化背景可能在情绪偏向中起着重要的作用。此外,一些研究以P3振幅为指标,观察到具有典型西方文化背景的参与者的正性偏向;而东方文化背景的人则存在负性偏向。然而,一些研究显示了相反的结果。至少,这些发现表明,情绪偏向可能受到文化背景的调节,这需要通过元分析来进一步说明。1.4 任务类型对情绪偏向的影响用于情绪偏向研究的任务类型是多种多样的。例如,要求参与者对刺激的效价和唤起程度进行评分,对情感类型的刺激进行分类,完成情感stroop任务或者情感oddball任务,使用情感刺激进行新旧辨别,阅读情感词汇、被动观看情感画面等等。尽管任务种类繁多,但一个常见的分类是将其分为外显或内隐情绪任务。外显情绪任务要求参与者明确识别刺激效价、唤醒或情绪类别,而内隐情绪任务要求参与者执行非情绪认知任务,如观看、阅读或根据非情绪属性进行分类。据报告,与内隐情绪任务相比,外显情绪任务更容易将注意力资源分配到情绪刺激上。由于自我保护和进化的本能,更多的注意力资源可以促进一个人对负面刺激比如威胁的认知。因此,在外显情绪任务中更容易观察到负性偏向。一些研究以P3振幅为标准变量,表明外显情绪任务导致负性偏向;内隐情绪任务导致了正性偏向。一个研究使用相同的材料来比较外显和内隐情绪任务的情绪处理。结果表明,外显情绪任务的负性偏向大于内隐情绪任务。然而,这些发现并没有得到广泛的重复,而且仍然存在不一致的结果。因此,有必要在元分析方法中明确任务类型是否对情绪偏向有影响。1.5 现有研究许多研究使用P3振幅作为一个指标,以评估人们的情绪偏向。如前所述,先前的研究表明,唤醒、刺激类型、文化背景和任务类型可能在情绪偏向中扮演重要角色。然而,结果是混乱的,需要元分析来进一步说明。鉴于上述许多研究的样本量相对较小,很明显,一些结果的统计能力有限,增加了I型和随机误差的风险。然而这些结果可以很好地应用于元分析--这是一种强大的统计方法,可以根据效应大小识别许多小样本研究的趋势。因此,本研究的目的是通过元分析,明确唤醒、刺激类型、文化背景和任务类型是否调节情绪偏向。具体来说,通过元分析,以检查潜在调节变量的影响(即基于P3振幅的情绪偏向研究(包括:唤醒、刺激类型、文化背景和任务类型)。另一方面,厘清材料性质和唤醒度等因素对人类情绪偏向的影响,也对指导人们如何通过选择不同的刺激情境达到情绪调节的目的也具有重要的启示意义。2.1 文献研究我们按照系统审查和元分析指南的首选报告项目进行元分析。发表的文章是通过the Sciencedirect.com, John Wiley, Taylor& Francis, PsycInfo, and PubMed数据库。文章是通过对谷歌学术在线数据库的搜索来选择的。关键搜索词的组合如下:图片、文字、情景或语言,情感或情绪,积极或愉快,消极或不愉快,结合ERP或事件相关的电位。此外,我们还对所有文章的参考书目进行了搜索,以确保没有遗漏任何相关文章。当研究结果不明确或不足以纳入元分析时(例如,未报告计算效应大小所需的信息),我们联系了研究的相应作者,要求进一步的信息。由同一研究人员进行的多项研究被标记为进一步审查,以确保样本不重叠。文献检索的起始日期为1993年1月1日,因为我们认为与当前研究主题相关的第一篇文章是在1993年发表的(i.e., Cacioppo et al., 1993);文献检索截止日期为2018年9月1日。2.2 文献选择文章选择的标准如下:第一,研究使用了健康的被试;第二,研究使用了积极和消极的图片或文字;第三,研究报告了刺激的唤醒水平;第四,消极刺激和积极刺激的唤起相匹配;第五,研究报告了P3振幅对情绪刺激的反应;第六,研究报告的统计数据允许计算效应大小;第七,研究使用情绪刺激作为任务相关刺激;第八,这些研究发表在同行评审的期刊上。由于P3的命名和规范在不同的研究中有所不同,因此P3在时间和形貌上都有所不同。P3成分,也被称为晚期正成分,P3b, P300,或晚期正电位,被认为是正向成分,是中央顶叶或顶叶分布刺激后的第三个正成分,是情绪诱发的ERP成分。本文分析的文章发表于1993年至2018年之间。每篇文章的标题和摘要都经过人工审核,以确保这些文章适合纳入元分析。2.3 数据析取数据由两位博士生独立提取,反复核对,直到达成一致。从每一篇合格的文章中提取以下变量来研究鉴定数据(第一作者和出版年份),被试的平均年龄与标准差(SD)、女性被试的比例、样本量、刺激效价与觉醒、刺激类型(图片或文字)任务类型、P3的窗口时间、P3的电极、效应大小计算的统计数据、以及被试的居住国(基于主要参与者)。为了涵盖尽可能多的研究以加强元分析,我们纳入了包含主题无关因素的研究。对于这些研究,我们只是提取了与本元分析主题相关的数据。具体来说,在涉及精神障碍、老龄化和双语的研究中,元分析只纳入了健康样本、年轻人样本和被试以第一语言完成的任务下的数据。2.3.1 唤醒和效价唤醒和效价数据统一转换为9点李克特量表(1 =低唤醒或负性,9=高唤醒或正性),大多数研究都使用这个量表。本研究采用对分法提取各研究的唤醒数据,因为各研究对唤醒值的分类标准不一致,并没有公认的标准来将唤醒度划分为高和低。具体来说,我们按照升序对所有研究的平均唤醒值进行排序,前一半为低唤醒值,后一半为高唤醒值。高唤醒刺激的典型例子是蜘蛛、暴力和欢呼的文字或场景,而低唤醒刺激的典型例子是昆虫、难民和宴会。虽然这种二分法比较粗糙,但它有助于检查唤醒是否影响情绪偏向。如果研究没有报告特定的唤醒值,我们根据作者对刺激的描述进行了分类。独立t检验显示,高唤醒研究的唤醒值(均值SD= 6.65 0.35)显著高于低唤醒研究(均值SD =5.20 0.63), t(43) = -9.14, p < 0.001,说明二分法是有效的唤醒水平划分方法。2.3.2 刺激类型根据作者对刺激的描述,提取各研究中刺激类型的数据。在情景研究中,如果研究同时使用面部图像和情景图片,那么只有情景图片的数据被提取出来,因为面部的情感处理与情景图片不同(Bayer,et al., 2014)。在语言研究中,只提取了被试的母语数据,如果同时使用文字和图片作为刺激,则分别提取数。2.3.3 文化背景根据作者对被试的描述提取文化背景数据。由于许多研究没有报告被试的文化背景,所以文化背景的分类是基于被试参与实验的地点。具体来说,来自东亚(如中国)的参与者被划分为东方文化,来自欧洲或北美(如法国、英国、荷兰、波兰、西班牙、德国和美国)的参与者被划分为西方文化。2.3.4 任务类型根据实验步骤描述提取任务类型数据。指导被试进行外显情绪分类的研究被确定为外显情绪任务(例如,识别刺激效价、唤醒或情绪类别)。相比之下,要求参与者执行非情绪任务的研究被确定为内隐情绪任务(例如:观看、阅读或根据非情绪属性进行分类)。数据提取如Table1所示。2.4 元分析2.4.1 效应量我们使用Hedges g 作为效应量的指标,以避免Cohen’s d对于小样本研究效应量估计偏高的问题。在目前的分析中,Hedges g的计算如下:g =(正性刺激均值-负性刺激均值)/合并后标准差。如果缺少该公式的相关统计量,则根据t或p值和样本量得出Hedges g。与之前的研究相似,如果报告的结果是显著的,但没有提供p值,则假设单尾p值为0.025。如果报告结果为p < 0.05, p < 0.01或< 0.001,则假设双尾p值分别为0.05、0.01或0.001。如果结果被报告为不显著,但没有提供数据来计算确切的p值,则结果被保守地赋值为0.50的单尾p值。采用CMA(Version 2; Biostat,Englewood, NJ, USA)软件包来预计、计算和比较效应量的大小。2.4.2 模型选择大多数元分析基于固定或随机效应模型。Borensteinet al. (2010)认为模型的选择应该依赖于先前的研究,即纳入的研究具有相同的目的并显示出相同的效果。如果纳入研究的特征(如参与者和方法)是一致的,而且元分析的结果不能推广到更广泛的人群,那么使用固定效应模型是合适的。否则,应选择随机效应模型。由于所选的文章在被试、方法和刺激类型方面不一致,我们希望结果可以推广到更广泛的人群,因此我们选择了随机效应模型进行当前的元分析。2.4.3 异质性检验使用Q和I2检验评估效应大小分布的异质性。在Q检验中,Q值有统计学意义(p <0.05),表示效应大小分布存在异质性。在I2检验中,I2反映了实际效应大小差异所解释的总体方差的比例,I2值越大,异质性越大。Higgins et al. (2003)认为,25%、50%和75%应分别视为异质性的低、中、高阈值。此外,异质性可以用来评估模型选择的充分性。一些研究表明,如果研究中效应大小的异质性超过低阈值,使用随机效应模型是最合适的。与固定效应模型相比,随机效应模型通常更为保守,但当异质性较低时,这两种模型的结果相似(Littleet al., 2012)。因此,如果异质性超过了低阈值(I2 > 25%),则应在元分析中使用随机效应模型。2.4.4 发表偏差发表偏向通过漏斗图的目视检查, Egger’s回归检验(DeMaria et al., 2015),Duval和Tweedie’s修剪填充法进行评估。在漏斗图中,如果效应大小以加权总体效应大小为中心对称、倒锥形分布,表明没有发表偏差。在Egger’s回归检验中,应当计算Egger’s截距和95% 置信区间,如果截距与0无显著差异(p> .05)表示不存在发表偏向。Duval和Tweedie’strim- fill方法中,对纳入研究中效应大小的分布在左右两边进行修剪或填充,以提供对称分布。如果调整后的效应大小与观察到的效应大小之间的差异不显著,表明没有发表偏向。38篇文章共49个效应大小符合纳入标准(Fig.1),总人数为1263人。每个研究的效应大小和95% CI的森林图如Fig. 2所示。3.1 总体效应量总体效应大小无统计学意义,g = -0.06, CI:-0.21 ~ 0.10, Z = -0.72, p = 0.47。异质性分析显示,纳入的研究中存在中度异质性,Q(48) = 173.01, p < 0.001, I2 = 72.26,说明随机效应模型是合适的,存在显著的调节因子影响情绪偏向。3.2 调节变量分析唤醒度调节因子(高/低)有统计学显著性,Q (1) =6.70, p < 0.05。高唤醒刺激的总体效应值(g = -0.27, CI: -0.48至-0.05)显著低于低唤醒刺激(g = 0.12, CI: -0.08至0.32)。其中,高唤醒刺激与可靠负性偏向相关(Z = -2.46, p <0.05),而低唤醒刺激的情绪偏向无统计学意义(Z = 1.17, p = 0.24)。刺激类型(情景/言语)的调节因子有统计学意义,Q(1)= 13.33, p < 0.001。具体而言,图片刺激研究的总体效应量(g = -0.30, CI:-0.49 -0.12)明显比语言研究(g = 0.21, CI: 0.01 - 0.41)更负。具体而言,情景刺激与负性偏向相关(Z = -3.22, p < 0.01),而言语刺激与正性偏向相关(Z =2.01, p < 0.05)。任务类型(外显/内隐情绪任务)的调节因素也有统计学意义,Q(1) = 6.72, p < 0.05。外显情绪任务的总体效应大小(g =-0.37, CI: -0.62 -0.11)显著低于内隐情绪任务(g = 0.04, CI: -0.14 -0.22)。其中,外显情绪任务与可靠的负性偏向相关(Z = -2.84, p < 0.01),而内隐情绪任务不存在可靠的情绪偏向(Z = 0.46, p = 0.65)。但是,文化背景(东方/西方)的调节作用不显著,Q(1) =0.03, p = 0.86。Fig. 1:研究选择过程流程图。注:n为文章数量,k为独立效果大小3.3 发表偏差通过运用Egger s回归测试,和Duval and Tweedie s trim-and-fill方法检查漏斗图,来评估是否存在显著的发表偏差。漏斗图大致对称(Fig.3)。Egger回归测试显示没有显著的发表偏差,t (47) = 0.80, p = 0.43。修剪法发现,左侧可能有5个缺失值。调整以后的效应量没有显著不同于观察到的整体效应量(g = -0.06,置信区间:-0.21 - 0.10),表明没有明显的发表偏向。3.4 唤醒和效价的附加分析目前的元分析发现唤醒和刺激类型有显著的调节作用。然而,一些研究指出,与语言刺激相比,情景刺激与更极端的情绪唤起和情感效价相关。有必要比较当前元分析中所包括的情景研究和语言研究是否在唤起和效价方面有所不同。虽然不同的研究使用了来自不同刺激系统(如IAPS、CAPS、CAWS、BAWL-R等)的情绪材料,但这些刺激系统是通过相同的方法建立的。因此,不同研究的情绪材料的数据应该具有可比性。这些比较将阐明刺激类型的作用是否独立于情景刺激和言语刺激之间的唤起和效价差异。以效价(正、负)和刺激类型(情景、言语)为自变量分别进行唤醒度和效价值的方差分析。对唤醒度的方差分析没有发现显著的主效应和交作用,Fs < 0.22, p > 0.64。对效价的方差分析发现了效价的主效应,即总体上正性刺激的效价高于负性刺激的效价p < 0.001,ηp2 = 0.97。然而,刺激类型或效价和刺激类型之间的相互作用都不显著,Fs < 2.88, p > 0.09,ηp2s < 0.04。这些结果表明,唤起值和效价值在情景和言语研究中是匹配的。因此,上述的刺激类型效应应该独立于唤醒效应。没有报告唤醒或效价的研究未纳入上述分析。本元分析的目的是基于情绪刺激诱发的P3振幅,定量评估刺激唤起(高/低)、刺激类型(情景/言语)、文化背景(东方/西方)、任务类型(外显/内隐情绪任务)对情绪偏向的影响。结果强调了刺激唤醒、刺激类型和任务类型对情绪偏向的调节作用。Fig.2.效果大小和相应的森林图4.1 情绪偏向的意义虽然情绪可以分为积极和消极情绪但人类对情绪刺激的处理通常是不对称的,如正性偏向或负性偏向。前者描述大脑对积极刺激比消极刺激更敏感,而后者表明大脑对消极刺激比积极刺激反应更强烈。有研究者认为,情绪偏向源于动机系统的激活,而动机系统在进化上形成了人类对奖赏追求和威胁回避的适应功能。具体来说,有两种主要的动机系统,欲求系统和厌恶系统(Schuppet al., 2004)。如果欲望动机系统的激活起主导作用,则大脑会表现出正性的偏向作用,将更多的认知资源分配到积极的情绪处理上,这有利于接近行为,如寻找食物和探索外部世界。相反,如果厌恶性动机系统的激活占主导地位,大脑就会表现出负性偏向,将更多的资源分配到负性情绪处理上,这有助于发现环境危险,调动逃避危险、保持警惕等防御行为。根据进化论的自然选择思想,这两种形式的情感偏向都反映了人类在变化的环境中生存的适应性行为(Nisbett,1990; Tooby and Cosmides, 2005)。Fig.3.偏向分析漏斗图4.2 情绪偏向的调节效应我们的调节因子分析表明,唤醒、刺激类型和任务类型对情绪偏向起调节作用,而文化背景对情绪偏向的影响不显著。4.2.1 唤醒如上所述,高唤醒刺激比低唤醒刺激导致显著的负性偏向。这表明情绪偏向随着刺激的激活的不同而变化。先前的研究已经提出唤醒度和效价是相互作用的,导致有机体对正负情感刺激的反应是不对称的。情绪的双极结构理论(Cacioppoand Berntson, 1994; Cacioppoand Gardner, 1999)认为,与欲望性动机系统相比,增加的刺激唤起与更强烈的防御反应相关,因为从进化的角度来说,避免一个强烈的威胁事件比接近一个明确的奖赏更重要。因此,在整个信息处理过程中,觉醒的提高与消极情绪偏向的增强相关。这提示选择低唤醒情境面对情绪事件有利于降低人类的负性情绪偏向。4.2.2 刺激类型刺激类型的调节作用表现为:言语刺激导致显著的正性偏向但场景刺激导致负性情绪偏向。这表明随着刺激材料从图片/场景刺激变成文本刺激,人类的情绪偏向就从负性偏向转变成为了正性偏向。一个关于图片和文字认知加工差异的理论观点认为,文字在进入情感层面之前需要额外的加工,而图片加工则不需要。这种额外的处理包括自上而下的处理,它产生心理表征,帮助我们通过心理意象或概念表征,或两者兼而有之,从而获得刺激的情感意义。然而,词的心理表征是变化的。例如,blood这个词可以表示血淋淋的情况,医院的场景,或者一个中性概念——心脏泵出的红色液体围绕着你的身体。另一方面,更多研究表明,与文字相比,图片在大脑中引发更快的情绪处理。经验证据表明,相对于正面或中性的图片,负面图片获得了优先的注意力分配,从而让个体很难将注意力从负面的情景刺激中解脱出来。因此,与表现出积极情绪偏向的语言刺激相比,场景刺激引起了明显的消极偏向。这种刺激类型的效应对情绪调节有一定的启示作用,即通过选择文本,语言类的刺激来接收情绪信息,可以缓解消极情绪偏向从而促进积极情绪体验的产生。未来的研究应该在单一的研究中控制文本和图片的情绪属性,同时比较图片和文字刺激的情绪偏向以获得更加直接的结论。4.2.3 文化背景目前的元分析没有显示文化背景的显著调节作用。具体而言,西方被试的情绪偏向与东方被试的情绪偏向没有显著差异。文化背景(西方vs东方)几十年来一直被认为是调节情绪处理的因素。此外,经验证据证实,文化背景确实影响情绪处理的许多方面,如情绪评价、对情绪情境的偏好和情绪调节策略。然而,目前的元分析表明在情绪偏向现象中存在跨文化一致性。一种可能的解释是,情绪偏向可能反映了一种进化的、适应的功能,而不是一种社会文化塑造的、高阶的情绪功能。无论人们生活在什么样的文化背景下,人类追求目标或避免威胁在进化上都是非常重要的。因此,不管文化背景如何,情绪偏向的规律应该普遍适用于人类。另一种可能的解释是文化全球化效应。全球化被认为是文化同质化的推动者,全球化的文化侵蚀效应会减少文化差异,使不同的文化越来越相似(see Chiu et al., 2011)。4.2.4 任务类型任务类型的调节作用是显著的,这表明外显的情绪评价任务相比于内隐情绪任务导致更明显的负性偏向。具体而言,外显的情绪任务导致可靠的负性偏向,而内隐情绪任务不存在显著的情绪偏向。这表明,情绪偏向随着任务类型的不同而不同。外显情绪任务要求被试做出外显的情绪判断,因此情绪信息会从任务说明或之前的知识中获得自上而下的注意加工。相比之下,内隐情绪任务要求被试进行非情绪判断,其中情绪处理包括由凸显刺激引起的自下而上的注意。由于外显情绪任务导致更多自上而下的注意力资源被分配到情绪处理上,因此相对于内隐任务,外显任务往往会增强情绪处理。另一方面,由于自我保护的本能,威胁避免通常比奖励追求更重要和紧迫。因此,在外显任务中,增强的情绪处理可能优先于目标信息的发现和应对威胁。在这方面,外显情绪任务相对于内隐情绪任务会导致更大的负性偏向是合理的。4.3局限性和未来的研究方向在解释目前的结果时,有几个重要的问题值得考虑。首先,在提取每个研究的数据时,我们使用二分法进行唤醒分类,虽然我们的元分析观察到唤醒度具有显著的调节作用,但这一作用可能会被低估,因为在大多数纳入的研究中,刺激唤醒度均高于9点量表的中值(即 5分).第二,被纳入的研究使用了来自不同刺激材料系统的刺激,需要指出的是,这些材料系统使用不同的李克特量表(如5点、7点或9点)。因此,将所有评级数据统一转换为9点李克特量表的方法应被视为是试验性的,并应谨慎使用。第三,因为缺乏量化指标的原因,目前的元分析没有考虑任务难度或者认知加工负荷。然而,加工负荷无疑是有可能会影响情绪偏向的(Erthalet al., 2005),未来的研究应该尝试解决这个问题,并在元分析中检验加工负荷是否能降低情绪偏向。第四,通过图像刺激探索情绪加工时,需要测试和控制低水平的视觉特征,如空间频率或视觉复杂性,因为这些视觉特征可能会影响早期的视觉处理(Delplanque et al., 2007)。最后,目前的分析只包括文字和图片研究。然而,声音、句子和视频也被认为代表了语言或情景刺激。未来的研究应该通过声音、句子和视频的研究来验证目前的结果。我们使用P3波幅作为指标,揭示了刺激唤醒程度(高/低),刺激类型(场景/言语),任务类型(外显/内隐情感任务),和文化背景(东方/西方)对情绪偏向的调节作用。具体来说就是:高唤醒刺激、场景刺激、外显情绪任务会导致情绪的负性偏向;选择低唤醒度刺激,选择语言文本刺激和内隐情绪任务接收情绪信息有利于减弱情绪负性偏向或促进积极情绪偏向的产生。文献来源:Yuan J, Tian Y,Huang X, Fan H, Wei X,(2019). Emotional Bias varies with Stimulus type, Arousaland Task setting: Meta-analytic evidences, Neuroscience and Biobehavioral Reviews, 107(2019), 461-472.原文下载地址:https://www.sciencedirect.com/science/article/pii/S0149763419300697?via%3Dihub作者:袁加锦教授团队排版:喵君姐姐
下面是对元分析固定效应模型和随机效应模型的介绍。如果想要了解更多元分析知识,请关注微信公众号“元分析”。两种常用见的元分析统计模型:固定效应模型和随机效应模型在固定效应模型下,我们假定在纳入分析的所有研究存在一个真实的效应量,并且观察效应量的所有差异均归因于取样误差。虽然我们遵循将其称为固定效应模型的做法,但更具描述性的术语将是共同效应模型(common-effect model)。无论哪种情况,我们都使用单数(effect),因为只有一个真实的效应量。相比之下,在随机效应模型下,我们允许真实的效应量不同-所有研究可能共享相同的效应量,但效应量也可能因研究而异。【易错点:英文文章中,固定效应要写成单数fixed-effect,随机效应要用复数random-effects】图1 固定效应图示。正方形代表观察效应量,实心圆代表真实效应量。可以看到,在固定效应模型下,每个研究的真实效应量是相同的。观测效应量和真实效应量之间的差异完全是由抽样误差引起的。图2 随机效应模型图示。可以看到,在随机效应模型下,每个研究的真实效应量是不同的(当然,有可能真实效应量是相同的)。具体到单个研究而言,观测效应量和真实效应量之间的差异是由抽样误差引起的。但是在整体效应量层面,观测效应量和整体效应量不同既有抽样误差的影响,也有研究间真实效应量的变异的影响。研究间真实效应量的方差和标准差称为τ2和τ,其样本估计称为T2和T。元分析的精髓:方差逆权重法(Inverse variance weights)知道了原始研究的效应量以后,要确定的一件事情就是怎么整合效应量。当然,最容易理解的方法就是求算术平均。但是,这种方法明显没有考虑到不同研究的效应量估计值的精确性是不同的,比如样本量大的原始研究估计更精确。为了考虑到效应量估计准确性这一因素,也就是给估计精确性大的研究更大的权重,在元分析中使用了方差逆加权的方法。方差逆加权方法,说白了就是样本量大的其方差越小,通过再求倒数,其权重就会越大。在固定效应模型中,权重就是研究内方差(within-study error)的倒数。在随机效应模型中,权重就是研究内方差加研究间方差的倒数。固定效应和随机效应的差异:1、随机效应模型的整体效应量(主效应)的置信区间更宽。2、随机效应模型下,研究间的权重更接近。3、两种模型下的整体效应量估计值是不同的。但是,不能确定其方向,也就是固定效应的值可能更大、也可能更小。模型选择的误区:根据异质性检验决定选择固定效应还是随机效应模型(1)根据异质性检验结果选择模型是错误的,因为异质性检验的统计检验力经常较差,有可能异质性很大但是结果仍然不显著。(2)固定效应和随机效应的基本假设是不同的,固定效应是估计共同效应量,而随机效应模型是估计真实效应量的均值。固定效应的结果只能推广到所纳入的研究,而随机效应模型的结果不仅可以推广到所纳入的研究,还可以推广到未纳入的研究,包括漏掉的研究、正在进行的研究、未来将要进行的研究等。总的来说,最根本的是根据所进行的元分析研究实际情况选择适合的模型。如果实在不知道选择哪种模型,随机效应模型是更好的选择。因为当研究间方差等于0时,随机效应模型结果和固定效应模型结果是相同的,如果研究间方差不等于0,则可以纳入研究间方差到模型中。
研究表明,STEM教学持续时间越久,创造力培养效果越明显。来源|《开放教育研究》2019年6月 第25卷第3期作者 | 周榕 李世瑾编辑 | 申晴摘要培养创造力被认为是STEM教学的主要目标。然而,STEM教学真地能提高学生创造力吗?国内外学者已开展了大量实验与准实验研究,研究结论尚未统一。鉴于此,本研究采用元分析方法,以“STEM教学对学生创造力的影响”为主题,对2008-2018年国内外42项实验研究文献进行量化统计。研究发现:1)纳入研究的合并效应值为0.36,这说明STEM教学对提高学生创造力具有中等偏小的正向影响,且在创新思维、创新实践能力、创新人格与心理等层面不存在显著差异;2)从学段看,STEM教学对高中生创造力影响最大;3)从学科看,在创新科技类学科(信息技术、STEM课程、机器人、3D打印等)中实施STEM教学,对创造力的促进效果较明显;4)从教学周期看,实验周期愈长,STEM教学对创造力的影响效果愈明显;5)从教学主题看,科学探究和原型创造类教学主题对创造力的影响较明显;6)从教学方式看,探究式、问题式、设计式和项目式教学对创造力有中等偏小的正向影响,且四类教学方式无显著差异;7)从教学场域看,实验室和生活场景类教学场域对创造力影响较明显。基于上述发现,本研究建议降低STEM学习的认知负荷,优化STEM教学主题设计,实现STEM教学的学段贯通以及构建STEM教学的创新场域。关键词:STEM教学;创造力;元分析;调节效应一、问题提出STEM教育的主要目标是培养学生创新精神、创新能力和实践能力( Parker et al.,2015;余胜泉等,2015)。能否形成创造性文化和创新性成果,被认为是判断STEM教育发展阶段的重要指标(赵慧臣等,2017)。然而,STEM教学是多学科融合、面向复杂学习的过程,其对创造能力的影响须借助严谨的实验加以验证,而非简单体验或主观判断(Judson,2014)。因此,国内外学者积极开展实验研究,探讨STEM教学与创造力的关系,并得出三种迥然不同的结论。第一种观点认为,STEM教学对学生的创造力确实有提升作用。例如,韩国庆尚大学孔梁云等通过实验研究发现,STEM教学能显著提高小学四年级学生的创新实践能力,其中科学探究、工程设计能力提升最明显(Kong&Huo,2014)。雷诺兹等通过STEM教学发现,实验组的创新思维与创新心理显著高于对照组(Reynolds et al.,2008)。吴永和等(2018)通过实验研究发现,STEM教学实践活动能显著提高大学生的学习兴趣及跨学科创新实践能力。孙江山等(2016)利用心理旋转测试和威廉斯创造力量表,发现STEM活动能显著提高初中生的创新思维和空间能力。第二种研究结论证实STEM教学能提升部分学习能力,但对创造力无直接影响。例如,耶伊尔德勒姆等研究发现,STEM教学对小学生的创造力没有显著影响,但对小学生的学习兴趣、动手实践能力有正向作用(Yildirim& Sidekli,2018)。张屹(2017)、赵月(2018)等研究表明,STEM实践对小学生的自我效能感、问题解决能力、小组协作与交流能力等有显著作用,但对创造力无正向影响。第三种结论全面否定了STEM教学对创造力的影响。例如,卡维耶蒂等(Cervetti et al.,2012)以937名小学生为研究对象,开展以阅读理解、科学写作为主题的STEM教学结果显示,小学生的创造力没有显著变化。汤斯(Townes,2016)的研究同样表明,STEM教学并未显著提升初中生的学习态度、创造力水平。元分析是对同一主题的多项实验结论进行分析的量化研究方法。它通过计算平均效应值( Effect Size,简称ES),探寻结论不一致的单项研究之间的共性,从而获得普适的研究结论(Lipsey & Wilson,2000)本研究对国内外42项实证研究进行元分析,尝试回答:1)STEM教学真地能提高学生创造力吗?2)STEM教学提升创造力,是否受学段、学科、教学周期、教学主题、教学方式及教学场域等的影响?二、研究方法与过程元分析方法遵循严格的程序,组织、抽取、整合、分析同类研究,并以平均效应值客观评价现有研究结论。本研究严格按照哈里斯库伯等的元分析步骤开展文献分析(Cooper et al.,2009)。(一)研究方法本研究提取42项研究的样本量、均值、标准差等参数,采用实验组与控制组之间的标准化均差值为效应值(Standardized Mean Difference,简称SMD),并以此效应值表征STEM教学对学生创造力影响的整体效果,其函数关系为:n1和n2分别表示实验组和对照组的样本量,X1和X2分别表示实验组和对照组的均值,s1和s2分别表示实验组和对照组的标准差。(二)研究过程1.文献检索文献检索分两轮进行。第一轮是在中国知网(CNKI)、万方数据库、维普数据库(VPCS)以及Google Scholar、Web of Science、ERIC等数据库中进行大范围检索。其中,STEM教学搜索关键词包括“STEM Teaching”“STEAM Teaching”“STEM Learning”“STAEM Learning”,创造力关键词包括“Creativity”“Creative Achievement”“Creative Ability”。第二轮采取引文回溯法,即利用参考文献追溯查找“引文”。本研究在剔除重复文献后,共获得7938篇文献;初步筛选样本题目、摘要后得到586篇文献;对文献全文初读得到263篇文献。2.遴选标准文献遴选标准如下:1)研究主题为STEM教学对学生创造力的影响;2)研究方法为随机对照实验或准实验研究;3)实验对象为在校学生,不包括社会人士或成人学习者;4)研究数据应包含平均值、标准差、样本量、t值、P值等,以便计算出实验效应值。本研究最终获得42篇有效文献样本(国外文献25篇,国内文献17篇),符合元分析统计“样本量不少于30”的分析标准(宋伟等,2013)。此外,实验总样本为6680,效应值为80(部分研究包括多个效应值)。3.特征值编码不同研究通常包括多个特征值。为便于分析,本研究将文献作者、出版年份、实验人数(实验组与对照组人数)、学习者学段、教学学科、教学周期、教学主题、教学方式及教学场域作为编码对象。两位研究员对42个样本进行独立编码,Cohen Kappa一致性系数为0.92,满足0.7的统计学要求,说明特征值编码结果有效( Yildirim&Simsek,2011)。学段编码包括小学(1~6年级)、初中(7~9年级)、高中(10~12年级)、大学及以上(专科、本科及研究生)。学科编码为数学、机器人、科学、STEM、地理、化学、生物、信息技术和3D打印。教学周期编码为0~3个月、3~6个月和6个月以上。参照不同的实践目标(傅骞等,2016),教学主题编码为结果验证、科学探究、工程制作和原型创造。教学方式编码包括探究式、问题式、设计式及项目式。教学场域编码包括普通课堂、实验室与生活场景。本研究参照“脑—手—心创造力模型”(Kozbelt et al.,2010),将创造力类别编码为A类:创新思维(逻辑思维、批判思维、跨学科思维、发现问题、解决问题、创新想象、空间能力);B类:创新实践能力(科学探究、实践操作、工程设计、技术应用能力);C类:创新人格与心理(认知能力、团队合作、主动参与、学习兴趣、学习态度)。实验结果编码为提高、部分提高、未提高(见表一)。4.数据分析框架与工具本研究将STEM教学设定为自变量,创造力(创新思维、创新实践、创新人格)为因变量,学段、学科、教学周期、教学主题、教学方式和教学场域为调节变量,以 Review Manager 5.3(Rev Man)为数据分析工具,利用漏斗图、森林图、效应值、异质性检验等分析结果表征研究效应。三、研究结果(一)发表偏倚检验罗斯坦等强调,元分析样本出现发表偏倚时,会导致效应值远大于实验真实值,直接影响元分析结果的准确性和可靠性(Rothstein et al.,2006)。本研究采用漏斗图对42项样本进行发表偏倚检测。样本源均分布于漏斗图的上部有效区域,两侧数据对称且向中线靠拢,说明纳入的42项元分析样本科学有效,出现发表偏倚的可能性极小(见图1)。(二)异质性检验异质性检验是防止因存在异质性而无法合并效应值。研究采取统计量方法判断样本的异质性程度。通常,≥75%时采用随机效应模型,0≤≤75%时采用固定效应模型消除异质性,以防研究结果出现偏差(Borenstein et al.,2009)。42项元分析样本的异质性结果(见表二),故本研究采用随机效应模型消除样本的异质性,以保证分析结果的科学性。(三)STEM教学对学生创造力的影响本研究首先分析 STEM教学对学生创造力影响的整体效应,然后从创新思维、创新实践能力以及创新人格与心理三方面探究STEM教学对不同类别创造力的影响效果。1.STEM教学对创造力的影响STEM教学对创造力影响的整体效应森林图见图2。结果显示,42项实验研究的合并效应值SMD为0.36,其95%CI为0.24~0.48,Z=5.93(P<0.05),达到显著水平。根据科恩效应值统计理论,0.2、0.5、0.8、1分别表示影响效果的较小、中度、中上、较强水平(Cohen,1992)。STEM教学对创造力影响的合并效应值处于0.2至0.5之间,说明整体而言,STEM教学能够在中等偏小程度提高学生的创造力。2.STEM教学对不同类别创造力的影响STEM教学对不同类别创造力的影响见表三。所有类别创造力的效应值均大于0,说明STEM教学对不同类别的创造力有正向影响。A类创新思维SMD=0.42,B类创新实践能力SMD=0.44,C类创新人格与心理SMD=0.33。三者的效应值均小于0.5,说明STEM教学对创新思维、创新实践能力以及创新人格与心理的提升作用均处于中等偏下水平。从组间效应看,这说明STEM教学对不同类别创造力的影响不存在显著差异。(四)调节变量效果检验本研究通过分析学习者学段、教学学科、教学周期、教学主题、教学方式及教学场域等六类调节变量的影响差异,探究STEM教学中影响创造力生成的关键要素。1.学段的调节效应STEM教学在不同学段对创造力的调节作用明显不同,其组间效应,P=0.047<0.05(见表四)。效应值排序为高中(SMD=0.52)>初中(SMD=0.44)>大学及以上(SMD=0.38)>小学(SMD=0.20),说明STEM教学在高中阶段的影响最明显,达到中等程度。STEM教学对初中、大学及以上、小学的学习者创造力的影响较低,均处于中等偏下程度。国内普遍认为,高中阶段学业压力大,无法长期和有效开展STEM教学。但STEM理念真正渗透到日常教学,将对提升高中阶段的学习绩效产生关键作用。2.学科的调节效应不同学科对创造力发展的影响差异显著,其组间效应,P=0.004<0.05(见表五)。效应值排序为:信息技术(SMD=0.81)>STEM课程(SMD=0.48)>机器人(SMD=0.44)>3D打印(SMD=0.36)>化学(SMD=0.34)>数学(SMD=0.32)>科学(SMD=0.25)>生物(SMD=0.19)>地理(SMD=0.08),说明在创新科技类学科(如信息技术、STEM课程、机器人、3D打印等)中实施STEM教学,对创造力的促进效果最明显,而在生物、地理等传统学科的应用效果较弱。3.教学周期的调节效应不同教学周期对创造力的调节作用差异显著,组间效应,P=0.032<0.05(见表六)。效应值排序显示,实验周期愈长,STEM教学对创造力的影响效果愈明显。持续6个月以上的教学,对创造力的提升作用达到中等程度(SMD=0.48);3-6个月的教学效果稍差(SMD=0.44);低于3个月的教学,创造力培养绩效仅达到较低水平(SMD=0.27)。这与罗宾逊等的研究结果一致,即学生创造力的受影响程度与教学周期正相关(Robinson et al.,2014)。4.教学主题的调节效应四类主题的STEM教学对创造力都有正向影响,其效应值处于0.4~0.6之间(见表七)。组间效应,P=0.018<0.05。其中,科学探究类(SMD=0.53)、原型创造类(SMD=0.51)教学主题对创造力培养有中等偏上效果,工程制造类(SMD=0.48)、结果验证类(SMD=0.42)等主题的培养效果为中等偏下程度。从验证型STEM到探究型STEM,研究成分越来越多,STEM学习就是实现从验证到创新的突破,增强学习者的自主性和创造性(吕延会,2017)。5.教学方式的调节效应问题式、探究式、设计式和项目式等教学方式对创造力培养有正向影响,效应值处于0.3-0.5之间(见表八)。不同教学方式的组间效应10.46,P=0.072>0.05,无显著差异。这说明教学方式并非是影响创造力生成的决定因素,不存在绝对意义的“最佳方法”或“黄金模式”,探寻与教学目标和内容相适应的恰当方式,才是STEM教学设计的核心任务。6.教学场域的调节效果三种场域对创造力的影响效果差异明显,其组间效应 P=0.009<0.05。其中,STEM实验室、STEM学习中心等场所的教学效果最佳(SMD=0.37),在各类生活场景(家庭环境、社会场所、校外场馆等)开展教学的效果稍弱(SMD=0.33),普通课堂实施教学的效果最差(SMD=0.24)。这符合布尔迪厄场域理论的基本假设:作为连接社会和个人的中介,教学场域的活动资源和技术支持越丰富和越有针对性,有效学习行为越可能发生。四、结论与讨论元分析结果表明,STEM教学能整体提高学生的创造力,但对创新思维、创新实践能力及创新人格与心理不存在显著影响。学段、学科、教学周期、教学主题及教学场域等变量均对创造力培养效果有显著正向影响和明显调节作用,但不同教学方式带来的差异不显著。(一)STEM教学对创造力的积极正向影响元分析结果表明,STEM教学能激发创新思维及创造行为。其作用机制可理解为:STEM整合相互分离、割裂的学科知识,使学生按照关联、动态、系统的方式理解世界,在发散思维—聚合思维的迭代循环中发展创新思维(Park&Yoo,2013)。同时,STEM教学通过面向真实情境的复杂问题,引导学生经历完整的科学求证过程(Tati et al.,2017),从中获得创新实践的直观体验、非良构知识、科学理性及自我管理策略。此外,STEM教学能通过协作活动,支持不同认知水平、思维特征和知识背景的学生进行自我表达,在互通情感和相互激励中建立自我认知,塑造创新人格与心理。然而,STEM教学对不同类别创造力的最大效应值为0.44,仍属中等偏小程度。这说明STEM教学的实际成效并不尽如人意。研究表明,STEM教学对教师和学生提出了更高要求( Yildirim&Sevi,2016)。STEM学习中,无论是知识综合应用、复杂问题的创造性解决还是科学探究活动的完成,都依赖于动作图示、符号图示或运算图示的正确运用。当学生认知图式不健全或者图示构建存在困难时,会产生认知负荷。过高认知负荷使创新成为“精神的负担”,而非“快乐的源泉”(Yildirim et al.,2018)。这提醒我们,应理性认识STEM学习中的认知障碍,并通过控制认知负荷提升STEM教学绩效。(二)不同变量对创造力培养的调节效应调节效应检验结果表明,STEM教学对创造力的影响存在边界条件,体现在学段、学科、教学周期、教学主题、教学场域及教学方式等方面。学段方面,STEM教学对高中生创造力提升最显著,根源在于心智模型(简洁思维、发散思维、逻辑思维和逆向思维)成熟度对创造力生成的影响。高中阶段的学生学科知识储备基本完成,问题解决所需的智慧技能与学习管理所需的认知策略也已具备。路塞兹等证明,高中阶段是自我认同形成和发展的关键时期,高中生跨学科应用STEM知识的实践需求会刺激认同感的保持(Lou et al.,2010)。可以说,高中生的知识水平与心智水平均处于创造力发生的最佳阶段,因而能在STEM学习中获得高绩效。学科方面,创新科技类课程最容易实现创造力培养。可能的原因是,创新科技类学科基于信息技术展开,新技术本身对创新意愿刺激较强。加之此类学科内容多以设计、制作等创造性应用为主,更贴近STEM教学要求。教师开展教学设计时,亦容易将跨学科的概念融入产品制作或原型设计。而且,创新科技类活动是创造性、开放式的问题解决过程,能为学生提供创新实践、综合应用STEM相关学科知识的机会,促进学生高阶认知和创新机制的发生(Cotabish et al., 2013)。教学周期方面,STEM教学持续时间越久,创造力培养效果越明显。这与雷诺兹等关于学生创新能力培养与教学周期正向相关的研究结论一致(Reynolds et al.,2008)。STEM教学持续周期越长,学生完成复杂学习和深度学习的经验越丰富,能够建立充分的自信以应对创新活动的困难与阻碍。罗宾逊等指出,教学周期越长,学生对STEM元认知及角色期待越明显,越倾向于参与自主探究活动,并在合作交流中形成乐观自信的态度(Robinson et al.,2014)。教学主题方面,科学探究与原型创造类主题较工程制造与结果验证类主题,更易激发创造力。对比可知,前两类主题面向学习者“未知”的对象,强调逻辑推断、探索求真或者艺术想象与创意实现,需要逻辑的左脑思维与发散的右脑思维交替互补才能完成。后两类主题面向“已知”的现象或“可见”的产品,强调知识的综合理解与工程实践,更多依赖左脑思维。因此,将开放式探究有效融入探索实践,引发全脑思维,是STEM教学主题设计的关键(王佑镁,2019)。教学方式方面,采用问题式、探究式、设计式或项目式教学不会对创造力培养带来明显影响。科学哲学理论认为,创新思维发生的起点和基础是科学问题(付冰垚,2014)。这类问题需包含足够的科学知识、方法论和经验性材料。同时,它还必须能从多角度分析,且有助于更好地实践。无论这种科学问题最终表现为挑战性问题、设计型任务、探究式任务还是综合性研究项目,只要具备上述特征,就满足激发创新思维的条件。教学场域方面,在实验室进行STEM教学更有利于培养创造力。事实上,STEM教学场域可理解为由参与创新活动的要素相互作用而构成的实践网络(张国举,2007)。各种外在的因素通过场域的社会关系空间对创新主体产生作用,使其表现出特定的创新属性和行为特征。实验室能有效连接正式学习与非正式学习、真实环境与虚拟空间。较之普通课堂,实验室提供的资源和关系网络更系统,更容易协调STEM教学的创新主体、行为和结果间的关系,获得更多创造性成果。五、思考与启示基于元分析结果,STEM教学应关注对认知负荷的控制,并充分利用学段、教学周期、教学主题及教学场域的调节作用提升绩效。(一)降低STEM学习的认知负荷如前所述,降低认知负荷是STEM学习有效发生的必要条件。约翰斯威勒提出的认知负荷效应理论可用于优化STEM教学(Sweller et al.,2011)。例如,用目标自由的题目代替特定目标的传统题目,促进学习迁移的发生;向学习者提供问题解决样例和部分解决方案,帮助学习者建立认知图式;利用口头和多种视觉信息代替单一的书面文字,拓展有效工作记忆的容量;精炼教师的指导内容,减轻外部认知负荷;多采用想象和心理练习替代传统的附加练习,并使用高交互的学习材料;增加任务特征、呈现方式、操作情境的可变性,并在面对高挑战性任务时,积极采用集体学习方式。(二)优化STEM教学主题设计元分析显示,科学探究和原型创造类教学主题对学生创造力的影响较显著。因此,STEM教学设计应积极寻找跨学科、贴近现实的主题,并尽可能提升主题的可探究性。例如,从传统学科(如科学课、数学课)的拓展内容中寻找主题,通过观察学生的日常行为发现代表性现象或问题,对社会热点问题进行筛选和梳理等。此外,借助美国国际技术与工程教育协会(ITEEA)开发的I-STEM模式(管光海,2017),教师可以对主题的领域(知、行、思)、类型(内容、特性、影响、情境、过程)、内容(包含共同核心概念和关键内容)进行界定,并最终获得跨学科和探究性的STEM教学主题。(三)实现STEM教学的学段贯通元分析结果表明,STEM教学对中学阶段学生创造力的影响效果较显著,对大学生的影响效果明显下降。这很大程度上是因为STEM教学尚未形成连续统。所谓连续统,指人们认识和实践的对象在时间上连续不断、空间上紧密关联、性质上相互交融的统合整体(钟志贤,2005)。STEM教学应是包括创新精神、创新潜力、创新知能、创新实践为一体的连续统。这种连续首先体现在创造力培养目标的贯通上。小学阶段的STEM教学应强调创新素养和创新潜力的培养。中学阶段的STEM教学应强调创新知能和创新思维的形成。大学阶段的STEM教学应强调高阶思维、创造性问题解决能力和创新实践能力的形成。元分析结果同时表明,随着教学周期的延长,STEM教学对学生创造力的影响效果持续增加。因此,保持STEM课程内容和教学时间的连续,并关注学段衔接问题有重要意义。美国的经验为我们提供了两条可行之路:一是设立跨学段的STEM教学试验项目,如面向小学、初中和高中的项目引路(Project Lead The Way)以及面向初中、高中和大学的Ten80学生汽车挑战赛(Ten80 Student Racing Challenge)项目(CTEq,2013);二是构建跨学段的STEM连贯课程群,如亚利桑那州立大学联合宇航局开发的面向小学至研究生阶段的火星教育项目STEM课程(Mars Ecation at Arizona State University,2002),北卡罗来纳州科学和数学学校设立的贯穿初中、高中和大学等学段的精英课程等( NCSSM,2016)。(四)构建STEM教学的创新场域依据布迪厄场域理论,教学场域被认为是物理形态场域与意义形态场域的相互交融(马维娜,2003)。STEM教学场域的物理形态表现为适应创新的环境资本(即创新资源条件),精神形态表现为创新主体的性情倾向系统(即惯习,主体在场域中积淀下来的主观精神结构,如态度、行为习惯和价值观)。元分析结果表明,STEM实验室更有利于培养创造力,正是源于其所具有的丰富资源和良好的创新氛围。因此,STEM教学应尽可能将有利于创新的资源链接起来。这方面可效仿北美大学联盟的做法(Kober,2015),以现有电教中心或电教室为基础,整合校园网、多媒体教室、智慧教室、创客空间、学科实验室等校内资源,并联合博物馆、科技馆、图书馆、行业基地等校外资源,构建融合性的“STEM学习中心;同时,关注STEM教学场域中对惯习的塑造,通过建立“尊重创造”的价值导向、打造积极的创造行为者、提高创造结果的精神回报、形成“科学为本”的思维默契,最终完成创新自觉和科学精神的养成。总之,本研究对国内外42项实证数据进行元分析,对“STEM教学真地提高了创造力吗?”问题作出基本回答。研究仍存在不足:一是研究样本局限于中英文文献,会因语言的局限漏检部分文献;二是调节变量效应值的样本数量较少。未来还需持续关注STEM教学实证研究的新结论,并通过引入更多视角挖掘影响创造力的潜在调节变量,如基于学生视角的STEM学习协作参与度、交互复杂度,基于教师视角的STEM教学内容整合方式、学习支持服务类型与技术应用水平,以及基于管理者视角的STEM教学师资配置政策、绩效考核方式等。基金项目:2013年陕西师范大学中央高校基本科研业务费专项资金项目一般项目“信息环境下免费师范生专业创新能力协同成长机制与策略研究”(13 SZYB14)。作者简介:周榕(通讯作者),博士,副教授,硕士生导师,陕西师范大学教育学院,研究方向:STEM教育、智慧教育与创新能力;李世瑾,硕士研究生,陕西师范大学教育学院,研究方向:STEM教育。(声明:除STEAM在线原创文章外,STEAM在线分享和转载的文章皆为促进STEAM教育在中国的传播,非商业用途,都会注明来源,如文章、照片的原作者有异议,请联系我们快速处理或删除,谢谢支持。)
图片来源:Unsplash为了更全面地理解和认识慕课,土耳其教育部Aras Bozkurt 、土耳其阿纳多卢大学(Anadolu University)的 Nilgun Ozdamar Keskin 以及英国开放大学的 Inge de Waard合作完成了一个有关慕课研究趋势的学位论文的元分析研究。在这个研究中,作者分析了在2008年至2015年间完成和发表的与慕课相关的共计51篇硕士论文和博士论文(N = 51),并从这些学术文献中识别出慕课研究的发展趋势。根据加特纳技术成熟度曲线(Gartner Hype Cycle)上的慕课相关关键事件,慕课目前处于实质生产力高峰期 (Plateau of Proctivity),在此阶段,慕课所产生的利益与潜力已经为市场实际接受,这意味着慕课未来实际应用上将会变得更加多样多元。基于这一理念,一些新近的进展。比如,改进的ID验证(确认键入模式以及提交带有照片的有效ID)、慕课样式的多样化(有固定时间表的,或者自定步调的)、提高识别性和认证效力的努力(官方可核查的认证证书和带有签名追踪特征的证书)、联合和合作性的慕课项目数量剧增等等。这项研究发现,慕课研究通常是有教育、工程和计算机科学、以及信息和通讯技术相关学科的研究人员主宰的。定性方法是当前优选的研究方法,但是,对定量方法和混合式研究设计的兴趣在快速地增长。这一点和国内的慕课研究的趋势是一致的。慕课作为教育主导的研究领域,作为一种自然的结果,研究相关的理论基础目前通常是远程教育相关的理论。值得注意地是,几乎一半的硕士论文和博士学位论文并没有任何的理论框架。综合考虑到这项研究的这些结果,对于未来的慕课研究发展,作者指出:【1】目前的研究趋势主要集中在从教育的视角研究慕课学习者和慕课系统。因此,有必要从不同学科视角开展研究,尤其是增加慕课相关研究成果的多样性。【2】尽管慕课研究增长势头强劲,尤其是2014年和2015年,但是,采用混合设计的研究数量相对较低。更多的混合设计的研究,可能会消减定性研究设计和定量研究设计的弱点,从而为人们提供一个有关慕课现象的更加完整和更为全面的理解。【3】虽然目前还没有足够的研究来进行元分析或元综合研究,这项研究很可能对慕课文献作出重大贡献。Aras Bozkurt et al.Research Trends in Massive Open Online Course (MOOC) Theses and Dissertations: Surfing the Tsunami Wave. Open Praxis, vol. 8 issue 3, July–September 2016, pp. 203–221 (ISSN 2304-070X)本文转自微信公众号“ETech自留地”,作者焦建利。文章为作者独立观点,不代表芥末堆立场。
欢迎关注“雄安学术”,后台为大家准备了90余款分析绘图软件,15种语言包及其他素材。欢迎来寻宝喲~完全精准的数学模型,可以完美解决定量指标的运算,然而数学工具并非万能的,面对大量的无法定量化的指标(如TA爱你的程度),精准的数学模型和工具顿时无法施展拳脚。如何完成定性指标的定量化分析,成为软科学与硬科学(自然科学)之间的研究论题。层次分析法(AHP),一言蔽之就是通过构建一套多层次的评价指标体系,完成对定性指标的定量化分析。层次分析法(AnalyticHierarchy Process,AHP)由美国运筹学家、匹兹堡大学教授SattyT.L.于二十世纪70年代提出,是一种将与决策有关的元素分解成目标、准则、方案等层次,在此基础上进行定性和定量分析的决策方法。常被运用于多目标、多准则、多要素、多层次的非结构化的复杂决策问题,特别是战略决策问题,可以较好地解决多要素相互关联、相互制约的复杂系统的评价,具有十分广泛的实用性,是一种新型简洁化、实用化的研究方法。在实际工作中,层次分析法经常和德尔菲法、百分权重法结合,用于确定评价指标的权重。举个栗子:如TA爱你的程度,可以用联系你的频率、关心你的程度、为你付出时间、为你付出的购买力等因素。先对这几个指标进行权重赋值,随后结合你的TA这些指标相应的得分,进行权重*得分的乘积运算,并将所有要素进行加和,即可得到TA爱你的程度(指数,手动狗头·-·)1971年AHP首次应用于美国国防部研究“应急计划”,随后又开展了多项研究,奠定了AHP在定性研究领域的基础,1982年AHP在“中美能源、资源、环境”学术会议上被首次介绍到中国。喵博士结合相关研究现状,梳理了当前主要涉及领域应用如下:适宜性评价、环境保护措施评价、安全性评价、危化物危害性评价、城市应急灾害能力评价、空间格局安全性评价。同时,亦可用于指导消费者在生活领域决策提供一定指导,如购房影响因素评价、购车影响因素评价、专业选择与就业倾向评价等,均可以发挥其优秀的功效。如在居住区适宜性评价(如上图)时,根据既有研究成效,居住区园林景观适宜性评价可以划分为:绿化种植景观、道路景观、场所景观、硬质景观、水景景观和庇护性景观等六个一级指标(准则层),每个一级指标又可以细分为若干二级指标,以完成定性指标的定量化分析。基于层次分析法(AHP)先分解后综合的基本工作思路,先将要分析的要素进行层次化、步骤化,构建形成多层次分析评价模型,最终确定各层级指标的重要程度(权重),或优先次序。AHP把一个复杂的问题表示为一个有序的递阶层次结构,并通过主管判断和科学计算给出备选方案的优劣顺序(或权重)。简而言之,层次分析法人如其名,首先要构建合理的层次,其次要分析层次内部各因素的优劣。层次分析法的使用流程:1) 根据需求对目标层进行分解,如适宜性可以分解为6个一级指标;2) 建立层次结构图,及判断矩阵;3) 计算权重系数(主要基于德尔菲法,或曰专家打分,对各指标要素的权重进行赋值);4) 进行一致性检验(在AHP软件中可自行设定),若一致性指标CR<0.1,则满足研究需要,进入下一环节。不满足时则需要对各指标权重重新赋值(重新进行第三步分析);5) 层次总排序,选出最优方案。如在评价购房影响要素时,可以细分为房价要素、区位要素、户型要素、口碑要素等一级指标,并分别对各一级要素进行深度开发,构建相应的二级评价指标以完成对一级指标的评价。1)建立层次结构模型将决策的目标(城市空间格局安全)、考虑的决策准则因素(空间结构安全、空间要素安全、空间环境安全)和决策对象按它们之间的相互关系分为最高层、中间层和最低层,绘出层次结构图(如下图,强迫症的患者有意见,在“雄安学术”公号文末留言啊~,获取宝贝啊)。2)构造判断矩阵在确定各层次各因素之间的权重时,如果只是定性的结果,则常常不容易被别人接受,因而Saaty等人提出:一致矩阵法,即:不把所有因素放在一起比较,而是两两相互比较。对比时采用相对尺度,以尽可能减少性质不同因素相互比较的困难,以提高准确度。由专家对同一层次内N个指标的相对重要性(两两因素之间)进行打分。相对重要性的比例标度取1-9之间。同时,对各同级指标的重要性评价时,存在三种标度范畴(如下图),根据研究需要自行选择。构建判断矩阵A(正交矩阵),用aij表示第i个因素相对于第j个因素的比较结果:3) 计算权重将矩阵A的各行向量进行几何平均(方根法),然后进行归一化,即得到各评价指标权重和特征向量W:4) 一致性检验判断矩阵的一致性检验,所谓一致性是指判断思维的逻辑一致性。如当甲比丙是强烈重要,而乙比丙是稍微重要时,显然甲一定比乙重要。这就是判断思维的逻辑一致性,否则判断就会有矛盾。计算最大特征根λmax:计算一致性指标CI(Consistency Index)、随机一致性指标RI(Random Index)和一致性比例CR(Consistency Ratio):一般情况下,当CR<0.1时,即认为矩阵具有满意的一致性,否则需要对判断矩阵进行调整。5)层次排序层次排序,可分为层次单排序和层次总排序。所谓层次单排序是指,对于上一层某因素而言,本层次各因素的重要性的排序。层次总排序,确定某层所有因素对于总目标相对重要性的排序权值过程,称为层次总排序。这一过程是从最高层到最底层依次进行的。对于最高层而言,其层次单排序的结果也就是总排序的结果。1)构建评价结构一位顾客决定要买一套新住宅,经过初步调查研究确定了三套候选的房子A、B、C,问题是如何在这三套房子里选自一套较为满意的房子呢? 下面给出有关的数据和资料:将影响购买新房的因素归纳为4个标准:· 房子的地理位置及交通;· 房子的居住环境;· 房子结构、布局与设施;· 房子的每平方米建筑面积地单价(模型如下)。2)邀请专家(20-30名)打分对同一层次内4个指标的相对重要性(两两因素之间)进行打分。经过专家的打分,每个标准相对的权重,即标准的特征向量如下表。3)用规范列平均法求权重 第一步:先求出两两比较矩阵每一列的总和。 第二步:把两两比较矩阵的每一元素除以其相应列的总和,所得商所组成的新的矩阵称之为标准两两比较矩阵。 第三步:计算两两比较矩阵的每一行的平均值,这些平均值就是各方案在地理位置及交通方面的权重。我们称最后求得的行平均值为房子选择问题中地理位置及交通方面的特征向量。三个方案在其它三个方面的特征向量。每个标准相对的权重,即标准的特征向量。通过两两矩阵比较,可求得标准的特征向量如下:地理位置及交通:0.398居住环境:0.218结构布局设施:0.085每平米单价:0.2994)两两比较一致性检验两两比较矩阵的元素是通过两个因素比较得到的,而在很多这样的比较中,往往可能得到一些不一致性的结论。例如,当因素i、j、k的重要性很接近的时候,在两两比较时,可能得出i比j重要,j比k重要,而k又比i重要等矛盾的结论,这在因素的数目多的时候更容易发生。 第一步:由被检验的两两比较矩阵乘以其特征向量,所得的向量称之为赋权和向量。 第二步:每个赋权和向量的分量分别除以对应的特征向量的分量。1.803 / 0.593 =3.0401.034 / 0.341 =3.0320.197 / 0.066 =2.985 第三步:计算出第二步结果中的平均值,记为λmax。λmax = (3.040+3.032+2.985)/ 3 = 3.019 第四步:计算一致性指标CI。CI = (λmax– n ) / (n - 1)CI = (3.019 – 3 ) / (3 – 1 ) = 0.010 第五步:计算一致性率CRCR = CI / RI,在这里,RI是自由度指标(修正值)。本例中可计算得CR = 0.01 / 0.58 = 0.017 < 0.1我们已经求出了四个标准的特征向量,以及四个在单一标准下的三个购房方案的特征向量,如表:5)最优方案求解方案 A:0.398*0.593+0.218*0.123+0.085*0.087+0.299*0.265=0.349方案 B(最优)0.398*0.341+0.218*0.320+0.085*0.274+0.299*0.655=0.425方案 C:0.398*0.066+0.218*0.557+0.085*0.639+0.299*0.080=0.226层次分析法优点:· 系统性的分析方法层次分析法把研究对象作为一个系统,按照分解、比较判断、综合的思维方式进行决策,成为继机理分析、统计分析之后发展起来的系统分析的重要工具。系统的思想在于不割断各个因素对结果的影响,而层次分析法中每一层的权重设置最后都会直接或间接影响到结果,而且在每个层次中的每个因素对结果的影响程度都是量化的,非常清晰明确。这种方法尤其可用于对无结构特性的系统评价以及多目标、多准则、多时期等的系统评价。· 简洁实用的决策方法这种方法既不单纯追求高深数学,又不片面地注重行为、逻辑、推理,而是把定性方法与定量方法有机地结合起来,使复杂的系统分解,能将人们的思维过程数学化、系统化,便于人们接受,且能把多目标、多准则又难以全部量化处理的决策问题化为多层次单目标问题,通过两两比较确定同一层次元素相对上一层次元素的数量关系后,最后进行简单的数学运算。计算简便,并且所得结果简单明确,容易为决策者了解和掌握。· 所需定量数据信息较少层次分析法主要是从评价者对评价问题的本质、要素的理解出发,比一般的定量方法更讲求定性的分析和判断。由于层次分析法是一种模拟人们决策过程的思维方式的一种方法,层次分析法把判断各要素的相对重要性的步骤留给了大脑,只保留人脑对要素的印象,化为简单的权重进行计算。这种思想能处理许多用传统的最优化技术无法着手的实际问题。层次分析法缺点:· 不能为决策提供新方层次分析法的作用是从备选方案中选择较优者。在应用层次分析法的时候,可能就会有这样一个情况,就是我们自身的创造能力不够,造成了我们尽管在我们想出来的众多方案里选了一个最好的出来,但其效果仍然不够企业所做出来的效果好。而对于大部分决策者来说,如果一种分析工具能替我分析出在我已知的方案里的最优者,然后指出已知方案的不足,又或者甚至再提出改进方案的话,这种分析工具才是比较完美的。但显然,层次分析法还没能做到这点。· 定量数据较少,定性成分多,不易令人信服在如今对科学的方法的评价中,一般都认为一门科学需要比较严格的数学论证和完善的定量方法。但现实世界的问题和人脑考虑问题的过程很多时候并不是能简单地用数字来说明一切的。层次分析法是一种带有模拟人脑的决策方式的方法,因此必然带有较多的定性色彩。· 指标过多时,数据统计量大,且权重难以确定当我们希望能解决较普遍的问题时,指标的选取数量很可能也就随之增加。指标的增加就意味着我们要构造层次更深、数量更多、规模更庞大的判断矩阵。那么我们就需要对许多的指标进行两两比较的工作。由于一般情况下我们对层次分析法的两两比较是用1至9来说明其相对重要性,如果有越来越多的指标,我们对每两个指标之间的重要程度的判断可能就出现困难了,甚至会对层次单排序和总排序的一致性产生影响,使一致性检验不能通过。不能通过,就需要调整,在指标数量多的时候比较难调整过来。· 特征值和特征向量的精确求法比较复杂在求判断矩阵的特征值和特征向量时,所用的方法和我们多元统计所用的方法是一样的。在二阶、三阶的时候,我们还比较容易处理,但随着指标的增加,阶数也随之增加,在计算上也变得越来越困难。不过幸运的是这个缺点比较好解决,我们有三种比较常用的近似计算方法。第一种就是和法,第二种是幂法,还有一种常用方法是根法(来自百度百科)。