研究方法作为知识生产的工具,其实跟背后的本体论是有很大的关系。我们完全可以不关注研究方法背后的本体论。很多人认为不需要关注,但是如果不关注的话,会导致研究方法的使用上会有很大的一个误差。那么定量研究方法和质性研究方法的区别何在?表面上看,一个是用数学,一个不用数学。也就是说是研究形式上的区别:一个采取量化的手法,一个不采取量化的方法,而是用文字表述的方法。但二者的区别,根本原因在于社会本体论预设的不同。量化方法本体论预设:社会世界类似于自然世界。所以社会科学可以模仿物理学,采取类似于自然科学的方法,数量化是必不可少的特征。科学性体现在实证性(或者经验性,注重可观察的证据),精密性(数学是特征)和揭示一般规律(从而可以做出预测)质性方法的本体论预设:社会世界不同于自然世界,因为社会是由人构成,人是有思想,情感,价值观念,信念等主观主义。人的行动是意义驱动的,而不是自然界中的刺激—反应行动。对意义的把握要通过理解,自然科学的客位立场无法达到对意义的理解。比如说对人的现象进行研究,就要理解人。比如说你要理解穆斯林的行为,你就要去读伊斯兰教的教义。如果不理解这个教义,怎么能理解它呢?我们很可能就是从一个非宗教徒的角度用自己的想法来裁剪它的行为,扭曲了它的行为,那这已经是违背现实了。意义可以定量的测量,但测量不是理解,因为测量可能是从客体立场来裁剪意义,甚至是研究者把自己的意义强加给研究对象。对意义的把握要从主体的立场出发。科学性首先体现在方法与社会科学研究对象的属性的匹配性。量化方法与社会现实的本体论属性不匹配。质性研究在实证上,与定量研究者一样。质性研究者也追求揭示规律,但社会规律与自然规律有不同的表现形式。科学性不在于严密性,严密性是我们追求的,但不仅仅在于严密性,它还在于研究方法和研究对象的本性的匹配性。
思想可以抽象,理论必须严谨完美量子力学(Quantum Mechanics),本就分为实用性研究与理论性研究,完全区分开来的研究。实用性研究:就是以观察、实验结果为依据,进行量子应用。比如:量子通讯、量子计算机研究工作。理论性研究:就是回答量子力学究竟是一个什么学问?与我们量子力学之前的物理学有何不同?我们量子力学的理论是什么?就如何规范到数学范畴。(数学表达式才能架设理论的桥梁。)而,概率论、哲学、不等式等都太过抽象。不等于与等于是两个完全不一样的答案:不等于告诉我们只是一种错误的结论(方向),等于才是量子力学真实的理论。贝尔不等式也只是在经典物理层面适用,量子力学本身就不属于经典物理理论。如何能以贝尔不等式来解释量子纠缠。只能确定量子力学本身不属于经典物理学理论。“定域性”理解范畴也是在经典物理里面,所谓隐变量也在经典物理学范畴。不在经典物理范畴,就没有“定域性”?也必须具有“定域性”,没有“定域性”就没有我们,为了一个“非定域性”把我们自己包含所有都给否定掉,只剩下了神学。否定量子力学层面上的“定域性”,量子力学就真进入神学领域。(就是理论缺失,大家都是一头雾水)实际应用可以根据结果反推使用,但理论研究绝对不是一个两个确定的实验结果、结论就可以归纳出量子力学之中的理论的。理论研究,以思想、哲学为出发。也可以先找寻数学表达式,用数学表达式再反推理论研究。爱因斯坦他们也只是没有找寻到一种理论或数学表达支撑,只是因为这个烦躁。(代表了一种物理学追求的完美。)可不是代表了不认可量子纠缠的结论。想一下,如果长久的不能在理论上支撑量子力学,我们的物理就真的走进了“上帝模式”似是而非的理论框架了。就当我们是原始人,开始追求使用火。(取暖也好、驱赶野兽也算、煮食熟食也算等)我们都是开始使用的火,慢慢知道了怎么去保存火,到最后怎么可以去创造火一样。就是我们可以创造火以后,我们对火的认知、对它形成的理论也没有完全形成。只是现代理论才能让我们明白燃烧的原理。说这个代表了,我们当前的量子力学,都处在一个观察、模仿阶段。理论呢?这与贝尔不等式无关、与我们的常识无关。只是因为我们还没有发现、观察、理解到。
定量研究其实没那么难,本文笔者通过对量化研究方法的一些最常见用例的介绍,以及对每个实例的成本和难度进行估计,来帮大家更好地去找我定量研究的方法。你是否需要有关产品用户体验的数字数据, 但却不确定应该如何做?许多从事用户体验及研究的专业人士倾向于定性方法论, 而这也这被广泛认为比定量 (量化) 研究更容易。但不得不承认,定性研究可能回避了较大的样本规模和量化相关的统计数据问题。而量化方法却是经验丰富的用户体验研究员的工具包中应当包含的重要组成部分。量化方法允许你:用数字为产品的可用性打上一个标签;数字有时比质量测试的结果更有说服力 (特别是当你试图说服像 CEO 这样的高管时);比较不同的设计 (例如, 产品的新版本与旧版本, 或你的产品与竞争对手的产品), 并确定你所观察的差异是否具有统计学意义, 而不是随机偶然;改进用户体验权衡决策。例如, 如果建议的设计改进预计会花费很大的成本来实现, 它值得做吗?如果你估计了更改将在一定程度上提高可用性,那么量化方法可以帮助你决定是否值得重新设计;将用户体验改进与组织目标和关键绩效指标联系起来 (从而显示你的投资回报并证明用户体验研究团队的价值)。定量研究,首要确定的是:到底需要哪种量化研究方法?在此,我们介绍一些目前最流行的量化研究类型:定量可用性测试 (基准测试)网络分析 (或 App Analytics)A/B 测试或多变量测试卡片分类树测试调查和问卷调查聚类定型数据可取性研究眼动测试每种方法都产生有价值的数量数据, 但这些技术在所收集的数据类型,以及所需的资源和工作量方面差别很大。本文列出了这些方法的最常见用例,并估计了每个实例的成本和难度。此外,应该知道,这些方法中都需要不同的最小样本量来确定统计意义。一、定量可用性测试(基准测试)用途:随时跟踪可用性、与竞争对手比较费用:中等收集难度:中等分析难度:中等方法类型:行为使用环境:基于任务虽然不经常使用,但定量可用性测试(有时称为可用性基准测试)很像定性可用性测试——用户被要求使用产品执行实际任务。两者之间的主要区别在于,可用性测试优先考虑观察,例如识别可用性问题。相比之下,量化可用性测试侧重于收集任务或成功时间等指标。一旦你收集了具有相对较大样本量(大约 35 个参与者或更多)的指标,你就可以使用它们跟踪产品的可用性随时间推移的进度,或者将其与竞争对手产品的可用性进行比较。你选择的可用性测试类型(面对面,远程主持或远程未经调度)将影响成本,由于定量和定性可用性研究的目标不同,测试的结构和使用的任务也需要不同。二、网络分析(或 App Analytics)用途:检测或优先排序问题、监控性能。成本:低收集难度:低分析难度:高方法类型:行为使用环境:live分析数据描述了人们对你的实时产品做了什么:他们去哪里、他们点击了什么、他们使用了什么功能、他们来自哪里,以及他们决定离开网站或应用程序的页面。此信息可以支持各种用户体验活动。特别是它可以帮助你监控产品中各种内容:UI 或功能的性能,并确定哪些是真的不起作用。三、A / B 测试或多变量测试用途:比较两个设计选项成本:低收集困难:低分析困难:低方法类型:行为使用情况:live虽然你可以使用分析指标来监控产品的性能,但你也可以创建实验来检测不同的 UI 设计如何通过 A / B 测试或多变量测试来更改这些指标。在 A / B 测试中,团队创建同一 UI 的两个不同的实时版本,然后将每个版本显示给不同的用户,以查看哪个版本的性能最佳。例如,你可以创建相同号召性用语按钮标签的两个版本:“获取定价”与“了解更多信息”,然后,你可以跟踪按钮在两个版本中收到的点击次数。多变量测试类似,但涉及一次测试多个设计元素(例如,测试可能涉及不同的按钮标签,排版和页面上的位置。)这两个基于分析的实验都非常适合决定同一设计的不同变体,并且可以结束团队关于哪个版本最佳的争议,但这种方法的一个主要缺点是它经常被滥用。四、卡片分类用途:确定信息架构标签和结构成本:低收集难度:低分析难度:中等方法类型:态度(人们怎么说)使用环境:不使用产品在卡片分类研究中,参与者被给予内容项目(有时字面上写在索引卡片上),并要求以对他们有意义的方式对这些项目进行分组和标记。该测试既可以亲自进行,也可以使用实体卡进行,也可以使用卡片分类平台进行远程测试。这种方法为你提供了进入用户信息空间的心理模型的机会。他们使用什么术语?他们如何在逻辑上将这些概念组合在一起?对创建类似分组的参与者的百分比进行定量分析可以帮助确定大多数用户可以理解哪种分类方法。五、树测试用途:评估信息架构层次结构成本:低收集难度:低分析难度:中等方法类型:行为使用环境:基于任务,不使用产品在树测试中,参与者尝试仅使用你站点的类别结构来完成任务。它本质上是一种评估你的信息架构的方法,通过将其与 UI 的所有其他方面隔离开来。假设你的产品是宠物用品网站,这是你的顶级层次结构,你可能会要求参与者完成一项任务——找到狗项圈。树测试结果的定量分析将显示人们是否能够在信息层次结构中找到该项目的正确路径,以及有多少参与者选择了错误的类别。此方法可用于识别 IA 结构,标签和展示位置是否符合人们的期望。六、调查和问卷调查用途:收集有关您的用户他们的态度和行为的信息成本:低收集难度:低分析难度:低方法类型:态度使用环境:任何调查是一种灵活的用户研究工具。你可以在各种环境中管理它们:在实时网站、电子邮件或可用性测试之后进行短暂拦截调查等。它们可以产生定量和定性数据的组合——评级,多项选择题中每个选项的答案比例,以及开放式答案。你甚至可以将对调查的定性响应转换为数值数据。你可以创建自己的自定义调查,也可以使用许多已建立的问卷中的一个(例如,系统可用性量表或净推荐值得分)。调查问卷的一个优点是,你通常可以将结果与行业或竞争对手的分数进行比较,以了解你的工作情况。即使你创建自己的自定义调查问卷,也仍然可以跟踪你的平均分数以监控产品改进。七、聚类定性数据用途:识别定性数据中的重要主题成本:低收集难度:中等分析难度:中等方法类型:态度(人们怎么说)使用环境:任何这种技术不是数据收集方法,而是更多的定性数据分析方法。它涉及根据共同主题对来自定性研究(例如日记研究、调查、焦点小组或访谈)的观察进行分组。如果你有大量观察结果,则可以计算提及特定主题时的实例数。例如,假设你进行日记研究,要求参与者每次在日常生活中使用你的产品并进行一周报告,目的是了解他们在何种环境中使用你的产品。此方法可以识别特定主题或情况的普遍性或频率,例如,用户投诉的频率或 UI 问题。这种方法是从大量定性信息中挖掘数值数据的好方法,但它可能非常耗时。八、可取性研究用途:识别与您的产品或品牌相关的属性。成本:低收集难度:低分析难度:低方法类型:态度使用环境:基于任务定量可取性研究试图量化和衡量产品的某些质量,例如美学吸引力、品牌强度、语调。这些研究可以根据你的研究问题进行定制,但通常包括首先将参与者暴露给你的产品(通过向他们展示静止图像或要求他们使用实时产品或原型)。然后,你将要求他们通过从描述性词汇列表中选择选项来描述设计。随着样本量越来越多,一些趋势则开始出现。 例如:你可能有 84% 的受访者将设计描述为“新鲜”。九、眼动测试使用:确定哪些 UI 元素分散注意力,可查找或可发现。成本:高收集难度:高分析难度:高方法类型:行为使用环境:基于任务眼球跟踪研究需要特殊的设备,来跟踪用户在界面上移动时的眼睛。 当许多参与者(30 个或更多)在同一界面上执行相同的任务时,有意义的趋势开始出现,你可以通过一些可靠性告诉页面的哪些元素会吸引人们的注意力。眼动测试可以帮助你确定需要强调或强调哪些界面和内容元素,以使用户能够实现其目标。运行眼球跟踪研究的一个主要障碍是高度专业化、极其昂贵且有些不稳定的设备以及需要大量的培训才能使用。在尝试确定使用哪种定量方法引导你的研究问题时,你需要了解什么?例如:我们的产品可用性如何随时间而变化?与竞争对手相比,我们的表现如何?我们哪个问题影响最大?我们应该如何优先排序?对于这些类型的问题你可能希望使用定量可用性测试、网站分析或调查。当你想要回答更具体的问题时,或许其他方法更佳。 例如:我们应该如何修复我们的全球导航类别?我们的大多数用户对我们的视觉设计有何看法?我们应该在仪表板中使用这两种设计方案中的哪一种?对于这些研究问题,你可能希望使用 A / B 测试、卡片分类、树木测试、编码定性评论,可取性研究或眼球跟踪。但是,这些建议中有一些灰色地带。 例如:出于安全或技术原因,A / B 测试可能不是贵公司的选项。如果是这种情况,你可以进行面对面的量化可用性研究来比较两个原型。但是,这不是定量可用性测试的典型用法,所以没有在这里讨论它。在研究问题之后,选择方法的第二个最有影响力的因素是成本。这些方法的成本会有很大差异,具体取决于你实施研究的方式。你使用的工具、你拥有的参与者数量以及研究人员花费的时间都将影响最终成本。低预算团队将依赖数字方法——远程可用性测试、在线卡片分类平台、如 OptimalSort、A / B 测试以及 Web 或应用程序分析。根据经验,现场方法(例如:面对面的可用性测试,面对面的卡片种类)往往更昂贵,因为它们需要更多消耗研究人员更多的时间。此外,他们可能需要旅行和设备租赁。眼动测试是这里列出的最昂贵的方法,应该只有具有大预算和研究问题的团队才能使用它。一旦选择了方法,就要了解它,并确保你获得有用的成果。警告:不能只收集指标并开始做出决策而不进行任何统计分析。仅收集来自 5 个用户的评级规模响应,取平均值并继续前进是不够的。对于此处讨论的每种方法,都建议最小样本量以获得可靠的数据并确定统计显着性。如果你不这样做,你无法保证你的发现不只是侥幸。无论你选择哪种方法,一定要考虑研究相关统计概念所需的时间。我保证,定量研究不像它看起来那么难,对于你的定量数据来说非常值得。作者:研如玉,神策数据·用户行为洞察研究院 公众号(ID:SDResearch)本文作者:Kate Moran文章来源:Nielsen Norman Group本文由 @研如玉 翻译发布于人人都是产品经理,未经许可,禁止转载题图来自Unsplash,基于CC0协议
记者11月20日从中国科学技术大学获悉,该校郭光灿院士团队日前在量子测量研究中取得重要进展。该团队李传锋、项国勇研究组与德国、意大利、瑞士理论物理学者合作,在光子系统中首次实验使用纠缠集体测量,将量子比特热力学系统中投影测量反作用降至最小。相关成果于11月16日发表在《物理评论快报》上。对演化的相干量子系统上的一个可观测量进行两次投影测量时,第一次测量通常会改变第二次测量的统计信息,这就是所谓的测量反作用。这一反作用的根源在于量子投影测量会完全破坏量子系统的量子叠加性。国外科学家研究指出,在不违背量子热力学的基本涨落理论的前提下,无法设计出一个测量方案完全避免反作用,但可以通过集体测量的方式来减少反作用的程度。基于以上的理论结果,中科大团队于2019年首次在实验上利用量子集体测量成功观测到测量反作用力的减小。然而,中科大团队先前工作所使用的集体测量,均为可分离量子集体测量。是否存在纠缠的集体测量超越已经实现的反作用减少程度?中科大团队就两比特情形下,对最优化的集体测量形式进行了深入的研究,他们发现在理论上存在一个最优的纠缠集体测量,能在两比特系统中使反作用达到最小,并且在强相干演化的情形下,其反作用可被压制为0。他们利用单光子的多个自由度结合光量子行走的实验技术,设计并以高达0.985的保真度实现了该纠缠集体测量,成功地在实验上把投影测量反作用降至最小。该工作对集体测量以及量子热力学的研究具有重要意义。审稿人认为,这项工作是该领域的一项重大进展,是新理论和完美实验实现的成功结合。
内容提要:社会学质性研究方法和量化分析方法分别源于两种不同传统,演变为方法论的分离和对立。大数据的兴起或许会给解决这种“两张皮”的现状带来机遇。从质性研究方法、传统量化分析方法到大数据方法,研究工具的变化某种程度上见证了研究对象——社会本体的变迁。大数据研究促使质性研究和量化研究走向融合,社会学的科学性与人文性也获得了交汇的途径,大数据方法是对既有研究方法的超越,也蕴含着社会学想象力的回归。关键词:质性研究/量化分析/大数据/方法论/社会学想象力/作者简介:石英,陕西省社会科学院研究员,西安710065社会学研究一向有定量、质性之争,这两种源于不同范式传统的方法之争,近些年似乎有分出高下的意味来。定量占据主流及有意识地抢占主流位置,质性研究方法在各方面似乎都显现出弱势。①如何看待不同的研究方法取向,尤其是能否理清社会学质性研究方法、传统量化分析方法和正在兴起的大数据方法之间的关系纠葛,对于未来研究当有借鉴。一、方法之争及其范式起源讨论不同方法的差异,有必要追溯学科发展的历史起源及其传统。社会学和人类学可以算是最相近的学科,就其早期形成的各自研究对象和领域而言,社会学研究工业社会、现代社会,人类学研究传统社会、游牧社会、“土著”社会。西方社会学的诞生与现代化、工业化的进展息息相关,社会学的创始人孔德一开始就将社会学置于以数学为基础的自然科学大厦之最顶层,并将其命名为“社会物理学”(sociophysics),确立了实证主义、科学主义的方法导向。②而西方人类学的兴起深受达尔文进化论的影响,与当时航海探险、殖民扩张的热潮分不开。早期人类学者主要由航海家、旅行家、传教士、商人等构成,以“他者”身份对“远方的”原始部落、少数民族的异质文化开展考察,逐渐形成了人文主义、自然主义的方法特色。科学主义范式的社会学自诞生起就以自然科学为样板,借鉴和遵循近代自然科学认知原理和方法论原则,逐步形成了一整套成熟的量化分析研究方法。最具代表性的是建立在统计学意义上的问卷调查研究,包括理论假设、调查设计、资料收集、量表测量、信度效度检验、统计分析等环节,一般通过人为控制和区分自变量、因变量,运用回归分析等统计学方法,确定相关性,判断因果关系,建构数学模型。这一过程中,重要的步骤之一是概念的操作化,也就是根据研究需要把概念变为一套可测量的、能够用数字表述的信息。譬如用五分制量表测量人们的满意度;将幸福感分解为主观指标和客观指标进行测量,以建构“幸福指数”。随着大数据时代的到来,为区分起见,也有人把这种大多来源于抽样调查、访谈、行政记录和实验设计等传统统计方法的数据称为“小数据”,把传统的量化分析方法称为“小数据”方法。一般来说“小数据”体积小、易于快速理解、数据的读取分析和处理都相对简单。③而大数据指“无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合”。数据科学家将大数据的特点总结为4个V:Volume、Variety、Velocity、Value,即体量浩大、模态繁多、生成快速、价值巨大但密度很低。具体到量级,大数据的量级已从GB到TB再到PB级,甚至开始以EB和ZB来计数。④质性研究方法包括参与观察、个案研究、深度访谈、焦点小组法、民族志(人种志)方法、扎根理论、叙事研究、行动研究等一整套方法体系。质性研究方法从起源上可以追溯到15、16世纪的人类学研究,但作为一种系统的方法体系得到归纳总结,是直到20世纪70年代的事情。到20世纪初,社会工作领域兴起的个案小组实务中,质性研究方法的应用被拓展到心理学、教育学领域;20世纪中叶,西方社会科学领域开始涌现各种“后现代”理论和思潮。社会学理论也从逻辑实证主义转向阐释和批判主义,社会学领域出现对量化研究的“反抗”思潮,这些思潮也影响、促成了质性研究方法的成熟。虽然量化研究方法源自西方的科学主义范式,同样也是西方思潮产物的质性研究方法却可以在古老的东方思维中找到哲学基础。中国古代的自然哲学是以“天人合一”的整体观和“阴阳对立统一”的辩证观为基点的。以中华文化为代表的东方文化思维方式着眼整体思维,注重辩证思维,擅长关联思维,习惯类比思维,突出直觉思维。20世纪初社会学、人类学传入中国,中国最早的社会学家多从事人类学、民族学研究,如吴文藻、潘光旦等,早期社会学研究主要使用的方法之一也是基于人类学田野工作的质性研究方法。到1979年中国社会学恢复重建,在研究方法体系上则主要引进了美国的社会学量化分析方法,科学主义范式在中国社会学研究领域成为绝对主流。20世纪90年代中期,带有西方“后现代”色彩的质性研究方法被介绍到中国,某种程度上与中国传统文化思维方式内在契合,也唤起了中国早期社会学所形成的人文主义传统。随着我国社会学学科建设由恢复重建伊始的“拿来主义”到本土化中国化的探索越来越深入,源自不同传统的质性研究方法和量化分析方法的分离和对立逐渐显现且愈演愈烈。学界对两种方法孰优孰劣以及“代表性”、“科学性”等问题莫衷一是。大数据时代的到来,为社会学研究打开了一扇新的窗户,同时也为原本的方法之争更添纷扰。⑤有观点认为,大数据可能引发一场社会科学革命,⑥另有观点则认为,大数据面临着诸多挑战。⑦人们担忧,大数据的出现有可能把质性方法和量化方法“两张皮”进一步撕裂为“三张皮”。在此背景下,也有学者认为“方法主义是今日学界危机的根源”,呼吁“破除方法主义迷信”。⑧应当看到,学术论争、学派林立恰好是学科繁荣发展的表现,是学科走向成熟过程的必然。方法论争源自“与生俱来”的不同研究传统,面向未来也需要进一步探究其发展趋势。二、工具演进、机器依赖及对象变迁从时间序列看,人类学方法的形成要稍早于社会学。质性研究方法虽然直到20世纪70年代才形成普遍认同的方法体系,但其实际的社会学应用却要早于传统量化分析方法。大数据方法的出现,则是直到今天才刚刚开始。因此按照出现时间的早晚,可以粗略地把社会学研究方法的发展脉络归纳为“质性研究方法—传统量化分析方法—大数据方法”。可以看到,这是一个由“纯人工”到“机器”参与介入研究越来越多的过程。具有鲜明人类学田野色彩的质性研究方法,强调参与、体验、感悟、在场、情景,设身处地、将心比心,依赖于直觉、联想、类比、领悟。要求置身于现实的社会群体生活空间,研究人们的社会活动及社会关系。其研究特点决定了质性研究方法主要是基于人工的个体劳动,很大程度上依靠人脑的直觉。即使发展到现在,口述史、影像志、深度访谈等引入了现代录音录像设备、计算机编辑处理工具,人的“参与”、“在场”仍然是质性方法的基本要求和灵魂。传统量化分析方法一开始也是“全人工”收集人们特定的社会活动及社会关系的数据,并进行分析和处理的过程。早期问卷调查基本是纯手工操作,随着计算机和信息技术的发展,机器编码识别、统计分析软件把过去复杂的统计计算变得轻而易举,传统量化研究逐渐由以人工为主过渡到机器参与成分越来越多。但是,现代社会大型调查研究即使计算机全程参与,也必须以研究者主观设计、人为主观赋值编码为前提。也就是说,传统量化分析方法始终是以人工为主,机器处理作为辅助手段的研究方法。大数据方法则依托于人类“数字化生存”的时代背景。正是云计算、云存储、物联网、二维码、传感器、GPS等互联网技术的广泛应用,微信微博新媒体的大规模使用,以及手机网络支付手段的更加便捷化,人类社会的各种社交网络、人际互动、经济活动都被客观记录下来,留下“数字痕迹”,形成海量的大数据。正是由于数据量大到无法由传统软硬件处理,且数据具有多样化的结构特征,所以大数据的获取不再是通过人工采集得来,而是由“机器爬梳”而来。大数据方法主要是通过机器学习,运用适当的算法,对数据自动进行学习,识别事物间的关联性和规律。当然,数据爬梳、分析的背后也有“人”,但这里的人已由台前退居幕后,机器承担了大量繁重的工作。从质性研究到传统量化分析方法再到大数据方法,工具的变化某种程度上见证了研究对象——社会本体的变迁。从微观层级的个体行动、人际互动,到宏大的社会系统或结构等,在不同的社会形态下有着不同的特征。质性研究源自“田野”的方法无疑带有浓厚的传统社会印记;传统量化分析对应着的是现代社会,如果说这两种方法主要研究现实社会,大数据方法则显然是互联网时代信息社会的产物。在网络愈益发达的今天,人们在网络上的行为与现实行为具有越来越多的同一性,网络上的个人、群体间的互动与行为,以及网络上的组织结构都已经影响到现实社会,对人们的生产方式、生活方式、行为方式的影响之大前所未有。譬如手机及其他即时交流工具成为个人与社会交流交往的基本中介桥梁,随之带来了社会关系的变化;人工智能改变了人类生产方式、生活方式,引发了职业分化的加速;物联网、众筹经济正在促生新的社会价值观;等等。这些都意味着传统的社会关系、社会结构已经发生且仍在发生着深刻的变化。社会本体发生了改变,对于这些关系、行为、结构变化所形成的大数据进行研究,就具有现实重要性。从这一角度而言,大数据研究对于社会学的本体论意义大于方法论意义。来源: 社科院网站
这里是与可杂谈,喜欢可以点上方蓝色背景按钮加关注哦!封城的第52天,天气回暖,楼下的声音多了起来。今天分享一下调查研究要用到的方法。方法是为了达到某种目的(解决某个问题)而采取的测量手段,如购物网站、点评平台用到的星级评定。以这么一个问题为例,玩暴力游戏会让人变得暴力吗?先用实验的方法,在实验组中,实验人员玩双人对战暴力游戏,对照组中,实验人员玩双人非暴力游戏,赢家可以选择对输家进行惩罚,结果表明,玩暴力游戏的一组选择的惩罚力度更强。再用最不暴力的游戏测试,俄罗斯方块和巴斯特,结果显示,挫败感会让人们产生暴力情绪。用文本的方法,媒体中对暴力游戏和现实暴力行为的所有报道的梳理,但其有一种偏向性,尽管努力靠近客观的态度。用二手数据的方法,得出,同时期暴力游戏销量增加,青少年的犯罪率显著降低。用访谈或问卷的方法,有深度访谈、焦点小组访谈,调查问卷这么几种形式。还可以使用观察的方法,看暴力游戏和暴力行为是否有相关关系。研究问题在制定计划、收集、分析、综合、得出结论的过程中,收集和分析就是调查方法。定性的调查方法可以有一个总体和大概的判断,揭示事物的本质,适合于小规模、深入细致、长期的调查。定性多用于创造想法,以文字形式报告,问题是开放式的探索,缺点是广而不深。定量的调查方法选取一定数量有代表性的样本,用数学工具分析,计算机录入、整理,多以数字形式呈现。定量多用于验证想法,问题是封闭式的选择,优点是代表性强。定性是定量的基调,定量是定性的准确化。定量中有自变量与因变量,自变量的变化要优先于因变量,因变量的变化由自变量引起,没有其他原因。相关变量无法确定谁影响谁,比如媒介偏好和风险感知。共变变量是两者同时变化,不是因为对方的影响,而是同时受第三方的影响,如春晚期间抖音和快手的注册用户明显增加是因为春晚中的红包活动。测量结果的衡量标准有信度,即使用相同调查方法重复测量同一个对象得到相同研究结果的可能性,比如体重用目测和体重秤测量的信度是不一样的。效度,即有效性,测量工具或手段能够准确测出所需测量事物的程度,如菜市场里的公平秤,肩负着准确测量的使命。在调查与研究方法中,属于定量的有问卷调查、实验、内容、文本、话语分析,属于定性的有观察法(民族志)、深度访谈、焦点小组访谈。有任何想法,欢迎告诉我哦!来评论区留言吧!期待听到你们的看法与建议!喜欢可以关注,收藏,转发哦!你们的支持是最大的鼓励!比心!
近日,南京大学现代工程与应用科学学院张利剑教授课题组与美国俄勒冈大学Brian J. Smith教授、英国帝国理工学院Myungshik S. Kim教授等合作,在经典/量子系统互文性研究方面取得重要进展,首次从测量与事件的角度对互文性验证中的经典与量子表现进行了系统比较,相关成果“Experimental Test of Contextuality in Quantum and Classical Systems”发表于 《物理评论快报》 (Physical Review Letters 122, 080401 (2019), DOI: 10.1103/PhysRevLett.122.080401)。量子理论一直以来以其违反日常直觉的非经典表现的预测而显著区分于经典物理描述。量子力学对测量的几率解释认为可观测量并不拥有预先确定的测量结果,这一诠释催生了诸多著名的思想实验,如薛定谔的猫、EPR佯谬等,其反映出的几率特性是量子物理区别于经典物理最为重要的特性之一。互文性(Contextuality),即对物理系统可观测量的测量结果会依赖于测量的上下文环境(Context),这就好比一个问题的答案并非是确定的,而是与上下文中一起问及的其它问题有关。互文性是量子物理概率特性的一种体现,也是对量子非定域性(Nonlocality)的推广,因此量子互文性被认为是物理非经典性的标志之一,同时也被证明是量子计算、量子通信等应用的重要资源之一。然而,近期关于经典纠缠和经典互文性的研究使得量子和经典行为的边界变得模糊,对于经典物理系统是否能够演示包括互文性在内的量子、类量子效应,仍处在争议之中。特别地,互文性等特性的物理内涵及其与物理系统非经典性之间的关系,仍是一个尚未清晰的问题。图1 互文性验证的基本框架图示。研究团队结合理论分析与实验验证,从“事件”和“测量”的角度解答了这一问题。研究人员在实验上首次通过完全相同的测量装置实现经典和量子系统的互文性验证,从而为量子和经典行为的对比提供了统一的标准。通过线性光学系统构建的实验装置,分别对光场的单个量子化单元——单光子态,和被认为具有经典表现的相干光场——相干态,验证一种基本的非互文不等式——KCBS不等式的破坏程度。同时,研究人员引入对测量事件(measurement event, 即判断一次实验成功的条件)的不同定义,发现如何理解和定义探测环节是影响互文性验证结果的关键。对于单光子态,采用不同的事件定义均观察到明显的不等式破坏;而对于相干态,是否观测到不等式破坏、以及不等式的破坏程度,将会严重依赖于事件定义的选取。在以入射态事件为标准的完整统计下,相干光场在线性光学系统测量中并没有观测到KCBS不等式的破坏。这一结果理清了经典和量子系统在此类关联验证中的不同表现,并重新确立了互文性可以作为衡量非经典性的标准。图2 (a) 经典相干光场(Coherent light)和侦听型量子光源产生的单光子态(HSPS)在不同测量事件定义(E1,E2,E3)下的KCBS不等式验证结果。(b) 对应后选择概率结果。根据对实验结果的分析,研究团队进一步建立了互文性验证中的非经典行为和光场非经典性之间的联系,说明了在此类测量方式下,不等式的破坏程度与光场的P函数以及光子统计分布相关。而“事件定义”可以等效地理解为在测量端“过滤”出了光场的非经典分量,因而经典系统在通过测量事件的选择来模拟同样的量子行为时将会消耗更多资源。这一结果突出了事件和测量在定义量子与经典行为中的关键作用,为经典系统模拟量子行为的资源消耗问题给出了新的理解。南京大学现代工程与应用科学学院博士研究生张傲男为该论文第一作者,本研究得到我校物理学院张涵教授和帝国理工学院Myungshik S. Kim教授的大力支持和参与,张利剑教授和Brian J. Smith教授为论文的共同通讯作者,南京大学为论文第一单位。同时感谢罗彻斯特大学钱晓锋博士、德国Paderborn大学Jan Sperling博士、英国帝国理工学院Ian A. Walmsley教授和南京大学研究生徐娅的帮助。该研究受到国家重点研发计划(2017YFA0303703)、国家自然科学基金、南京大学卓越计划等项目资助,以及人工微结构科学与技术协同创新中心、固体微结构物理国家重点实验室等平台的大力支持。
用户调研得来的数据该如何处理?笔者在本文给出了敏捷量化分析方法,可供同学们参考并交流。上一篇文章讲了B端用户调研的一些灵活方法,当收集到用户调研的数据之后,接下来就是做问题的整理、分析和优化了。实际工作中,用户调研阶段可能会已经花费了较长的时间,出于对时间成本、工作进度、问题时效性等多方面的考虑,总是希望能尽快的输出一个用户调研数据结果,给产品的迭代优化提出改进方向和计划。本问将会讲一种简单迅速的处理用户调研问题优先级的量化方法。一、用户调研数据分析思路数据收集整理→问题优先级排序→解决方案设计→解决方案的优先级排序二、步骤详细说明第一步:数据收集整理关于用户调研的数据收集、整理,每个企业、团队、产品经理等都有自己的记录分析的方法和规范体系,为了方便最后的敏捷量化分析,数据的收集整理请注意以下几点:团队内建立一个问题识别的规范体系,更加快捷地识别问题的严重性;标注出问题发生在哪里,如屏幕、模块、用户界面组件、流程等;清楚用户反馈问题时,正在参与的具体任务;一个简洁的问题描述。《量化用户体验》的参考示例表格:“1”代表此用户出现此问题,“0”代表没出现。第二步:问题优先级排序先来说一下,问题严重性评分的几个影响因素:任务的关键性:任务的未完成对业务及用户产生的影响;问题发生频率:在不同的参与者中这个问题发生了多少次;问题的影响:对于用户顺利完成任务的影响程度。具体优先级分析步骤:1)给测试中的每个任务设立关键性评分K。根据任务对于业务或用户的重要性来设置分值,可以结合实际工作情况,合理安排分支区间。我们实际工作中按5分制,即1、2、3、4、5。2)给任务中出现的每个问题,设立影响力评分I。参考标准一:5分:该问题阻碍了用户完成任务(障碍)3分:该问题导致用户产生挫败感或者延误任务的完成时间(严重)2分:对于完成任务的行为表现产生较小的影响(轻微)1分:参与者提出的建议(建议)参考标准二:5分:影响任务完成的行为3分:导致用户“偏离航线”的行为2分:用户表达出来的挫败感1分:用户说自己完成任务但实际未完成3)计算问题发生频率F=问题反馈人数/用户总人数。4)计算问题综合严重性评分S=关键性评分K*影响力分值I*发生频率F,并按评分S进行由大到小排序。对前面的表格进行优化后,示例如下(仅以两个用户示例):模板下载详见文末,计算过程已在Excel加入公式自动实现计算操作(包括根据添加用户数量自动计算F,根据F自动计算S=K*I*F)。第三步:解决方案设计注意:有时解决方案十分明确,或者只有1~3种解决方案,可以通过综合考虑业务逻辑、交互体验、研发成本等方面问题,就可以确定解决方案,而不需要精确的数据化分析。但是当问题没有那么明显或者存在多种解决方案时,为了降低做出错误设计的风险,可以设计多种备选方案,分析选取最佳方案。对于每个问题,需要准备大量的解决方案(注意与开发、设计、需求、业务等成员合作讨论)。重新整理解决方案,确保描述具体详细。标记出方案可能解决的其他问题:在实践中,一个好的方案可以解决多个问题,好的解决方案是通用的。第四步:解决方案的优先级排序计算效力值E=解决问题1关键性评分*自定义加权数+解决问题2关键性评分*自定义加权数+…量化解决方案复杂度C(团队评估出的每个解决方案的复杂度)计算投资回报率(RIO)=效力值/复杂度(E/C)三、视觉工具(便利贴、白板等)——分析方法作为设计师或者产品经理,大家更喜欢团队人员,在一个会议室,使用便利贴或者白板来工作,这样分析更加方便、有趣、直观,也便于团队内部之间的合作。如下图:四、分析方法选择视觉工具分析快速随性,可以促进团队之间的协作,但也可能降低数据的准确性。敏捷量化的分析方法,数据直观,更方便整理问题排序。所以,要根据实际情况,选择最符合自己产品特点、用户调研方法、用户量和调研目标的方法。五、注意事项对于优先级的理解需要注意的是,根据上述方法得到的问题优先级排列是用研人员基于用户的测试而给出的参考结果,结果也可能会因为样本选择、统计方法等因素而出现误差。所以,这个优先级顺序并不是产品开发的实际优先级顺序。所以,用研应该和公司相关业务、运营、开发等成员,一起从用户的角度来理解这些问题的重要程度,再由相关人员决定实际的优先级排次序。使用的局限性在优先级阶段我们只关注了可用性问题,用户在测试过程中表现出来的态度以及行为并未涉及到。可以选择分开记录这类数据,使用它来补充和平衡测试结果。但是,我们在实际工作中,远程测试居多,也可以通过用户语气、停顿时间等做记录。在可用性测试中,当用户提到产品的某个或某些优点时,我们同样需要记下来,并在事后的报告中提及,特别是一些被多次提及的优点。有利于可用性测试等用户研究后续的合作、沟通;重视用户提及多的优点,为后续迭代做参考。六、最后陈述定性研究数据的分析还有许多种方法,本次只是分享了一种比较敏捷的量化分析方法,希望对大家的工作有帮助,更期待大家“批阅”后多提意见!模板下载链接:提取码:8ziz本文由 @Ace-老糊 原创发布于人人都是产品经理,未经作者许可,禁止转载。题图来自Unsplash,基于CC0协议。
雷锋网 AI 科技评论按:本文为 BIGSCity 的知乎专栏内容,作者王小贱。北航智慧城市兴趣组 BIGSCITY是隶属于北京航空航天大学计算机学院的一个学术研究小组,小组致力于研究机器学习与数据挖掘在城市科学、社会科学等领域的交叉应用技术。AI 科技评论获得 BIGSCity 授权转载,敬请期待更多后续内容。非常开心本文成为 BIGSCity 兴趣组的第一篇投稿,《深度学习的可解释性研究》系列预计包含 3-4 篇内容,用尽可能浅显的语言带领大家了解可解释性的概念与方法以及关于深度学习可解释性工作的研究成果,不定期更新内容(欢迎催更)。可解释性是什么?广义上的可解释性指在我们需要了解或解决一件事情的时候,我们可以获得我们所需要的足够的可以理解的信息。比如我们在调试 bug 的时候,需要通过变量审查和日志信息定位到问题出在哪里。比如在科学研究中面临一个新问题的研究时,我们需要查阅一些资料来了解这个新问题的基本概念和研究现状,以获得对研究方向的正确认识。反过来理解,如果在一些情境中我们无法得到相应的足够的信息,那么这些事情对我们来说都是不可解释的。比如刘慈欣的短篇《朝闻道》中霍金提出的「宇宙的目的是什么」这个问题一下子把无所不知的排险者卡住了,因为再高等的文明都没办法理解和掌握造物主创造宇宙时的全部信息,这些终极问题对我们来说永远都是不可解释的。而具体到机器学习领域来说,以最用户友好的决策树模型为例,模型每作出一个决策都会通过一个决策序列来向我们展示模型的决策依据:比如男性&未婚&博士&秃头的条件对应「不感兴趣」这个决策,而且决策树模型自带的基于信息理论的筛选变量标准也有助于帮助我们理解在模型决策产生的过程中哪些变量起到了显著的作用。所以在一定程度上,我们认为决策树模型是一个具有比较好的可解释性的模型,在以后的介绍中我们也会讲到,以决策树为代表的规则模型在可解释性研究方面起到了非常关键的作用。再以用户最不友好的多层神经网络模型为例,模型产生决策的依据是什么呢?大概是以比如 1/(e^-(2*1/(e^(-(2*x+y))+1) + 3*1/(e^(-(8*x+5*y))+1))+1) 是否大于 0.5 为标准(这已经是最简单的模型结构了),这一连串的非线性函数的叠加公式让人难以直接理解神经网络的「脑回路」,所以深度神经网络习惯性被大家认为是黑箱模型。17 年 ICML 的 Tutorial 中给出的一个关于可解释性的定义是:Interpretation is the process of giving explanations to Human.总结一下就是「说人话」,「说人话」,「说人话」,不以人类可以理解的方式给出的解释都叫耍流氓,记住这三个字,你就差不多把握了可解释性的精髓所在。我们为什么需要可解释性?广义上来说我们对可解释性的需求主要来源于对问题和任务了解得还不够充分。具体到深度学习/机器学习领域,就像我们上文提到的多层神经网络存在的问题,尽管高度的非线性赋予了多层神经网络极高的模型表示能力,配合一些堪称现代炼丹术的调参技术可以在很多问题上达到非常喜人的表现,大家如果经常关注 AI 的头条新闻,那些机器学习和神经网络不可思议的最新突破甚至经常会让人产生 AI 马上要取代人类的恐惧和幻觉。但正如近日贝叶斯网络的创始人 Pearl 所指出的,「几乎所有的深度学习突破性的本质上来说都只是些曲线拟合罢了」,他认为今天人工智能领域的技术水平只不过是上一代机器已有功能的增强版。虽然我们造出了准确度极高的机器,但最后只能得到一堆看上去毫无意义的模型参数和拟合度非常高的判定结果,但实际上模型本身也意味着知识,我们希望知道模型究竟从数据中学到了哪些知识(以人类可以理解的方式表达的)从而产生了最终的决策。从中是不是可以帮助我们发现一些潜在的关联,比如我想基于深度学习模型开发一个帮助医生判定病人风险的应用,除了最终的判定结果之外,我可能还需要了解模型产生这样的判定是基于病人哪些因素的考虑。如果一个模型完全不可解释,那么在很多领域的应用就会因为没办法给出更多可靠的信息而受到限制。这也是为什么在深度学习准确率这么高的情况下,仍然有一大部分人倾向于应用可解释性高的传统统计学模型的原因。不可解释同样也意味着危险,事实上很多领域对深度学习模型应用的顾虑除了模型本身无法给出足够的信息之外,也有或多或少关于安全性的考虑。比如,下面一个非常经典的关于对抗样本的例子,对于一个 CNN 模型,在熊猫的图片中添加了一些噪声之后却以 99.3% 的概率被判定为长臂猿。在熊猫图片中加入噪声,模型以 99.3% 的概率将图片识别为长臂猿事实上其他一些可解释性较好的模型面对的对抗样本问题可能甚至比深度学习模型更多,但具备可解释性的模型在面对这些问题的时候是可以对异常产生的原因进行追踪和定位的,比如线性回归模型中我们可以发现某个输入参数过大/过小导致了最后判别失常。但深度学习模型很难说上面这两幅图到底是因为哪些区别导致了判定结果出现了如此大的偏差。尽管关于对抗样本的研究最近也非常火热,但依然缺乏具备可解释性的关于这类问题的解释。当然很多学者对可解释性的必要性也存有疑惑,在 NIPS 2017 会场上,曾进行了一场非常激烈火爆的主题为「可解释性在机器学习中是否必要」的辩论,大家对可解释性的呼声还是非常高的。但人工智能三巨头之一的 Yann LeCun 却认为:人类大脑是非常有限的,我们没有那么多脑容量去研究所有东西的可解释性。有些东西是需要解释的,比如法律,但大多数情况下,它们并没有你想象中那么重要。比如世界上有那么多应用、网站,你每天用 Facebook、Google 的时候,你也没想着要寻求它们背后的可解释性。LeCun 也举了一个例子:他多年前和一群经济学家也做了一个模型来预测房价。第一个用的简单的线性于猜测模型,经济学家也能解释清楚其中的原理;第二个用的是复杂的神经网络,但效果比第一个好上不少。结果,这群经济学家想要开公司做了。你说他们会选哪个?LeCun 表示,任何时候在这两种里面选择都会选效果好的。就像很多年里虽然我们不知道药物里的成分但一直在用一样。但是不可否认的是,可解释性始终是一个非常好的性质,如果我们能兼顾效率、准确度、说人话这三个方面,具备可解释性模型将在很多应用场景中具有不可替代的优势。有哪些可解释性方法?我们之前也提到机器学习的目的是从数据中发现知识或解决问题,那么在这个过程中只要是能够提供给我们关于数据或模型的可以理解的信息,有助于我们更充分地发现知识、理解和解决问题的方法,那么都可以归类为可解释性方法。如果按照可解释性方法进行的过程进行划分的话,大概可以划分为三个大类:1. 在建模之前的可解释性方法2. 建立本身具备可解释性的模型3. 在建模之后使用可解释性方法对模型作出解释在建模之前的可解释性方法这一类方法其实主要涉及一些数据预处理或数据展示的方法。机器学习解决的是从数据中发现知识和规律的问题,如果我们对想要处理的数据特征所知甚少,指望对所要解决的问题本身有很好的理解是不现实的,在建模之前的可解释性方法的关键在于帮助我们迅速而全面地了解数据分布的特征,从而帮助我们考虑在建模过程中可能面临的问题并选择一种最合理的模型来逼近问题所能达到的最优解。数据可视化方法就是一类非常重要的建模前可解释性方法。很多对数据挖掘稍微有些了解的人可能会认为数据可视化是数据挖掘工作的最后一步,大概就是通过设计一些好看又唬人的图表或来展示你的分析挖掘成果。但大多数时候,我们在真正要研究一个数据问题之前,通过建立一系列方方面面的可视化方法来建立我们对数据的直观理解是非常必须的,特别是当数据量非常大或者数据维度非常高的时候,比如一些时空高维数据,如果可以建立一些一些交互式的可视化方法将会极大地帮助我们从各个层次角度理解数据的分布,在这个方面我们实验室也做过一些非常不错的工作。还有一类比较重要的方法是探索性质的数据分析,可以帮助我们更好地理解数据的分布情况。比如一种称为 MMD-critic 方法中,可以帮助我们找到数据中一些具有代表性或者不具代表性的样本。使用 MMD-critic 从 Imagenet 数据集中学到的代表性样本和非代表性样本(以两种狗为例)建立本身具备可解释性的模型建立本身具备可解释性的模型是我个人觉得是最关键的一类可解释性方法,同样也是一类要求和限定很高的方法,具备「说人话」能力的可解释性模型大概可以分为以下几种:1. 基于规则的方法(Rule-based)2. 基于单个特征的方法(Per-feature-based)3. 基于实例的方法(Case-based)4. 稀疏性方法(Sparsity)5. 单调性方法(Monotonicity)基于规则的方法比如我们提到的非常经典的决策树模型。这类模型中任何的一个决策都可以对应到一个逻辑规则表示。但当规则表示过多或者原始的特征本身就不是特别好解释的时候,基于规则的方法有时候也不太适用。基于单个特征的方法主要是一些非常经典的线性模型,比如线性回归、逻辑回归、广义线性回归、广义加性模型等,这类模型可以说是现在可解释性最高的方法,可能学习机器学习或计算机相关专业的朋友会认为线性回归是最基本最低级的模型,但如果大家学过计量经济学,就会发现大半本书都在讨论线性模型,包括经济学及相关领域的论文其实大多数也都是使用线性回归作为方法来进行研究。这种非常经典的模型全世界每秒都会被用到大概 800 多万次。为什么大家这么青睐这个模型呢?除了模型的结构比较简单之外,更重要的是线性回归模型及其一些变种拥有非常 solid 的统计学基础,统计学可以说是最看重可解释性的一门学科了,上百年来无数数学家统计学家探讨了在各种不同情况下的模型的参数估计、参数修正、假设检验、边界条件等等问题,目的就是为了使得在各种不同情况下都能使模型具有有非常好的可解释性,如果大家有时间有兴趣的话,除了学习机器学习深度模型模型之外还可以尽量多了解一些统计学的知识,可能对一些问题会获得完全不一样的思考和理解。基于实例的方法主要是通过一些代表性的样本来解释聚类/分类结果的方法。比如下图所展示的贝叶斯实例模型(Bayesian Case Model,BCM),我们将样本分成三个组团,可以分别找出每个组团中具有的代表性样例和重要的子空间。比如对于下面第一类聚类来说,绿脸是具有代表性的样本,而绿色、方块是具有代表性的特征子空间。使用 BCM 学到的分类及其对应的代表性样本和代表性特征子空间基于实例的方法的一些局限在于可能挑出来的样本不具有代表性或者人们可能会有过度泛化的倾向。基于稀疏性的方法主要是利用信息的稀疏性特质,将模型尽可能地简化表示。比如如下图的一种图稀疏性的 LDA 方法,根据层次性的单词信息形成了层次性的主题表达,这样一些小的主题就可以被更泛化的主题所概括,从而可以使我们更容易理解特定主题所代表的含义。Graph-based LDA 中的主题层次结构基于单调性的方法:在很多机器学习问题中,有一些输入和输出之间存在正相关/负相关关系,如果在模型训练中我们可以找出这种单调性的关系就可以让模型具有更高的可解释性。比如医生对患特定疾病的概率的估计主要由一些跟该疾病相关联的高风险因素决定,找出单调性关系就可以帮助我们识别这些高风险因素。在建模之后使用可解释性性方法作出解释建模后的可解释性方法主要是针对具有黑箱性质的深度学习模型而言的,主要分为以下几类的工作:1. 隐层分析方法2. 模拟/代理模型3. 敏感性分析方法这部分是我们接下来介绍和研究的重点,因此主要放在后续的文章中进行讲解,在本篇中不作过多介绍。除了对深度学习模型本身进行解释的方法之外,也有一部分工作旨在建立本身具有可解释性的深度学习模型,这和我们前面介绍通用的可解释性模型有区别也有联系,也放到以后的文章中进行介绍。如果对本系列感兴趣或有疑问,欢迎私信交流。关于 BIGSCity北航智慧城市兴趣组 BIGSCITY 是隶属于北京航空航天大学计算机学院的一个学术研究小组,小组致力于研究机器学习与数据挖掘在城市科学、社会科学等领域的交叉应用技术。BIGSCITY 的研究兴趣包括:城市计算,时空数据挖掘,机器学习可解释性,以及 AI 在交通、健康、金融等领域的应用等。本专栏将介绍 BIGSCITY 的一些研究成果,不定期更新与课题组研究相关的研究工作介绍,以及介绍与 BIGSCITY 相关的一切有趣的内容。关于 BIGSCITY 的详细情况参见研究组主页:https://www.bigscity.com/参考文献1. Google Brain, Interpretable Machine Learning: The fuss, the concrete and the questions.2. Kim B, Koyejo O, Khanna R, et al. Examples are not enough, learn to criticize! Criticism for Interpretability[C]. neural information processing systems, 2016: 2280-2288.3. Kim B, Rudin C, Shah J. The Bayesian Case Model: A Generative Approach for Case-Based Reasoning and Prototype Classification[J]. Computer Science, 2015, 3:1952-1960.4. Doshi-Velez F, Wallace B C, Adams R. Graph-sparse LDA: a topic model with structured sparsity[J]. Computer Science, 2014.
每天耕耘最有趣、最实用的心理学根据达尔文提出的进化论,人类一切行为和目的,都只有一个,那就是物种延续。而要实现物种延续,最为重要的步骤就是人类必须 发生性行为,以合成后代。性行为(Sex behavior)是生物学上的基本术语,它是指同性或异性之间,为了满足性欲和获得性快感,而相互合作开展的动作与活动。性行为多种多样,其中包括性交。所谓性交,广义上是指两个雌雄异体的生物之间,通过生殖器接触而达到繁衍后代目的的行为。动物之间的性行为,通常主要是为了繁衍后代。而人类成年男女之间的性行为,则不一定是为了繁衍后代,还会出于其他目的而进展开性交。相关奇葩研究和试验出于科学研究目的,人类科学家曾对人类的性行为展开了大量观察与研究。当代性学权威、美国著名性学家马斯特斯和约翰逊,则是这项研究的先锋派人物。【马斯特斯《人类性反应》与相关试验】1966年,W·马斯特斯和V·约翰逊合著的《人类性反应》一书刚一出版,就轰动了整个西方社会,这部著作旋即被认为是一部标志着人类性研究里程碑的著作。闯入危险禁区的科学家1930年,在罗切斯特大学就学的马斯特斯,对性行为问题产生极大兴趣。但在当时那个时代,性行为是不能被公开提及的,人们甚至绝口不提身体的各种器官名称,更别提性器官。而学校中的图书馆有相关性问题的书则被严加保管,想要阅读必须经特别许可。马斯特斯对此非常吃惊,他认为,性行为在人类生活与活动中如此重要,但人类对性行为以及性知识却少得可怜。性学在当时是一个完完全全的禁区。为什么人类对身体的其他功能不遗余力地进行研究,却偏偏要忽略繁衍后代极其重要作用的性功能呢?马斯特斯决心向性行为禁区挺进。四处奔波寻访1940年代末和1950年代初,马斯特斯决定从妓女入手调查和研究。因为马斯特斯认为,他们至少从数量和经验上来说最富有经验。从1954年秋天起,他一共走访了近118名妓女和27名妓男。由于马斯特斯过早的秃顶,使他看上去非常成熟而富有权威性,是个极端严肃而正经的人。所以,依靠他不同凡俗的外表与学识风度,总能在调查寻访过程中克服对方的冷漠与怀疑,得到采访人的信任。因此,只要有可能,马斯特斯就先请中间人提前代表他作初次接触。如果自己要去陌生的地方,就会通知警察他在干些什么。通过筛选,马斯特斯从她们中招收了少数人参加了后来的实验室研究,并把她们根据性经验提供的一些性技巧,成功地运用到后来的性治疗案例中。马斯特斯从实验调查中发现,从生理上来说,妓女都不太正常。因为他几乎很难找到一个拥有正常骨盆,且骨盆区域不过分充血的妓女,因为她们的器官总是因过度使用而扩张。他在走访中也顺便纠正了以往人们在这一领域的偏见,比如外界普遍认为妓女不会有真正的快感,妓女几乎都是同性恋,她们出卖自己身体的目的,无一例外都是为了钱。但是马斯特斯通过走访调查发现,某些妓女的第二动机,其实是性渴望。渴求理解科学研究的合作人1956年12月,一位特殊的性行为合作人弗吉尼亚·约翰逊出现了。约翰逊是一位朴素的密苏里人,她学过音乐和社会学,做过广告和管理研究,还有商业写作经验。离了婚的约翰逊有两个子女,她从小在农场长大,从没有人告诉她月经或任何类似事情。并且,约翰逊看上去温柔漂亮,雾蒙蒙的褐色眼睛里储存着热情的火花。马斯特斯一眼看中了她。尽管约翰逊当时对性科学一无所知,但她已下决心献身于这一科学研究。(后来这两位性学大师结成终身伴侣,但据说晚年离异)。在实验过程中,许多人对马斯特斯和约翰逊提出了种种指责。因为,这种性行为表面看来是在以科学研究之名展开的,但事实上,在明亮的灯光下,在其他人的注视下,身旁还有各种仪器不停运转、摄影机也逐渐靠近,实验双方的行为其实是非常有压力的。因为,毕竟,人们会思考:这样的实验,以及眼前实验者的行为结果,究竟对普通人有什么意义和价值?是否值得这样做?而周围围观的研究者到底是不是窥淫癖,还是什么其他心理上古怪不健康的人?面对实验团队的质疑,以及外界的流言蜚语,马斯特斯和约翰逊并未过多关注,而是坚持完成自己既定的实验行为。两人除了将自己的性行为过程和体验,以及各项数据完整记录下来,还研究了将近382名女性和312名男性受试者的,以各种方式进行的性行为,以及他们所达到的上万次高潮,并使用精密仪器对各种性反应过程进行了详细的数据记录。在详实而具体的实验数据和资料基础上,两人冒着被社会舆论指责的风险,发表了一篇又一篇的性学研究报告,而这些性学报告对学术界造成了一次又一次的冲击。性学实验的历史性贡献天道酬勤,实验团队的辛勤付出最终获得了巨大的成功。马斯特斯与他的团队以客观详实的实验和独家结论,改变了当时人们的观念。在他们的不懈努力下,人类性行为终于揭开了它神秘的面纱:1. 人们开始愿意公开讨论性;2. 不仅充分肯定性对婚姻的重要作用,还破天荒地出现了夫妇同时接受治疗的事;3. 大多数医学院开始设置有关性行为的课程;4. 研究人员通过进一步实验,确定了人类的性反应周期;5. 证实了女性也同样拥有欲望和高潮;6. 修正了导致“羊尾”的精神病学说;7. 肯定了不同姿势的行为的正常性;8. 认识到人类手部运动并非有害,某种程度上是人的自我拯救与纾解。而以上种种研究结论,悉数都记录在马斯特斯的性学著作《人类性反应》一书中。- The End -作者 | 神奇小小编辑 | 一粒米第一心理主笔团 | 一群喜欢仰望星空的年轻人参考资料:《Human Sexual Response》Lalasz, C. B.; Weigel, D. J. (2011). "Understanding the relationship between gender and extradya dic relations: The mediating role of sensation seeking on intentions to engage in sexual infidelity". Personality and Indivial Differences. 50 (7): 1079–1083. doi:10.1016/j.paid.2011.01.029.