本文由机器之心编辑,“机器之心”专注生产人工智能专业性内容,适合开发者和从业者阅读参考。点击右上角即刻关注。数据挖掘领域的顶会 KDD 2017 目前正在火热进行中。昨日,机器之心报道了滴滴被 KDD 2017 接收的论文。今日,KDD 2017 公布包括最佳论文在内的多个奖项。KDD 的英文全称是 Knowledge Discovery and Data Mining(知识发现与数据挖掘),由美国计算机协会 ACM 下的数据挖掘分会举办,是国际数据挖掘领域的顶级会议。据统计,KDD 2017 共收到 1144 篇论文投递,收录 216 篇。今日,KDD 2017 公布了收录论文中的最佳论文等奖项。获奖情况如下:最佳论文与最佳学生论文论文:Accelerating Innovation Through Analogy Mining作者:Tom Hope、Joel Chan、Aniket Kittur 和 Dafna Shahaf地址:https://arxiv.org/abs/1706.05585Runner up paper:论文:Toeplitz Inverse Covariance-Based Clustering of Multivariate Time Series Data作者:David Hallac、Sagar Vare、Stephen Boyd 和 Jure Leskovec地址:https://arxiv.org/abs/1706.03161最佳应用论文奖论文:HinDroid: An Intelligent Android Malware Detection System Based on Structured Heterogeneous Information Network作者:Shifu Hou、Yanfang Ye、Yangqiu Song 和 Melih Ablhayoglu地址:http://www.cse.ust.hk/~yqsong/papers/2017-KDD-HINDROID.pdfRunner up Papers:论文:DeepSD: Generating High Resolution Climate Change Projections through Single Image Super-Resolution作者:Thomas Vandal、Evan Kodra、Sangram Ganguly、Andrew Michaelis、Ramakrishna Nemani 和 Auroop R Ganguly地址:https://arxiv.org/abs/1703.03126博士论文奖论文:Local Modeling of Attributed Graphs: Algorithms and Applications作者:Bryan Perozzi地址:https://search.proquest.com/openview/cc84345c4e647328b7c4ea300b1367fd/1?pq-origsite=gscholar&cbl=18750&diss=yRunner up papers:论文:User Behavior Modeling with Large-Scale Graph Analysis作者:Alex Beutel地址:http://alexbeutel.com/papers/CMU-CS-16-105.pdf论文 :Mining Large Multi-Aspect Data: Algorithms and Applications作者:Evangelos E. Papalexakis地址:http://www.cs.cmu.e/~epapalex/proposal.pdfHonorable Mention Papers:论文:Computational Lens on Big Social and Information Network作者:Yuxiao Dong地址:https://curate.nd.e/show/qj72p556t40以下是机器之心对获奖论文的摘要介绍。此外,我们还介绍了 SIGKDD 2017 创新奖与服务奖的获得者。最佳论文和最佳学生论文奖:Accelerating Innovation Through Analogy Mining摘要:大型知识资源库(如美国专利数据库)的可用性提高可以显著加速人们发明和探索类似问题的进程。然而,想要在这些巨大、复杂的现实资源库(repositories)中寻找有意义的类推方式对人类和自动方法而言都是一个巨大的挑战。此前,我们使用的方法通常包含手动编写的带有高关联结构的数据集(如谓词演算表征),但这种数据集非常稀疏且昂贵。更简单的机器学习/信息检索相似性度量可以扩展到大型的、基于自然语言的数据集中,但很难应对结构的相似性——而这是类比的核心问题。在本文中,我们探索了学习简单结构表示的可行性和价值,特别是在「问题模式」上,其中规定了产品的目的与达到目的使用的机制。我们的方法整合了众包模式与循环神经网络来提取产品描述中的目的和机制的向量表示。我们证明了,这些学习的向量可以让我们比传统信息检索方式更快、更准确地找到类比。在一个思维实验中,新模型检索的类比显着增加了人们产生新思想的可能性。我们的结果证明了新方法可以让大规模类比的计算适应弱结构表征。最佳应用论文奖:HinDroid: An Intelligent Android Malware Detection System Based on Structured Heterogeneous Information Network 摘要:随着安卓恶意软件的增多、对智能手机用户的危害越来越严重,对安卓恶意软件的检测已经成为网络安全的重中之重。而安卓恶意软件日益增长的复杂性,要求我们创造出新的技术对抗新的威胁且难以入侵。在此论文中,为了检测安卓恶意软件,我们不只是调用 API,而是进一步分析它们之间的不同关系,创造更高级别的语义,从而使得攻击者入侵检测需要花费更大的努力。我们将安卓应用、相关 API、以及它们之间的丰富关系表达为一种结构化的异质信息网络(Heterogeneous Information Network/HIN)。然后我们使用基于元通道(meta-path)的方法表征 app 与 API 之间的语义关系。我们使用每个元通道在安卓 app 上公式化类似的测量方法,并使用多核学习(Multi-kernel learning)收集不同的类似点(similarities)。然后,每个元通道被学习算法自动赋权,从而作出预测。据我们所知,这是首个使用结构化 HIN 网络进行安卓恶意软件检测的工作。我们在 Comodo 云安全中心收集的真实样本上进行了综合实验,旨在对比不同的恶意软件检测方法。有潜力的实验结果表明,我们开发的系统 HinDroid 超越了其他安卓恶意软件检测技术。最佳博士论文奖:Local Modeling of Attributed Graphs: Algorithms and Applications摘要:具有关联节点、原始链接信息的现实世界图正在变得越来越普遍。例如,社交网络既包含亲友关系,也包含人口统计、兴趣等属性;一个蛋白质相互作用的网络(protein-protein interaction network)不仅可以具有相互作用的表示,还可以显示相互作用的级别。这样的信息可以由使用节点表示对象的图来表示,而图的边代表互相之间的关系,节点相关的特征向量代表属性。这种图数据通常被称为属性图(Attributed graph)。本文着重于开发适用于属性图的可扩展算法和模型。在这里,数据可以看作是离散的(一组边),或是连续的(嵌入式节点之间的距离),我从两个角度考虑了这个问题。具体来说,我提出了一种在线学习算法,它利用深度学习中的最新进展来构建多种图嵌入。使用这种新方法编码的多尺度社会关系对于网络中的多标签分类和回归任务都是可用的。我还提出了离散图中异常社区得分的局部算法。这些算法可以发现图属性的子集,最终发现社区(例如社交网络上的共同兴趣)。本论文中所有方法的可扩展性都是通过利用图基元(Graph primitives)的限制集合来保证的,如自我中心网络和截断随机游动,它们可以利用每个顶点周围的局部信息。此外,对于限制图依赖性的范围,我们考虑使用新方法在 MapReuce 和 Spark 上对常见内容进行大数据处理。这项工作在数据挖掘和信息检索等应用领域领域前景广阔,其中包括用户分析/人口统计推理,在线广告和欺诈检测等。2017 SIGKDD Test of time award康奈尔大学 Thorsten Joachims 的《Training Linear SVMs in Linear Time》获得了该奖项。论文地址:https://www.cs.cornell.e/people/tj/publications/joachims_06a.pdf摘要:线性支持向量机(SVM)已经成为了高维稀疏数据空间中最杰出的机器学习技术之一,它通常应用于如文本分类、词义消歧和药物设计等领域。这些应用都涉及到巨量的样本 n 和巨量的特征 N,每一个样本只有 s << N(s 远小于 N)个特征是非零特征。该论文展示了一种训练线性 SVM 的截平面算法(Cutting-Plane Algorithm),该算法经证明分类问题的训练时间只需 O(sn),有序回归问题的训练时间为 O(sn log(n))。该算法基于一种 SVM 优化问题的替代但等价公式化方法。经验上,截平面算法要比如 SVMLight 那样的分解法在大数据集上快几个数量级。2017 SIGKDD Innovation AwardACM SIGKDD 新一任主席、加拿大西蒙弗雷泽大学计算机学院裴健教授裴健(Jian Pei)是加拿大西蒙弗雷泽大学计算机学院教授、IEEE Fellow,他的研究主要集中在开发针对新型数据密集型应用的高效数据分析技术。裴健教授的研究领域包括数据挖掘、联机分析处理、数据仓库、web 搜索、信息检索、医学信息学、商业智能等领域中的应用。2000 年以来,裴健教授发表了 200 多篇论文,也多次担任国际会议的程序委员会委员和组织委员会委员。裴健教授获得了许多研究奖项,包括 2015 ACM SIGKDD Service Award、2014 IEEE ICDM 研究贡献奖、IBM Faculty Award(2006)和 KDD 最佳应用论文奖(2008)、PAKDD 最佳论文奖(2014)、PAKDD 最具影响力论文奖(2009)和 IEEE 杰出论文奖(2007)等等。裴健教授因为「在数据挖掘及应用领域的基础研究,尤其是模式挖掘与空间数据挖掘方面做出的杰出贡献。还有已经被业界广泛接受和应用的数据挖掘方法」而获得此项荣誉。2017 SIGKDD Service Award香港科技大学杨强教授杨强,第四范式联合创始人、首席科学家。杨强教授在人工智能研究领域深耕三十年,是国际公认的人工智能全球顶级学者,ACM 杰出科学家,两届「KDD Cup」冠军。现任香港科技大学计算机与工程系主任,是首位美国人工智能协会(AAAI)华人院士,AAAI 执行委员会唯一的华人委员,国际顶级学术会议 KDD、IJCAI 等大会主席,IEEE 大数据期刊等国际顶级学术期刊主编。杨强教授在数据挖掘、人工智能、终身机器学习和智能规划等研究领域都有卓越的贡献,是迁移学习领域的奠基人和开拓者,他发表论文 400 余篇,论文被引用超过三万次。杨强是多本国际期刊的编委,是 ACM TIST 的创始主编,是 IEEE 大数据期刊创始主编,还是 IEEE Intelligent Systems,IEEE TKDE (2005-2009),AI Magazine 等期刊的编委。此外,他也是很多人工智能和数据挖掘相关会议的组织者以及程序联合主席,如 2012 年在北京举办的 ACM 国际数据挖掘大会(KDD) 的会议主席,以及 ACM KDD 2010,ACM RecSys 2013, ACM IUI 2010,ICCBR2001 等会议的主席。他是国际人工智能大会(IJCAI) 的董事会成员和 2015 年在阿根廷举办 IJCAI 会议的程序委员会主席, 同时在 2016 年被选为 AAAI 执行委员会委员。据颁奖现场,杨强教授因为「在研究和发展数据挖掘和人工智能领域所做出的杰出贡献」而获得此项荣誉。
近日,数据挖掘顶级会议KDD 2020发布论文接收结果,其中Research Track共1279篇论文参与投稿,仅216篇论文入选,接收率约为16.9%; Applied Data Science track共756篇论文投稿,仅121篇论文入选,接收率约为16.0%。百度AI凭借领先的行业技术实力,成功入选论文10篇,成为全球科技企业中入选论文数量最多的公司之一,彰显了百度AI行业领军者的领先地位。ACM SIGKDD国际数据挖掘与知识发现大会(简称 KDD),由 ACM 于1995年创办,是世界数据挖掘领域的顶级学术会议,有数据挖掘领域“世界杯”之称,是目前AI领域影响力最广、规模最大的国际顶级会议之一。虽然这次KDD 大会入选论文竞争激烈,百度AI在KDD 2020上依然斩获佳绩,成功入选的论文涵盖智能交通、智能推荐、图神经网络、知识图谱、人机交互、科学防疫等领域,全面展现百度AI深厚的技术底蕴与持续的创新实力。以下为百度KDD 2020 十篇入选论文的亮点集锦:论文1:Understanding the Impact of the COVID-19 Pandemic on Transportation-related Behaviors with Human Mobility Data关键词:COVID-19,公众出行方式,流行病控制,大数据助力科学防疫中国对新冠疫情(COVID-19)的成功遏制为有效抗击高度传染性病毒树立了典范。新冠疫情在中国的短时间传播和亚指数级增长,证明所采取的多项防疫措施,例如病例隔离、旅行限制、关闭娱乐场所、禁止大规模聚集等防疫措施都取得了极其显著的效果。这些防疫措施在有效遏制新冠病毒传播的同时,也有可能带来公众出行模式的变化。为更好了解新冠疫情对公众出行模式的影响,并据此为政府、机构以及个人提供更具针对性的防疫建议,百度地图基于海量出行数据研究了新冠疫情期间公众在交通行为方面的变化。具体地,百度从公众的出行方式、出行目的地类型、到达时间、出行距离以及“出发地-出行方式-目的地”等5个不同的角度对新冠疫情期间的公众交通行为大数据进行了详细分析,并基于统计结果给出了相应的数据解读和防疫建议。鉴于新冠疫情仍在200多个海外国家与地区蔓延并导致全球数百万人受到感染,论文提供的数据解读和防疫建议有可能为抗击新冠疫情提供点滴之力。本文已被Health Day @KDD 2020 - AI for COVID所录用。论文2:Personalized Prefix Embedding for POI Auto-Completion in the Search Engine of Bai Maps关键词:前缀联想式地理位置检索,POI自动补全,POI富内容编码,语义神经网络Point of Interest Auto-Completion(简称POI-AC),即前缀联想式地理位置检索,是地图POI搜索引擎中必不可少的功能。当用户在搜索框中键入每个字符时,POI-AC模块会自动根据用户输入的前缀动态地给出一系列POI建议。该功能有助于大幅减少用户搜索时的输入量,在屏幕小且输入较为费力的移动设备上尤其有用。目前的POI-AC模块主要采用宽泛的特征工程并结合Learning to Rank模型进行推荐结果计算。然而,基于宽泛特征和搜索历史很难直接对用户输入习惯进行建模,因此在输入前缀较少的情况下往往无法将用户想要的POI推荐至首位。为解决上述问题,百度提出一种基于神经网络的端到端POI-AC框架,它已成功部署在百度地图的POI搜索引擎中。为建立用户画像、个人输入习惯以及对应被点击的POI之间的联系,专门设计了包含三个核心组件的POI-AC框架(简称P3AC,如上图所示)。百度团队使用百度地图的大规模真实搜索日志来评估P3AC的算法效果,并通过部署上线后的用户满意度指标对模型的实际产品效果进行了验证。实验结果表明,新方法在算法效果与用户满意度上均取得了显著提升。论文3:ConSTGAT: Contextual Spatial-Temporal Graph Attention Network for Travel Time Estimation at Bai Maps关键词:ETA,通行时间预估,路线耗时预估,时空图网络路线耗时预估任务旨在为给定的路线和出发时间估算出对应的通行时间。路线耗时预估任务在智能交通系统(例如导航、路线规划、网约叫车服务等)有着至关重要的作用。该任务面临诸多挑战,尤其是路况预测和道路信息。首先,路况预测的准确率和路段的历史路况强相关。现有的工作主要使用时空图神经网络改善路况预测的准确率。然而,这些工作将时间信息和空间信息独立对待,很少考虑时间和空间的关联性。其次,路线的道路链接信息(例如是否拐弯等)也会对用户的驾驶速度带来较大影响。之前的工作主要使用序列化结构去建模路线的道路链接信息。然而,序列化建模方式很难适用于大规模真实服务。为更有效地解决路况预测和道路链接信息建模问题,百度提出了一个端到端的神经网络框架ConSTGAT。百度研究团队还提出了一个新颖的时空图神经网络,并专门设计了一种能够捕捉时间信息和空间信息之间协同关系的特殊注意力机制。此外,为更高效地利用道路链接信息,设计了一种高效计算模型,该模型基于路线的局部窗口以及卷积结构捕捉道路链接信息,并使用多任务学习同时利用路线和路段信息进行计算。基于上述模型设计,可提前并行预估每个路段的通行时长。在大规模真实数据集上的实验结果表明ConSTGAT的效果显著超过多个强健的基线模型。此外,ConSTGAT已成功部署于百度地图中,为每天数百亿的路线耗时请求提供了稳定的预估服务,这表明ConSTGAT是一个具有高可用性的路线耗时预估工业级解决方案。论文4:Combo-Attention Network for Bai Video Advertising关键字:跨模态,短视频,搜索广告视频广告可以迅速捕捉用户的注意力,相对于传统静态广告,视频广告可以用户留下更深刻的印象。因此广告主会投入更多的资源去制作视频创意来和用户之间的距离。百度作为最大的中文搜索引擎公司,每天都会收到数十亿的搜索请求。论文介绍了百度视频广告是如何根据用户搜索来匹配对应的视频广告的。根据用户的文本搜索来匹配视频广告本质上是一个跨模态搜索问题。因为模态间的鸿沟,跨模态搜索比经典的以文搜文和以图搜图都更有挑战性。为此,百度研究团队提出了混合注意力网络(CAN),并在百度动态视频广告平台上线。混合注意力网络不仅融合了模态内的注意力并且嵌入了跨模态的注意力。为了验证CAN的有效性,建立了一个包含70万好看视频的Daily700K 数据集。在Daily700K数据集和VATEX公开数据集上,CAN都取得了领先的搜索效果。在百度的动态视频广告平台上线后,CAN取得了5.47%的CVR提升。论文5:Intelligent Exploration for User Interface Moles of Mobile App with Collective Learning关键词:智能界面设计,人机交互,协同学习手机移动App的整体界面通常是由若干个界面模块组成的。如何合理的设计每个界面模块是提高移动App用户体验的一个关键步骤。在实际的界面设计过程中,界面模块关键参数的决定往往依赖于设计师的主观判断,而关键参数变动带来的实际影响只有通过线上小流量测试的方式来确定,需要花费很大的时间和人力成本。通常只有很少量的设计方案有机会进行线上实验测试。考虑到每个界面模块都有众多参数排列组合形成的接近无穷多个设计方案,在实际应用几乎不可能通过这种事后验证的方式来找到每个界面模块的最优设计方案。论文中,百度提出了一个名为FEELER的模型框架。该框架通过协同学习的方式来快速和智能化的探索用户界面模块的最优设计方案。同时FEELER还能够帮助设计师量化的分析不同界面模块设计方案的优劣,从而帮助设计师快速便捷的调整和优化手机App的主要界面模块。作为中国最大的手机移动App之一的百度App,为FEELER提供了测试数据和应用场景来验证FEELER的有用性。论文6:Polestar: An Intelligent, Efficient and National-Wide Public Transportation Routing Engine关键词:公交,路线规划,情境感知排序,推荐公共交通在居民日常生活中扮演了重要的角色。相较于其他形式的交通,公共交通更加环境友好、高效且具有性价比。但是,面对不断扩展的交通网和日益复杂的出行场景,用户通常很难轻易地确定最合适的出行方案。为此,论文提出Polestar,一个智能且高效的数据驱动公交路线引擎。特别地,百度首先提出了一个新的公交图来建模公交系统中多种出行开销,如时间或距离。此外,引入高效的站点绑定策略和通用的路线搜索算法来生成候选路线。之后,百度团队还提出一个两轮的排序模块捕捉用户在不同情境下的出行偏好。最后,在两个真实数据集上的实验结果证明了Polestar的有效性。在2019年初,Polestar就已经被部署在了百度地图上。现在,Polestar服务着全国超过330个城市,每天数千万路线规划请求,并获得了显著的点击率提升。论文7:Geodemographic Influence Maximization关键词:空间用户影响力最大化,子模最优化,神经网络近似算法,户外广告营销算法给定城市中一系列的地点,广告主应该在哪些地点投放户外广告,使得在不超过预算的情况下触达尽可能多的人?为了解决这个问题,过去的研究主要基于“用户是否被某广告影响取决于一个预定义的用户轨迹集合”。然而,在大多数的现实应用场景中,预定义的用户轨迹集合是很难被获取的;但是通过统计人群行为数据而计算出来的不同地点之间的人群转移概率图,则通常比较容易获取。本文解决了一个基于下述设定的一个一般性问题:给定人群在地点间的分布和人群在地点与地点间的转移概率图,在预算内选择若干个地点组成的集合,使得人群到达这些地点的期望次数最大化。百度研究团队将这个问题叫做空间用户影响力最大化问题(Geodemographic Influence Maximization,简称GIM)。论文首先证明GIM是NP-hard的问题,但其目标函数是单调并且子模的,因此存在一个贪心策略的算法可以使效果达到理论最优解的1/2(1-1/e) 比例。然而,这个贪心算法的时间复杂度仍然太高,限制了它在大规模数据上的可用性。论文利用GIM问题的转移图上的空间临近性等特点,提出了一个比贪心算法更加快速有效的确定性算法(称作Lazy-Sower)。同时,本文进一步提出了一个基于机器学习的随机算法(NN-Sower)。 NN-Sower在轻微减少效果的条件下可以大幅提高计算速度。在两个城市的真实数据集上的实验证明了新算法比基准算法具有更好的效果和速度。论文8:Competitive Analysis for Points of Interest关键词:兴趣点竞争分析,空间自适应图神经网络,POI知识图谱,异质信息网络兴趣点(Point of interest, POI)竞争关系可以衡量城市中两个POI(如餐馆、酒店、游乐场等)为了争取足够多的资源(主要是用户)而产生的竞争的强弱。已有的竞争关系分析的研究主要聚焦于从文本数据中挖掘企业或者商品等实体之间的竞争行为,而很少关注POI之间的竞争关系分析。大量关于POI的用户行为数据(如评论数据和地图搜索数据)的出现为POI的竞争关系分析提供了可能。论文中,百度首先使用POI评论和地图搜索数据构建了一个异构的POI信息网络(HPIN)。同时,百度提出一种基于图神经网络的深度学习框架DeepR。该框架由空间自适应图神经网络(SA-GNN)和POI知识抽取模型(PKE)两个部分组成。SA-GNN具有面向空间的聚合操作和基于空间依赖的注意力机制等特殊结构,可以有效结合POI的空间信息和位置分布对POI的表征进行学习。同时,PKE利用关系图卷积计算和交叉注意力网络提取HPIN中的有关POI的知识特征。在两个真实数据集上的实验结果证明了DeepR的有效性。论文9:Local Community Detection in Multiple Networks关键词:局部社区发现算法,多层图结构,随机游走局部社区发现旨在找到一组包含给定查询节点的密集连接节点集(局部社区)。大多数现有的局部社区发现方法都是为单个图结构设计的。但是,单个图可能包含噪声与干扰数据且信息不完整。 相比之下,多个相关的图结构在实际应用中能够提供更多的信息。在多个相关的图结构中,有多种类型的节点和多种类型的节点连接关系。来自不同图的补充信息有助于提高局部社区发现的准确性。论文中,百度提出了一个新的多图中的随机游走模型 (RWM)。 给定一个图中的查询节点集,RWM能够查找所有图结构中的相关局部社区。 RWM 在每个图结构中都发出一个随机游走者以获得相对于查询节点的相似度度量(即节点访问概率)。 具有相似访问概率的游走者会彼此影响。新方法可以将概率传播限制在查询节点的局部范围,以标识每个图结构中的相关子图。与此同时,RWM能够忽略多图中不相关的部分。百度为 RWM提供了严格的理论基础,并开发了两种具有性能保证的加速策略。百度研究团队在合成和真实数据集上进行了全面的实验,验证了RWM的有效性和高效率。论文10:Dual Channel Hypergraph Collaborative Filtering关键词:协同过滤,双通道,超图协同过滤是当今众多推荐系统算法中最流行和最重要的推荐方法之一。现有的基于协同过滤的算法,从矩阵分解到最近出现的基于图的方法,虽然已经得到了广泛的应用,但在训练数据有限的情况下性能较低。论文中,百度研究团队首先指出导致性能较差的原因,即:(1)用户和物品建模不灵活;(2)高阶关联建模不足。在这种情况下,百度提出了一个双通道超图协同过滤框架来解决上述问题。首先,引入了一种整体利用思想的双通道学习策略,来学习用户和物品的表示,以使得这两种类型的数据可以优雅地相互连接,同时仍然保持它们的特定属性。其次,使用超图结构来建模混合高阶用户和物品的高阶关联。百度研究团队进一步提出了跳跃超图卷积方法来支持超图上显式、高效的嵌入传播。在两个公开数据集和两个新的真实数据集上的综合实验表明,与其他先进的方法相比,百度所提出的双通道超图协同过滤方法可以取得显著且一致的性能提升。
文丨林同学(读书学剑两无成)性别、年龄、家庭状况,乃至吃不吃早餐、一周洗澡几次、肥胖与否、交了多少朋友、是否有情侣等等,似乎都包含着一个学生的成绩“密码“。至少研究者已经证实,这些信息都和学术成绩存在关联。本文基于相关领域十余篇论文,归纳了一些公认的说法,一起来看看,成绩好的本科生都有哪些特征?首先,把论文提到的可能对成绩产生影响的因素分为这几类:(1)学生的固有特征:包括性别、籍贯、民族、家庭情况、上学期绩点和挂科数、高考时分数等属于个人固有属性的内容;(2)学生学习习惯特征:主要包括上课出勤率、晚自习次数和学习时间、图书馆次数和学习时间等直接和学习关联的特征,通常可以直接表征学生学习所花精力;(3)生活习惯特征:通常会包括学生吃饭、超市买东西、操场体育馆锻炼、宿舍和教学楼打水、图书馆和宿舍门禁、每天上网时间、游戏时间和视频时间等,通常由一卡通刷卡记录和校园网账号记录生成;(4)社交特性:包括朋友的多少,是否有情侣等。一、学生固有特征1.人口特征虽然有多篇硕士论文均认为仅凭人口特征如性别、籍贯、民族等不足以对学生成绩进行预测,但是这并不等于这些因素毫无影响。有一个南京师范大学的博士论文《高校学生学业表现数据建模研究-基于A大学教育数据的分析》对这些因素的影响进行了很详细的综述,并利用A大学2014-2017级的学生数据进行了统计研究,文中指出:(1)性别:女生的GPA均值高于男生,方差明显较小,但是高分的人少,体现出女大学生的成绩具有“下限高上限低”的特点,男生则正好相反,数据比较离散,既有极好的也有极差的,而且均值较低;(2)地区:中部地区学生GPA最高,其次是东部地区和西部,这可能由于该学校在北京和天津仍然是本二批招生,这些地区拉低了东部的均值;(3)城乡:城市学生的GPA均值略高,但是没有统计上的显著性,说明在A大学中城乡对学生GPA影响不大;(4)民族:汉族学生的GPA均值明显高于少数民族学生,统计上非常显著,少数民族中不同地区也有差异,西部地区少数民族的GPA均值较低;(5)经济:由于无法直接获取学生经济情况,就只能对比不同级别的贫困生的GPA均值,一般贫困>比较贫困>特别贫困,统计上显著,说明家庭经济状况是有一定影响的;(6)父母最高学历:经过假设检验,这一项不显著,说明影响不大;(7)是否独生子女:这一项也是不显著,影响不大;(8)人格测试:文章用的是大五因素模型(big five factors model)。五大因素分别为:严谨性、宜人性、开放性、外倾性和神经质。通常认为严谨性和GPA正相关,神经质和GPA负相关,其他关系不大。但是A大学数据表明宜人性和GPA也是正相关。(9)身体素质:文中指出体测成绩和GPA是正相关,没有详细说明其机理。笔者认为有两种可能性:1)体测高代表经常锻炼,说明生活规律,比较自律,肯定愿意多学习;2)身体好的人确实学习能力强。前者可能性更高。但是有一个非常诡异的现象:肥胖学生的GPA均值显著低于体重偏低或偏高的学生,后者的GPA又低于体重正常的学生。这个机理尚不清楚。2.人口特征外的学生固有特征(1)高考成绩:在那篇博士论文中,高考成绩和GPA是非常显著的正相关,这一点应该很容易理解,说明基础好,高中就养成了好的学习习惯;(2)学生上学期成绩和挂科数等:这个特征在多篇硕士论文里被认为非常重要,这一点也是非常符合常识的,因为能够痛改前非发愤图强的人毕竟比较少。而且,不同科目的挂科之间是有一定联系的,一个硕士论文中算出了常见工科基础课程的挂科关联矩阵,其中挂过高数的人有一半多还要挂高代,触目惊心。这说明如果大一挂科导致基础不好会造成连锁反应。二、学生学习习惯特征很明显,上课出勤率高且图书馆或晚自习次数多的学生成绩高,多篇论文的数据分析都明确指出了这一点。比如北邮的硕士论文《基于校园多域融合数据的学生成缋及社交性分析》收集了各种数据,从中挑选出和学院排名的皮尔逊相关系数高于0.3的特征:工作日宿舍时长、晚自习次数、图书馆次数、上网流量和充值、有无情侣,社交活跃度,还有几门课的出勤(数字电路,DSP,工程数学,随机信号处理,通信电路),其中主要都是学习习惯特征。电子科技大学的硕士论文《基于学生行为的成绩预测模型的研究与应用》通过分析宿舍和图书馆门禁数据发现,学霸通常都是早出晚归,很可能是在图书馆或教室学到关门。西电的硕士论文《基于校园大数据的学生行为挖掘方法应用研究》采用关联规则分析算法Apriori也得出结论:学习习惯好(出勤率高,图书馆学习和借阅多)+生活习惯好(早睡早起,规律吃饭,多锻炼,少上网)的人中综合能力良好的比例高达81%。三、学生生活习惯特征这一部分主要包括学生的吃饭消费,超市消费,上网(游戏视频)时间,锻炼时间,洗浴时间和次数,周末出门等。(1)吃饭,洗浴,锻炼,睡觉:许多篇硕士论文中都提到了这些,重点关注的是早餐次数、吃饭时间规律性、周洗浴次数和洗浴时间规律性。成绩好的学生明显早餐和洗浴次数多也更加规律,通常早睡早起不熬夜,规律性锻炼。华中师范大学硕士论文《基于一卡通消费数据的学生成绩预测和朋友关系网络检测研究》对比了校内不同专业(师范类,电通类,基地班和交叉班)的平均早餐次数:电通类<师范类<交叉班<基地班,且调查表明基地班和交叉班确实学习比较努力。这篇文章也给出了不同成绩的学生的早餐次数分布,数据表明优秀学生的平均早餐次数几乎是差生的两倍。这篇文章进一步采用早餐次数和消费行为的阵发性(表征规律性的指标)这两个特征作为K近邻模型的输入进行学生五档成绩水平的建模和预测,在测试集上的正确率高达80%。这说明仅仅采用这些生活规律性指标就能大致预测学生的排名位置,而生活的规律性是学生的自律能力的表征,因此自律能力是取得好成绩的核心能力。西电的硕士论文《基于校园大数据的学生行为挖掘方法应用研究》中也指出生活习惯差的学生中有80%以上综合能力差。生活习惯差暗示了学生自制力方面的缺陷。这再一次说明了自制力或者自律能力是大学取得好成绩的核心竞争力,是非常重要的。(2)消费:虽然消费行为的规律性可以像早餐次数一样表征自律能力,但是消费(吃饭,超市等)的金额对于成绩的影响是很难捉摸的。重庆大学的硕士论文《数据挖掘技术用于高校学生留级预警的研究》认为吃饭花钱多少和是否留级没有关联。电子科技大学硕士论文《基于学生行为的成绩预测模型的研究与应用》认为超市消费数据和成绩没有关联,但是笔者却从文中的图里看出了端倪:消费高于600块的基本全是均分低于80分的学生,均分高于80分的学生通常消费在400块以下。笔者猜测消费较高的学生通常喜欢吃零食(或者边看剧边吃零食),暗示了较差的自制力和较低的学习时间。这部分和上文提到的肥胖学生GPA显著低于其他学生也有关联。另外,天津商业大学的硕士论文《基于大数据的高校学生学业成绩预警分析》指出学习消费(打印等)和GPA正相关,这个内容和常识吻合,不多细说了。(3)上网时间:通常认为上网时间(尤其是视频时间和游戏时间)过长会使GPA下降。重庆大学的硕士论文《数据挖掘技术用于高校学生留级预警的研究》指出上网时间,游戏时间和视频时间都和留级有正相关关系。北邮硕士论文《基于校园多域融合数据的学生成缋及社交性分析》指出上网流量和网络充值都和学生排名有明显相关关系。天津商业大学的硕士论文《基于大数据的高校学生学业成绩预警分析》也认同网络流量和学生成绩有明显负相关,但是指出浏览特定类型网页的次数和成绩有正相关关系,比如求职网站、党政机关、互联网公司网站等。这个现象或许表明优秀学生更加关注社会,更加善于搜集信息。(4)周末出门:天津商业大学的硕士论文《基于大数据的高校学生学业成绩预警分析》认为周末出门和学生成绩有较强的正相关关系。这个有一点反常识,但也许可以解释为学霸们通常比较生活规律,工作日就多学习,然后周末就规律出去玩,或者侧面反映出他们的交际能力较强,有朋友一起玩。四、社交特性石河子大学的硕士论文《同伴关系对大学生学业成绩影响研究》研究了同伴关系和一些人口特征对成绩的影响,大意就是同伴关系中的“自我描述”这一项(相当于自我认知的能力,认识自己在同伴群体中的定位,强的人比较有自我实现的动机,乐于发展人际关系,学习积极性高)和成绩是有显著正相关,但是这一项也和性别,学科,城市/农村,是否独生子女等因素有复杂的相互作用。北邮的硕士论文《基于校园多域融合数据的学生成缋及社交性分析》通过WIFI探针等网络手段也进行了社交和学生排名关系的研究,结果显示中等成绩的学生社交能力强,尤其是中上排名的学生社交最猛,差生的社交能力最差。这或许表明很多性格孤僻的学生成绩通常不太好。北邮的论文还研究了是否有情侣和学生排名的关系,有情侣比例:排名较高≈排名中上>排名中下>排名较差,这说明是否谈恋爱和成绩排名有正相关关系。但是恋爱和成绩的相互作用机理尚不清楚,到底是学习好促进了找对象还是比较会谈恋爱的通常学习好,无法确定。此外,情侣关系不是通过直接采访得到的,是通过技术手段估计的(分析学生是否经常出现在异性宿舍楼下,某两人校园轨迹重合度大不大,是否存在校园网账号借用等疑似亲密关系),可能存在偏差。值得一提的是,这篇论文分析了情侣之间的成绩关系,通常男生的排名比女生略高。总结与对策从上文可以看出,学生成绩受到学生固有特征(包括人口固有特征、高考成绩、上学期成绩等),学习习惯特征和生活习惯特征的共同影响,其中后两者影响较大。但是学习习惯和生活习惯并不是相互独立的两种特性,可以认为良好的学习习惯(多出勤,多上自习,多去图书馆)和良好的生活习惯(早睡早起,规律吃饭运动洗澡,上网适度等)是学生优秀自律能力的衍生品。因此,自律能力是大学生获得良好成绩的核心能力。在社交方面,通常成绩较好和成绩中上的学生具有较多的朋友且更可能谈恋爱,排名较差的学生平均朋友人数和谈恋爱比例都较低。对策:(1)加强自律能力:可以通过一段时间的自我强迫养成多学习,规律生活的习惯,之后就可以依赖这种惯性,具体策略包括学习时候少看手机(可以采用Forest之类软件辅助),不能经常买零食吃,强迫早睡早起(即使第二天没课),每天或者每两天一定要去洗浴等。这些可以通过一个一揽子学习计划实现,比如规定每天都要早起(8点),晚上上自习到至少9点,然后去洗浴,回宿舍可以上网娱乐到11点或者熄灯,然后上床睡觉。(2)进行体育运动:可以选择打球,跑步这些,最好是规律性运动,一时兴起式运动难以坚持。规律运动不仅是加强自律能力的补充,同时也可以是比较超重的同学对抗“肥胖学生GPA显著偏低”的有力武器,这样可以让自己又强又帅/美,不会陷入又弱又丑的噩梦。(3)社交能力:虽然天天社交未必能提高成绩,但是从“好学生通常具有较多的朋友且更可能谈恋爱,差生平均朋友人数和谈恋爱比例都较低”可以看出,适度社交必不可少,拥有良好的恋爱关系也可以让自己更快乐,学习更积极。可以每周末约朋友或者男女朋友出去玩,就可以实践“周末出门比例和学习成绩的显著正相关”。(文章仅代表作者观点。责编邮箱:yanguihua@jiemian.com)
本科三年3篇SCI论文,他是全能学霸;美国、全国大学生数模,他是奖项达人;热心公益、爱好写作……他用实力诠释大学多彩生活,展现交大青年学子风采!他是2017-2018学年交大三好学生标兵电子信息与电气工程学院2015级本科生杨超琪!在科研中成长:因为热爱,所以一往无前杨超琪在大一就励志成为一名科学研究者。他做过自然语言处理的研究,尝试过系统威胁攻击的检测,实现过智能图像处理检索系统,也做过社交网络传播与分析的探究,最后他选定数据挖掘作为自己深入研究方向。在国际数据挖掘会议上发表过三篇论文(均被SCI收录,上海交通大学先进网络实验室高晓沨老师指导),以此激励自己砥砺前行。为学弟学妹答疑解惑大学三年期间,他刻苦学习,成绩名列前茅,数学课取得了全满绩的优异成绩。出于对数理的热爱,杨超琪带领团队获全国大学生数学建模竞赛二等奖,美国大学生数学建模竞赛M奖,在全国大学生数学竞赛和全国部分地区大学生物理竞赛中均获得了优异成绩。从交大到世界:仰望星空,脚踏实地杨超琪拥有丰富的科研经历。先后参加本科生暑期科研实习项目、大学生创新实践项目等校内科研,在张丽清教授的带领下实现了智能交互式服装检索系统应用,同时积极参与校企合作项目,在实践中学习成长。除此之外,杨超琪在暑假赴美国(伊利诺伊大学香槟分校,导师Hari Sundaram)参与了为期三个月的深度学习的科研项目,并在回国后继续合作,培养了广阔的国际视野。作息时间表在美国期间,我会细心把每天前往和离开实验室的时间记录下来,因此形成了这一张表格。我回国以后,依然严格按照美国的作息,半夜去东上院门口打越洋电话,临晨5/6点起床在阳台与他们讨论论文。在UIUC与实验室中国小伙伴抽空合影告别(左二)作为本科生,杨超琪赴意大利都灵参与CIKM会议,并在大会上介绍自己的成果,与众多学者进行了深入的交流,展现交大学子风采,获得大会领域主席K. Selcuk Candan高度评价。在意大利都灵CIKM会议中作报告从个人到集体:我是一枚特别的“螺丝钉”选择交大就选择了责任。大学期间,杨超琪是班内团支书、军训小班长,尽职尽责、服务同学,积极组织参与各项活动,弘扬交大青年的担当奋发精神。他是交大优秀青年,热心公益、服务社会,多次担任上海国际马拉松、火车站春运、饮水思源母校回访等多项活动志愿者,多次参与校内献血活动......他在每一个集体中都发挥着“螺丝钉”的作用。军训小班长(左一)杨超琪喜欢写作,曾任校《益友》报首席编辑,又是交大“瞭望科学”夏令营记者。他热爱运动,参加过各种定向越野与长跑活动,在新生杯定向越野中获得第二名。点击上海南站志愿者(右一)心怀理想、求真务实,刻苦钻研、奋发图强,为杨超琪同学点赞!为脚踏实地、砥砺前行的交大学子点赞!来源:上海交通大学电子信息与电气工程学院 值班编辑:尹静一 责任编辑:金雪 祁洁
实验做多了,就知道什么叫科研催人老,人间不值得......犹记得大家刚刚进入生科院的时候,一个个年轻稚嫩,头发茂密,天真地以为自古名人出在实验室,我也可以在一方小实验室做出一片天。几年过去了,反正天没见着,发际线倒是越来越高了。做实验做到生无可恋,还不是为了SCI的那点分。然而,有些大神,居然不做实验就能轻轻松松发表SCI 论文!真的是,太过分了!我在实验室熬夜加班做实验大半年没憋出一片论文,而这几位,就靠“投机取巧”挖挖数据库就发表文章!而且,影响因子居然还不低!真是令人发指!一起来看看这波“骚操作”:第一篇:伊朗某团队,Pathol Oncol Res杂志,影响因子 1.7分这篇文章是于2017 年 5 月发布的,尽管分数不是很高,但是真的是完全不用上手做实验哦,这个研究团队的利器是——数据挖掘!这篇论文主要就是通过 cBioportal 这个工具对 TCGA 数据中肝癌的数据进行挖掘,结果找到了一条 lncRNA SNHG6 作为肝癌的分子标志物。看起来很复杂吧,其实就说了两件事:lncRNA SNHG6 等 3 条 lncRNA 在肝癌患者中基因组水平的改变和表达情况;lncRNA SNHG6与患者预后相关;关键是:只用了一个 TCGA 使用工具,就这么挖掘一下数据库,一篇 1.7 分的文章就发出来了!第二篇:国内某团队,International Journal of Molecular Sciences 杂志,影响因子 3.2 分分数破3,这是多少人的梦想呀!这篇文章是 2017 年 3 月发的,文章说的是通过生物信息学分析鉴定结直肠癌关键候选基因和信号通路。内容如下,就是制图而已!就问你服不服!反正我是服了!第三篇神作:OT杂志,影响因子 5.1 分!这篇文章主要是通过 RNA 测序和芯片数据挖掘,来研究异常表达的 lncRNA 在肺鳞癌中的临床意义。听起来也比较复杂,但是通篇下来,这篇文章只用到了TCGA 数据,GEO 以及自己验证的 12 对肺鳞癌样本,另外还涉及到了R 语言以及一些软件和网站。图我就不放了,有兴趣的同学可以去看看原文,真的是各种图表并用,自己动手做实验的部分基本没有。这就是真正的大神啊!总结一下:以上几位神作,就是在没有做实验的基础上,依靠挖掘数据、分析数据而来的!我等普通小白,可能没有这个功力从海量的数据中寻找发paper的利器,SO,大家还是散了吧,扎扎实实做实验才是真,假以时日,一定也可以发出好论文!
原标题:这篇致谢火了!华中师大女硕士千字文言文道感恩楚天都市报6月12日讯(记者揭明玥 通讯员 党波涛)毕业季,华中师范大学信息管理学院炸锅了,应届硕士毕业生章玥用文言文写的毕业论文致谢让老师们很“惊喜”,在网络平台上更是火得不行。作为华中师范大学信息管理学院2018届管理科学与工程专业硕士毕业生,章玥自我介绍是这样说的,“师从段钊先生,属鸡,天蝎座一枚。性格热情开朗,待人友好,为人诚实谦虚。学习勤奋,认真负责,能吃苦耐劳,尽职尽责,有耐心。具有亲和力,平易近人,善于与人沟通”。辅导员李静说,章玥学习刻苦认真,成绩优秀,积极参加课外文体活动,各种社会实践活动和兼职工作。为了锻炼口才和人际交往能力,她做过很多兼职。例如:家教、电话访问员、派传单。研究生在校期间,章玥一直担任班级党支部宣传委员,有深厚的专业知识基础和沟通、组织能力,女汉子实力的她还负责实验室更换系统、拆电脑、修打印机、照看植物等琐事。在学术方面,章玥参与了师门的企业社会责任研究、武汉市青山区战略新兴产业十三五发展规划刚要、企业社会责任报告评价体系与方法研究等项目。她说,这些项目文理参半,既利用了文本挖掘、统计分析等技术手段,完成对企业社会责任报告的分析和评价,也参与了企业案例的编写,学术能力因为这些项目得到了极大的提高。研究生期间,章玥的研究方向偏向于企业管理和复杂网络。但毕业之际,喜欢背诵古诗词的章玥,却想写个不一样的致谢,于是就选择了文言文。她说,文言文更有深意,字少文美。章玥的文言文答谢词1780字,回忆了自己的读研生活,感谢自己的恩师和同窗,如开头的“吾身体发肤受之父母,品德受之于学校,才学受之于师长,技能受之于友,长者育教之恩,同门切磋之谊,弗敢忘焉!虽陨首结草不能报之万一,故纸穷搜,推文敲字,是以为情造文,借文聊表谢忱”,开宗明义,表达感恩。章玥毕业论文致谢全文如下:四月维夏,六月徂暑。江城五月,春意盎然。吾于华师学习之日已近三秋矣,受业于华师,今三年之寒窗苦读即止,却觉恍如隔日,虽叹时光之易逝,惜韶华之难追,唯且行且珍惜。吾身体发肤受之父母,品德受之于学校,才学受之于师长,技能受之于友,长者育教之恩,同门切磋之谊,弗敢忘焉!虽陨首结草不能报之万一,故纸穷搜,推文敲字,是以为情造文,借文聊表谢忱。回首来路,历时两年,自文之选题至搜集资料,自开题至纂终稿,其间之日,颇更事,历喜、噪、苦,不可不谓之凄凄惨惨戚戚。今文成事毕,豁然开朗,自终稿已成之日起,余之杂心不见矣,以为开心。回首往昔,悲喜交加,凭栏望月,遂寄情于此文。吾虽不能日自省,然当事省,晓吾已过花信年华,不慧,吾三尺微命,一介书生,幸得师友亲朋之力相助,方能文成事毕。余徽州人也,东邻金陵,西眺匡庐,北滨长江,南接徽杭。八百里皖江回旋激荡,数千年文脉绵延承传。吾平民世家,聿修祖德,孝悌累洽,父严母慈。自求学起,徒养吾求学之路,予吾心存归处,不思回报,父母之督察,为吾顺之成文大有助力。现双亲鬓渐发白,力渐无,然大爱不曾稍减,于我备至更加。吾恨不能为其分忧,不能为其担责,甚为内疚,此吾跪而叩谢者一也。来日,当益勉之学、工作,不负父母谓我之殷殷期!孟子曰:“惟孝顺父母,可以解忧”,以为然。吾求学之路幸得恩师段钊先生不弃,忝列师门,成文方可计日而待也。先生导我于曲路,示我以通途。自整体至细枝,皆得先生悉心指导,,回想先生每逢休憩之日仍阅吾文,吾事无大小,悉以咨之,先生皆悉悉告知,导我以理,吾知,此先生之所授,必不敢忘。先生之所为,吾临表涕零,不知所言,念先生恩重如山,谢无疆焉!求学路漫漫,吾得院内各先生悉悉教导,三生有幸。院长李玉海先生授信息管理系统,晓之以系统分析与架构。王伟军教授虽未受教于课,但蒙其弟子帮扶甚多,谢间接教导之恩。桂学文教授之弟子王静吾室友也,常言先生教导之言,诸多电商概念颇受启发,遂谢之。卢新元教授授运筹及企业咨询管理,晓吾以运筹,授企业咨询流程与内容。李延晖教授授统计分析,教吾以统计知识。王学东教授授电子商务,晓吾以互联网思维;段尧清教授授决策方法,晓吾以诸多决策理论。陈菁华先生授之数据挖掘,授吾以数据分析之法。刘向先生授以网络幂律分析之技,受教数次,倍感启发,遂谢于此。刘百灵先生虽未受教于课但数次请教于其弟子惠敏,备受帮扶。陈静先生授系统工程,果敢率真,问卷之精细吾颇受指导。董庆兴先生授知识管理,先生之博学才思,记忆犹胜,于此谢先生扩展学问。易明先生授项目管理,流程控制、管理方法于吾倍受益;李霞先生创新之课程颇丰趣,颇创新,谢培吾之创新思维。院内辅导员张乾红、李静先生日常帮扶关照亦甚多,谢之。院内众先生教导之恩未能一一言谢深表歉意,言辞有尽,敬谢无穷,吾于此致谢忱。恰同学少年者,逢风华正茂之时,得遇友人、金兰之交,幸甚至哉!刘智宇师兄,师门大师兄是也,其人责任心尤甚,凡事细细叮嘱,耐心教导,吾三年于师兄之言行受益甚多,玥诚心愿师兄仕途情场均能不误。周红师兄,师门二师兄,属吾师门容色上佳者,为人幽默。同门师姐何雅娟、钟原,师门两大美女,颇丰趣,于吾入门之际辅吾甚多,吾亦学之甚多,虽已离校,但仍时时交流,未敢忘。会敏者,吾同窗也,长近四尺八寸,体微胖,喜束青丝,天资聪慧,容色绝佳,性宽敛稳重。于校之数三载,与君时,同校共进,衣食勿分,事事相息,音也。昔日畅谈学问,历历在目,载笑载言心更欢,笃诚思虑,得卿,犹得知音。逸瞻兄,同门也,年方二十有六,心宽体胖,为人甚幽默,虽出生于中原然口音自带播音腔调,略有东北大汉之感,为人义气,不拘小节,信管人称男神是也。得益于诸同门室友,赵敏、陈玲、王静、谭艳平,李帅飞,胡颖师妹,裴越师妹,周辉师弟,陆定一师弟,罗维师妹,熊博艺等,恕难一一道谢。众人助吾之情,岂容忘哉?分离在即,不忍别离;来日方长,不尽依迟;望江湖各自珍重。男友徐晨,吾之同乡亦是同学,忧乐相随,日月可昭。只愿君心似我心,朔风如解意,容易莫摧残。噫嚱!切切之恩,似紫金之峰,立吾心而励吾志矣。嗟呼!绵绵之情,若玄武之水,照吾颜而昭吾天矣。感激之情,溢于言表。涕零与笔墨齐下,恩情共友谊长存。言辞有尽,敬谢无穷,吾于此再致谢忱。临书仓卒,谨申数字,用展寸诚,祈恕不恭;不足之处,望请见谅。 (章玥书于戊戌年乙卯月)
正逢毕业季,最近,华中师范大学信息管理学院应届硕士毕业生章玥用文言文写的毕业论文致谢火了!这篇让答辩导师组非常“惊喜” ,纷纷为之点赞的致谢究竟妙在何处?毕业论文文言文致谢原来,喜欢背诵古诗词的章玥想写个不一样的论文致谢,于是,她选择了文言文。她说,文言文更有深意,字少文美。章玥的文言文答谢词780字,回忆了自己的读研生活,感谢自己的恩师和同窗,如开头的“吾身体发肤受之父母,品德受之于学校,才学受之于师长,技能受之于友,长者育教之恩,同门切磋之谊,弗敢忘焉!虽陨首结草不能报之万一,故纸穷搜,推文敲字,是以为情造文,借文聊表谢忱”,开宗明义,表达感恩。章玥与导师段钊教授的合影章玥文言致谢全文:四月维夏,六月徂暑。江城五月,春意盎然。吾于华师学习之日已近三秋矣,受业于华师,今三年之寒窗苦读即止,却觉恍如隔日,虽叹时光之易逝,惜韶华之难追,唯且行且珍惜。吾身体发肤受之父母,品德受之于学校,才学受之于师长,技能受之于友,长者育教之恩,同门切磋之谊,弗敢忘焉!虽陨首结草不能报之万一,故纸穷搜,推文敲字,是以为情造文,借文聊表谢忱。回首来路,历时两年,自文之选题至搜集资料,自开题至纂终稿,其间之日,颇更事,历喜、噪、苦,不可不谓之凄凄惨惨戚戚。今文成事毕,豁然开朗,自终稿已成之日起,余之杂心不见矣,以为开心。回首往昔,悲喜交加,凭栏望月,遂寄情于此文。吾虽不能日自省,然当事省,晓吾已过花信年华,不慧,吾三尺微命,一介书生,幸得师友亲朋之力相助,方能文成事毕。余徽州人也,东邻金陵,西眺匡庐,北滨长江,南接徽杭。八百里皖江回旋激荡,数千年文脉绵延承传。吾平民世家,聿修祖德,孝悌累洽,父严母慈。自求学起,徒养吾求学之路,予吾心存归处,不思回报,父母之督察,为吾顺之成文大有助力。现双亲鬓渐发白,力渐无,然大爱不曾稍减,于我备至更加。吾恨不能为其分忧,不能为其担责,甚为内疚,此吾跪而叩谢者一也。来日,当益勉之学、工作,不负父母谓我之殷殷期!孟子曰:“惟孝顺父母,可以解忧”,以为然。吾求学之路幸得恩师段钊先生不弃,忝列师门,成文方可计日而待也。先生导我于曲路,示我以通途。自整体至细枝,皆得先生悉心指导,,回想先生每逢休憩之日仍阅吾文,吾事无大小,悉以咨之,先生皆悉悉告知,导我以理,吾知,此先生之所授,必不敢忘。先生之所为,吾临表涕零,不知所言,念先生恩重如山,谢无疆焉! 求学路漫漫,吾得院内各先生悉悉教导,三生有幸。院长李玉海先生授信息管理系统,晓之以系统分析与架构。王伟军教授虽未受教于课,但蒙其弟子帮扶甚多,谢间接教导之恩。桂学文教授之弟子王静吾室友也,常言先生教导之言,诸多电商概念颇受启发,遂谢之。卢新元教授授运筹及企业咨询管理,晓吾以运筹,授企业咨询流程与内容。李延晖教授授统计分析,教吾以统计知识。王学东教授授电子商务,晓吾以互联网思维;段尧清教授授决策方法,晓吾以诸多决策理论。陈菁华先生授之数据挖掘,授吾以数据分析之法。刘向先生授以网络幂律分析之技,受教数次,倍感启发,遂谢于此。刘百灵先生虽未受教于课但数次请教于其弟子惠敏,备受帮扶。陈静先生授系统工程,果敢率真,问卷之精细吾颇受指导。董庆兴先生授知识管理,先生之博学才思,记忆犹胜,于此谢先生扩展学问。易明先生授项目管理,流程控制、管理方法于吾倍受益;李霞先生创新之课程颇丰趣,颇创新,谢培吾之创新思维。院内辅导员张乾红、李静先生日常帮扶关照亦甚多,谢之。院内众先生教导之恩未能一一言谢深表歉意,言辞有尽,敬谢无穷,吾于此致谢忱。恰同学少年者,逢风华正茂之时,得遇友人、金兰之交,幸甚至哉!刘智宇师兄,师门大师兄是也,其人责任心尤甚,凡事细细叮嘱,耐心教导,吾三年于师兄之言行受益甚多,玥诚心愿师兄仕途情场均能不误。周红师兄,师门二师兄,属吾师门容色上佳者,为人幽默。同门师姐何雅娟、钟原,师门两大美女,颇丰趣,于吾入门之际辅吾甚多,吾亦学之甚多,虽已离校,但仍时时交流,未敢忘。会敏者,吾同窗也,长近四尺八寸,体微胖,喜束青丝,天资聪慧,容色绝佳,性宽敛稳重。于校之数三载,与君时,同校共进,衣食勿分,事事相息,音也。昔日畅谈学问,历历在目,载笑载言心更欢,笃诚思虑,得卿,犹得知音。逸瞻兄,同门也,年方二十有六,心宽体胖,为人甚幽默,虽出生于中原然口音自带播音腔调,略有东北大汉之感,为人义气,不拘小节,信管人称男神是也。得益于诸同门室友,赵敏、陈玲、王静、谭艳平,李帅飞,胡颖师妹,裴越师妹,周辉师弟,陆定一师弟,罗维师妹,熊博艺等,恕难一一道谢。众人助吾之情,岂容忘哉?分离在即,不忍别离;来日方长,不尽依迟;望江湖各自珍重。男友徐晨,吾之同乡亦是同学,忧乐相随,日月可昭。只愿君心似我心,朔风如解意,容易莫摧残。噫嚱!切切之恩,似紫金之峰,立吾心而励吾志矣。嗟呼!绵绵之情,若玄武之水,照吾颜而昭吾天矣。感激之情,溢于言表。涕零与笔墨齐下,恩情共友谊长存。言辞有尽,敬谢无穷,吾于此再致谢忱。临书仓卒,谨申数字,用展寸诚,祈恕不恭;不足之处,望请见谅。章玥戊戌年乙卯月才华横溢“女汉子”生活中的章玥其实是一个十足的“女汉子”。作为华中师范大学信息管理学院208届管理科学与工程专业硕士毕业生,章玥自我介绍说,“师从段钊先生,属鸡,天蝎座一枚。性格热情开朗,待人友好,为人诚实谦虚。学习勤奋,认真负责,能吃苦耐劳,尽职尽责,有耐心。具有亲和力,平易近人,善于与人沟通”。辅导员李静说,章玥学习刻苦认真,成绩优秀,积极参加课外文体活动、各种社会实践活动和兼职工作。为了锻炼口才和人际交往能力,她做过很多兼职。例如:家教、电话访问员、派传单等。研究生在校期间,章玥一直担任班级党支部宣传委员,有深厚的专业知识基础和沟通、组织能力,“女汉子”实力的她还负责实验室更换系统、拆电脑、修打印机、照看植物等琐事。在学术方面,章玥参与了师门的企业社会责任研究、武汉市青山区战略新兴产业十三五发展规划纲要、企业社会责任报告评价体系与方法研究等项目。她说,这些项目文理参半,既利用了文本挖掘、统计分析等技术手段,完成对企业社会责任报告的分析和评价,也参与了企业案例的编写,学术能力因为这些项目得到了极大的提高。来源 | 荆楚网综合华中师范大学编辑 | 王真声明 | 本文部分图片、文字来源于网络,版权归原作者所有,如有侵权请联系我们>>>推荐阅读端午来了!紧急提醒:8条红线和20种饭局不能碰!中央又查处了一批仅仅71天,湖北这一地抓了298人!你家人可能还想做这事,速看!一湖北特困户开了五家公司,居然还在领低保?一问真相是…视频来了!刚刚,金正恩与特朗普历史性握手笔试考《白雪公主》,面试唱一段,湖北高校自主招生都考了啥?
【新智元导读】KDD 2020最佳论文新鲜出炉!最佳学生论文、最佳论文亚军均被华人学生(一作)摘得,来看看这些论文出自谁之手吧!KDD Best Paper 终于来了!受疫情影响,今年第26届国际数据挖掘顶会 ACM SIGKDD 于8月23日-27日以虚拟线上方式召开。近日,KDD 2020公布了最佳论文奖、最佳学生论文奖等多个奖项。其中由谷歌研究院的研究者Walid Krichene和Steffen Rendle获得最佳论文奖,杜克大学的 Ang Li、Huanrui Yang、陈怡然和北航段逸骁、杨建磊获得本届会议的最佳学生论文奖。此外,汤继良、盛胜利、唐杰等华人学者在本届 SIGKDD 大会上也获得了多项大奖。获奖论文大赏:谷歌研究者获最佳论文,杜克大学陈怡然组获最佳学生论文最佳论文最佳论文奖由来自谷歌研究院的Walid Krichene和Steffen Rendle获得,获奖题目为「On Sampled Metrics for Item Recommendation」论文链接:http://walid.krichene.net/papers/KDD-sampled-metrics.pdf这篇论文主要对抽样指标进行了详细的研究。在该项目中是使用依赖于相关项目位置的排名指标算法来进行评估,在任务中需要在给定的上下文情况下来对大量的项目进行排序。结果发现这些抽样指标与精确的度量值不一致,因为它们没有保留相关的语句。而研究者证明了一种可行的方法就是通过应用一个修正项,即最小化不同的标准,如偏差或均方误差,来提高抽样指标的性能。最后通过对原始抽样指标及其修正变量实证评估,研究者建议在度量计算中应避免抽样,但是如果实验研究需要抽样,那么他们所提出的修正项可以提高估计的质量。最佳学生论文杜克大学的 Ang Li、Huanrui Yang、陈怡然和北京航空航天大学的段逸骁、杨建磊摘得最佳学生论文奖,获奖论文为「TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework for Deep Learning with Anonymized Intermediate Representations」。论文链接:https://arxiv.org/pdf/2005.11480.pdf这篇论文的研究人员提出了一种基于匿名中间表示的任务无关隐私的数据众包框架TIPRDC。该框架的目标是学习一个特征抽取器,它可以隐藏中间表征中的隐私信息,同时最大限度地保留原始数据中嵌入的原始信息,供数据采集器完成未知的学习任务。研究人员设计了一种混合训练方法来学习匿名中间表示:1 针对特征隐藏隐私信息的对抗性训练过程2 使用基于神经网络的互信息估计器最大限度地保留原始信息通过对TIPRDC进行广泛评估,并将其与使用两个图像数据集和一个文本数据集的现有方法进行了比较。结果表明,TIPRDC大大优于其他现有的方法。这篇论文第一作者Ang Li 是杜克大学电子和计算机工程系的一名在读博士,导师为陈怡然和 Hai (Helen) Li 教授。Ang Li 的主要研究方向是移动和物联网平台上的深度学习系统。他曾在 2018 年获得阿肯色大学计算机科学博士学位,2013 年获得北京大学软件工程硕士学位,2010 年获得河南大学计算机科学本科学位。Ang Li 目前还是阿里巴巴达摩院的一位实习生。Ang Li 主页:https://www.linkedin.com/in/ang-li-3658273b/他的导师陈怡然教授还在微博上表示庆祝团队成员摘得最佳学生论文奖。陈怡然教授现任杜克大学电子与计算机工程系教授、杜克大学计算进化智能中心主任、美国 NSF 新型可持续智能计算中心主任。最佳论文亚军来自弗吉尼亚大学的 Mengdi Huai、Jianhui Sun、Renqin Cai、Aidong Zhang 和来自纽约州立大学布法罗分校的 Liuyi Yao 获得了最佳论文的亚军,获奖论文是「Malicious Attacks against Deep Reinforcement Learning Interpretations」。论文链接:https://dl.acm.org/doi/pdf/10.1145/3394486.3403089这篇论文将深度学习和强化学习结合(DRL),并证明了其在众多序列决策问题中动态建模的能力。为了提高模型的透明度,已经有研究提出了针对 DRL 的各种解释方法。但是,这些 DRL 解释方法隐式地假定它们是在可靠和安全的环境中执行的,但在实际应用中并非如此。弗吉尼亚大学的研究团队调查了一些 DRL 解释方法在恶意环境中的漏洞,他们提出了第一个针对 DRL 解释的对抗性攻击的研究,提出了一个优化框架来解决所研究的对抗性攻击问题。论文第一作者Mengdi Huai 是弗吉尼亚大学计算机系在读博士生,导师为Aidong Zhang。她的研究兴趣是数据挖掘和ML,尤其是对可解释机器学习,对抗性机器学习,隐私保护数据挖掘,深度强化学习,元学习,成对学习和医疗保健数据挖掘感兴趣。个人主页:http://www.cs.virginia.e/~mh6ck/KDD 2020 全部论文摘要传送门:https://www.paperdigest.org/wp-content/uploads/2020/08/KDD-2020-Paper-Digests.pdfKDD 2020 华人学者入选情况据Aminer统计,来自美国伊利诺伊大学香槟分校计算机系教授韩家炜共入选7篇,位列华人榜首。曾发表过1244篇论文的他,如今论文引用数已达到了183044。第二名是来自阿里集团的杨红霞,现任阿里巴巴资深算法专家。共入选6篇,相较于去年增加了2篇。与第二名并列的两位学者,一位来自清华大学计算机科学与技术系的崔鹏教授,另一位是美国罗格斯-新泽西州立大学罗格斯商学院管理科学与信息系统系终身教授熊辉,现任百度研究院副院长。共入选5篇论文的是美国密歇根大学终身教授叶杰平。来自百度研究院的周景博共有4篇论文入选。在一作华人学生榜单中,来自康奈尔大学威尔康奈尔医学院 Chengxi Zang 入选4篇论文位列第一。在Research track中,个人以及机构论文数量如下表:KDD 2020:作者论文数量排行KDD 2020:机构论文数量排行值得一提的是,无论是从高校还是个人上来说,中国都远远领先其他国家。与ICML2020相比,MIT、斯坦福、Facebook等高校或大型科技公司明显较少。KDD 2020 申请量创新高,热词一览今年的KDD依然保持着申请量创历史新高的趋势,并刷新了最高纪录。总共进行了2035次有效提交,这是KDD历史上的最高提交数量(比第二高的提交数量高出13%):Research track为1279,Applied Data Science track为756。经过审查,最终接收了338篇论文(Research track为217篇,Applied Data Science track为121篇)。让我们来看一下今年的流行趋势词:包括图表、推荐、对抗攻击、生成模型等。图形与推荐系统一直是KDD的「宠儿」,其他热门话题还包括聚类(Clustering)、算法的公平性(Fairness)和数据挖掘算法( Data Mining Algorithm)。图机器学习(Graph machine Learning)与图表相关的论文占接收总数的约30%。其中以用于实际应用为主题的新图形神经网络模型居多,例如分子预测与推荐系统。还有通过PageRank、最小方差抽样、大、小、无冗余模型解决GNN模型计算的复杂性。其他也包括网络挖掘(Graph Mining)中的各种主题,包括聚类、绘图、摘要推荐系统(Recommender System)旨在解决现代推荐系统问题约占15%。包括反事实学习,推荐解决Google云端硬盘位置偏见、优化广告和推荐策略的RL框架等。四大主题演讲一年一度的SIGKDD会议是数据的「盛宴」。在数据科学、数据挖掘、知识发现、大规模数据分析和大数据领域等领域,SIGKDD会议会带来最前沿的同行分享机会。四场主题演讲如下:用于智能金融服务的AI:示例和讨论(AI for Intelligent Financial Services: Examples and Discussion)状态空间多锥度时频分析(A Look at State-Space Multi-Taper Time-Frequency Analysis)通过元起源产生重要的解释(Generating Explanations that Matter through Meta-Provenance)基于COVID-19下的计算流行病学(Computational Epidemiology at the Time of COVID-19)参考链接:https://medium.com/criteo-labs/kdd-2020-highlights-f4de20af5d4https://medium.com/criteo-labs/kdd-2020-highlights-f4de20af5d4https://www.aminer.cn/conf/kdd2020
ACM SIGKDD 知识发现和数据挖掘会议(KDD) 始于 1989 年,是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议,也是首个引入大数据、数据科学、预测分析、众包等概念的会议。今年,第 26 届 KDD 于太平洋标准时间 8 月 23 日 - 27 日以虚拟方式召开。本届大会共有 1279 篇论文提交到 Research Track,接收 216 篇,接受率 16.8%。不久之前,KDD 2020 公布了最佳论文、最佳学生论文等多个奖项。其中,最佳学生论文奖由杜克大学的李昂、杨幻睿、陈怡然和北航段逸骁、杨建磊摘得。这篇论文的亮点在于作者们提出了一个任务独立、尊重隐私的数据众包框架——TIPRDC。它带有匿名中间表征。该框架的目标是学习一个能够向中间表征隐藏隐私信息的特征提取器,同时最大限度地保留嵌入在原始数据中的原始信息,以供数据收集器完成未知的学习任务。为了帮助读者们更细致的了解这篇论文,最新一期的机器之心线上论文分享邀请到最佳学生论文一作李昂,为我们介绍该研究。分享主题:基于匿名中间表征的任务独立和尊重隐私的数据众包框架个人简介李昂目前就读于杜克大学,是电子和计算机工程系在读博士,导师为陈怡然教授。李昂的主要研究方向是深度学习,移动和边缘计算,隐私保护等。在进入杜克大学之前,他曾在 2018 年获得阿肯色大学计算机科学博士学位,2013 年获得北京大学软件工程硕士学位,2010 年获得河南大学计算机科学本科学位。分享概要本讲座重点介绍 2020 KDD 最佳学生论文《TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework for Deep Learning with Anonymized Intermediate Representations》。文章提出了一个基于匿名中间表征的任务独立、尊重隐私的数据众包框架——TIPRDC。该框架的目标是学习一个特征抽取器,它可以隐藏中间表征中的隐私信息,同时最大限度地保留原始数据中嵌入的原始信息,以供数据收集器完成未知的学习任务。作者设计了一种混合训练方法来学习匿名中间表示:(1)利用对抗学习隐藏中间表征中的隐私信息;(2)使用基于神经网络的互信息估计器最大限度地保留原始信息。通过对该框架进行广泛评估,并将其与现有方法在两个图像数据集和一个文本数据集进行了比较。结果表明,该框架大大优于其他现有的方法。论文链接:https://dl.acm.org/doi/pdf/10.1145/3394486.3403125直播时间:北京时间 9 月 3 日 20:00—21:00参与方式:添加机器之心小助手(syncedai5),备注「KDD」,进群一起看直播。
一场疫情过后的反思一场新冠疫情让白衣执甲的医护人员成为焦点,同时也让在一线的医护工作者们有倾诉的时机,那就是临床一线的工作其实非常忙碌,但是职称的评定却没有偏向一线的临床医师,反而要求临床医师们要发表科研论文才有晋升职称的可能,在政策导向下,很多精明的医生通过各种合作及“巧妙的方式”完成了职称晋升,特别是医药企业的销售代表们发现,为医生客户提供一篇SCI论文对维系客户关系似乎效果更佳,因此在各种相互的默许和巨大的市场需求下,医学论文成为论文中介工厂中最热门的板块,也让临床一线经验丰富的医生输给了在纸面上做文章的“赵括”医师,甚至还有一些购买论文获得晋升滥竽充数的“东郭先生”医师。因此在医学科研乱象成为科技部严抓学术风气的典型,2020年9月16日,中国医科大学、山东大学、南京医科大学等多家机构的科研人员被公开处罚。论文买卖的公开化早在十年前,武汉大学沈阳教授团队在2009年,发表关于买卖论文的研究引发了学界高度关注,先后接受中央电视台、China Daily、中国新闻周刊、南方都市报等媒体专访。2010年年初,《长江日报》刊发武汉大学沈阳教授研究团队的发现:买卖论文已经在中国形成产业,当时保守估计的产值为10亿人民币。沈阳教授是武汉大学信息管理学院出版科学系教授博导,计算机学院教授硕导,中国人民大学新闻学院客座教授,属于文理兼通的教授,也是武汉大学“数字人文与语义挖掘”负责人,共设计50余款软件,本人编码17款,主要用于互联网数据挖掘。然而十年过去了,中国论文买卖市场变得更加的庞大,主要客户群时期并不是医生,而是硕博士毕业生,相比海外攻读博士学位是爱好,国内攻读博士则是为了学位,很多普通职位设立的学历高门槛,例如深圳市某街道办、杭州市某街道办,这些岗位对高学历有要求,但是并不需要博士生们的专业知识,而是对博士毕业证书的需求。论文中介工厂越来越专业在某新闻记者的暗访中了解到,一位采访者称自己为了自己博士女友可以顺利毕业,通过高校的朋友,找到最保险的论文中介工厂,花费10万元购买了2篇论文,而这两篇论文还不是SCI论文,一篇是北大核心期刊论文,一篇是南大核心期刊论文,相比SCI论文要接受全球科研人员的监督,中文核心期刊更安全,通过论文中介工厂发表更快,而且基本没有多少人关注。十年前武汉大学沈阳教授团队的保守估计是论文买卖产业接近10亿元,那么在硕博士扩招,高校毕业要求提升的十年后,论文中介工厂已经变成公开售卖,随意网站都可以查到大量公开宣传的论文中介机构,而且他们的论文具有真实性,因为国内还有一批把写论文培养成专长的博士毕业生,例如四川大学华西医学院优秀的临床博士毕业生,因为发表46篇第一作者或共同一作的SCI被评为优秀毕业生,甚至被网友戏称为,写科研论文如同母鸡下蛋一样的容易。