欢迎来到加倍考研网! 北京 上海 广州 深圳 天津
微信二维码
在线客服 40004-98986
推荐适合你的在职研究生专业及院校
8个国外开放的硕博论文、期刊、数据库下载网站!慧琳

8个国外开放的硕博论文、期刊、数据库下载网站!

今天,早发表的小编给大家分享几个国外开放的硕博论文、期刊、数据库下载网站。1、Worcester Polytechnic Institute( https://www.wpi.e/)伍斯特工学院:包括670余篇学位论文,其中有550多篇全文,硕士论文4篇。涵盖生物、电子、计算机、材料、物理、机械等学科。2、The university of Nottingham(http://etheses.nottingham.ac.uk/)诺丁汉大学的论文数据库。含131篇免费硕博论文,涵盖医学、艺术、教育、法学、工学等学科。3、Australian Digital Theses Program(http://adt.caul.e.au)澳洲数字论文计划,由澳洲大学图书馆员协会发起。包含澳洲40余所大学的15440篇硕博论文,涵盖各个学科。4、North Carolina State University(http://www.lib.ncsu.e/ETD-db/ETD-search/search)北卡罗来纳州州立大学的3937篇免费博硕论文,涵盖了化学、物理学、电子电气、核能、机械、材料、食品、林业、土壤等各学科。5、University of Pretoria : Electronic Theses and Dissertations(http://upetd.up.ac.za/)比勒陀利亚大学的电子学位论文,含3000多篇电子博硕论文,涵盖社会学、食品、建筑、经济、信息、生化、教育、管理、心理学、法学等学科,其中2876篇可免费获取全文。6、Ohio State University(http://www.ohiolink.e/etd/search.cgi)俄亥俄州立大学电子学位论文。含12677条记录,索引更新及时,还可在线翻译成中文,涵盖机械、电子、管理、哲学、化学、环境学、材料、数学、物理等学科,可免费获取。7、加利福尼亚大学国际和区域数字馆藏(http://repositories.cdlib.org/escholarship/)加利福尼亚大学国际和区域数字馆藏研究项目。eScholarshipRepository主要提供已出版的期刊论文、未出版的研究手稿、会议文献以及其他连接出版物上的文章1万多篇,均可免费阅读。8、剑桥大学机构知识库(http://www.dspace.cam.ac.uk/)由Cambridge UniversityLibrary和University ComputingService维护,提供剑桥大学相关的期刊、学术论文、学位论文等电子资源。论文发表,就上早发表

四千金

为什么“知网”很少有北大毕业论文?第三个原因,很多人不知道

本文编辑:史育阁(全文数据全网实时监测维权,搬运抄袭必栽)栏目:大学·社会观近日,北电“博士”、北大“博士后”、影视演员翟天临“学术造假”事件持续发酵,引来网友们的广泛关注,作为隶属于人文社科的北京电影学院艺术学博士,竟不知道中文数据库重点参考的知网为何,实在让人贻笑大方。据了解,目前北京市政府、市教委已经介入,推动调查的进展。长久以来,人们都认为学术研究领域,尤其是到了博士研究生阶段,应是一片净土。没有想到伴随着纷繁复杂的各种社会因素,学术界的“纯净”在今天也难以保证。不论是高校还是社会,对学术独立的追求、对学术规范的落实、对学术尊严的呵护,不应仅仅停留在学位典礼上庄严的“学术权杖”之上,更应落在实处,并且掷地有声。我们都知道,北京大学和清华作为我国学术实力最强、人才培养最顶尖、社会声誉最好的“双雄”大学,每年为社会输出了大量的优秀硕士、博士人才。据统计,近些年北京大学硕士毕业生每年能够达到3600余人,博士毕业生1300余人,每年毕业研究生数量为5000余人,在校研究生150000余人。清华大学大致相同,每年硕士和博士毕业生人数在5000人以上。我们都知道毕业学位论文(设计)是获得学位、顺利毕业的必要保证。每年毕业如此之多的研究生,但是北京大学在知网上的文章数量却非常之少,硕士多年来累计不足千篇,而清华大学已经达到上万篇。今天史育阁就同大家聊一个有趣的话题,也算是一个学术科普,那就是为什么知网上很少有北大毕业生的学位毕业论文?其实,主要有三个原因,其中第3个原因,很多人不知道,有网友笑称:方便“翟博士后”以后钻空子哈哈,一起来看!1、北大“万方”北京大学很多研究生论文并未在知网上上传,最主要的原因就是北大拥有自己的学术论文数据库,即“万方”,由于知网的控股人为清华大学,北大在一定程度上和知网的合作并不深,所以很多北大院系的论文并不通过知网上传。2、国外资源第二个原因就是北京大学购买了十分多的国外数据库资源,尤其是对于理工科学生来说,基本上查询参考文献、做学术综述都需要借鉴、查阅国外研究成果,而这许多在国内学术资源网站是检索不到的,所以利用度也不高,依赖度也就不明显。3、“贵”——停用众所周知,知网拥有很多高校用户,每年都会向各所大学收取高昂的使用费。据山东某高校图书馆人员曾透露,每年图书馆数百万元经费都直接“交给”了知网。很多人不知道的是,北京大学就曾因知网连年涨价,费用过于高昂而决定停止使用知网。这也就导致北大学生无法通过北京大学校园网访问知网,北大和知网的合作程度也就不高,最终很多北大的毕业论文没有提交至知网。对于网友笑称北大不入知网,方便了“翟博士后”将来钻空子,也让人会心一笑。关注史育阁,获取更多精彩大学、高考、考研、教育动态相关资讯、信息!

斯坦福博士韩松毕业论文:面向深度学习的高效方法与硬件

选自Stanford机器之心编译参与:路雪、蒋思源韩松,2017 年斯坦福大学电子工程系博士毕业,师从 NVIDIA 首席科学家 Bill Dally 教授。他的研究也广泛涉足深度学习和计算机体系结构,他提出的 Deep Compression 模型压缩技术曾获得 ICLR'16 最佳论文,ESE 稀疏神经网络推理引擎获得 FPGA'17 最佳论文,对业界影响深远。他的研究成果在 NVIDIA、Google、Facebook 得到广泛应用,博士期间创立了深鉴科技,2018 年将任职 MIT 助理教授。本文对韩松博士的毕业论文做了介绍。第一章 引言本文,我们协同设计了适合深度学习的算法和硬件,使之运行更快更节能。我们提出的技术能够使深度学习的工作负载更加高效、紧密,然后我们设计了适合优化 DNN 工作负载的硬件架构。图 1.1 展示了本文的设计方法。打破算法和硬件栈之间的界限创造了更大的设计空间(design space),研究者获得之前从未有过的自由度,这使得深度学习能够实现更好的优化。在算法方面,我们研究如何简化和压缩 DNN 模型,以减少计算量和内存的占用。在 ImageNet 上,我们在不损失预测准确度的情况下将 DNN 压缩了 49 倍 [25,26]。我们还发现模型压缩算法能够去除冗余、防止过拟合,可以作为合适的正则化方法 [27]。在硬件方面,压缩后的模型具备提速和降低能耗的极大潜力,因为它所需的算力和内存减少。然而,模型压缩算法使计算模式变的非常规,很难并行化。因此,我们为压缩后的模型设计了一种定制化硬件,设计模型压缩的数据结构和控制流程。该硬件加速器的能量效率比 GPU 高出 3400 倍,比之前的加速器高出一个数量级 [28]。该架构的原型在 FPGA 上,且已用于加速语音识别系统 [29]。图 1.1:本文重点是协同设计适合深度学习的算法和硬件。本文回答了两个问题:哪些方法可以使深度学习算法更加高效,哪些硬件架构最适合这类算法。图 1.2:论文主题贡献:正则化训练、模型压缩、加速推理第二章 背景本章首先介绍什么是深度学习以及它的工作原理和应用;然后介绍我们实验所用的神经网络架构、数据集、在数据集上训练架构的框架。之后,我们介绍压缩、正则化和加速方面之前的研究。第三章 神经网络剪枝现代深度神经网络使用非常多的参数以提供足够强大的模型,因此这种方法在计算量和内存上都需要足够的资源。此外,传统的神经网络需要在训练前确定与修正架构,因此训练过程并不会提升架构的性能。而若直接选择复杂的架构,那么过多的参数又会产生过拟合问题。因此,选择适当容量(capacity)的模型和消除冗余对计算效率和准确度的提升至关重要。为了解决这些问题,我们发展了一种剪枝方法(pruning method)来移除冗余并保证神经网络连接的有效性,这种方法能降低计算量和内存的要求以提升推断的效果。这种方法关键的挑战是如何在模型剪枝后还保留原来的预测准确度。我们的剪枝方法移除了冗余连接,并仅通过重要的连接学习(下图 3.1)。在该图的案例中,共有三层神经网络,剪枝前第 i 层和 i+1 层间的连接为密集型连接,剪枝后第 i 层和 i+1 层间的连接为稀疏连接。当所有与神经元相联结的突触都被移除掉,那么该神经元也将移除。神经网络剪枝将密集型神经网络转化为稀疏型神经网络,并且在减少了参数与计算量的情况下完全保留预测准确度。剪枝不仅提高了推断速度,同时还降低了运行大型网络所需要的计算资源与能源,因此它可以在电池受限的移动设备上使用。剪枝同样有利于将深度神经网络储存并传递到移动应用中。图 3.1:对深度神经网络的神经元与突触进行剪枝。在初始化训练阶段后,我们通过移除权重低于阈值的连接而实现 DNN 模型的剪枝,这种剪枝将密集层转化为稀疏层。第一阶段需要学习神经网络的拓扑结构,并关注重要的连接而移除不重要的连接。然后我们重新训练稀疏网络,以便剩余的连接能补偿移除的连接。剪枝和再训练的阶段可以重复迭代地进行以减少神经网络复杂度。实际上,这种训练过程除了可以学习神经网络的权重外,还可以学习神经元间的连通性。这与人类大脑的发育过程 [109] [110] 十分相似,因为生命前几个月所形成的多余突触会被「剪枝」掉,神经元会移除不重要的连接而保留功能上重要的连接。在 ImageNet 数据集中,剪枝方法可以将 AlexNet 的参数数量减少 9 倍(6100 万降低为 670 万)而没有准确度上的损失。VGG-16 同样有类似的现象,参数总量可以减少 13 倍左右(1.38 亿降低为 1.03 千万)而完全没有准确度损失。我们还试验了更多高效的全卷积神经网络:GoogleNet(Inception-V1)、SqueezeNet 和 ResNet-50,它们不具有或有很少的全连接层。在这些实验中,我们发现在准确度降低前它们有相似的剪枝率,即 70% 左右的全卷积神经网络参数可以被剪枝。GoogleNet 从 700 万参数降低到 200 万参数,SqueezeNet 从 120 万参数降低到 38 万参数,而 ResNet-50 从 2550 万参数降低到 747 万参数,这些网络在 ImageNet Top-1 和 Top-5 准确度上都完全没有损失。在本章节以下部分中,我们提供了如何剪枝神经网络和再训练模型以保留预测准确度的方法。我们还展示了剪枝后模型在商业化硬件上运行所产生的速度与能源效率提升。第四章 量化训练与深度压缩本章节介绍了用于压缩深度神经网络的量化训练(trained quantization)技术,但它与前一章所介绍的剪枝技术相结合时,我们就能构建「深度压缩」[26],即一种深度神经网络的模型压缩流程。深度压缩(Deep Compression)由剪枝、量化训练和可变长度编码(variable-length coding)组成,它可以压缩深度神经网络数个量级而没有什么预测准确度损失。这种大型压缩能使机器学习在移动设备上运行。「深度压缩」是一种三阶段流程(图 4.1),它可以在保留原始准确度的情况下减小深度神经网络的模型大小。首先我们可以移除冗余连接而剪枝网络,这一过程只需要保留提供最多信息的连接(如第三章所述)。下一步需要量化权重,并令多个连接共享相同的权重。因此只有 codebook(有效权重)和索引需要储存,且每个参数只需要较少的位就能表示。最后,我们可以应用可变长度编码(Huffman 编码)来利用有效权重的不均匀分布,并在没有训练准确度损失情况下使用可变长度编码表征权重。我们最重要的观点是,剪枝与量化训练可以在不相互影响的情况下压缩神经网络,因此可以产生惊人的高压缩率。深度压缩令存储需求变得很小(兆字节空间),所有的权重都可以在芯片上缓存而不需要芯片外的 DRAM。而动态随机储存器不仅慢同时能耗还比较高,因此深度压缩可以令模型更加高效。深度压缩是第六章高效推断机(efficient inference engine/EIE)的基础,其通过压缩模型实现了显著的速度和能源效率提升。图 4.1:深度压缩的流程:剪枝、量化学习和可变长度编码表 4.1:深度压缩在没有准确度损失的情况下节约了 17 倍到 49 倍的参数存储需求。表 4.9:使用不同更新方法比较均匀量化和非均匀量化的结果。-c 仅更新形心(centroid),-c+1 同时更新形心和标签。ResNet-50 的基线准确度分别为 76.15% 和 92.87%。所有结果都经过再训练。图 4.10:非均匀量化的表现要好于均匀量化。图 4.10 和表 4.9 比较了均匀量化和非均匀量化的性能。非均匀量化指的是相邻编码的距离不为常数。量化训练是非均匀量化的一种形式,因为其不同编码的距离并不相同。对于非均匀量化(本研究),基线 ResNet-50 所有层级的参数可以压缩为 4 比特而没有准确度损失。然而对于均匀量化,基线 ResNet 所有层的参数只能压缩到 8 比特而没有准确度损失(压缩到 4 比特会产生 1.6% 的 Top-1 准确度损失)。非均匀量化可以很好的捕捉到权重的不均匀分布,而均匀量化不能很好的实现这一点。第五章 DSD: Dense-Sparse-Dense Training现代高性能硬件的出现使得训练复杂、模型容量巨大的 DNN 模型变得更加简单。复杂模型的优势是它们对数据的表达能力很强并且能捕捉到特征和输出之间的高度非线性的关系。而复杂模型的劣势在于,比起训练数据中所需要的模式,它们更容易捕捉到噪声。这些噪声并不会在测试数据中生成,从而使模型产生过拟合和高方差。然而,只是简单的减少模型容量会导致另一个极端:欠拟合和高偏差(机器学习系统不能准确捕捉特征和输出之间的关系)。所以,偏差和方差很难同时优化。为了解决这个问题,我们提出了 dense-sparse-dense(DSD)训练流,以正则化深度神经网络,防止过拟合并达到更高的准确度。传统的训练方法通常是同时训练所有的参数,而 DSD 训练法会周期性的修剪和恢复神经连接,训练过程中的有效连接数量是动态变化的。剪枝连接允许在低维空间中进行优化,捕捉到鲁棒性特征;恢复连接允许增大模型的容量。传统的训练方法只在训练开始的时候将所有权重初始化一次,而 DSD 训练法允许连接在周期性剪枝和恢复的中有多于一次的机会执行初始化。DSD 的一个优势是最后的神经网络仍然拥有和初始的密集模型同样的架构和维度,因此 DSD 训练不会产生任何额外的推断成本。使用 DSD 模型进行推断不需要指定专门的硬件或专门的深度学习框架。实验证明 DSD 可以可以提高多种 CNN、RNN 和 LSTM 在图像分类、生成文字描述和语音识别任务的性能。在 ImageNet 上,DSD 提升了 GoogleNet Top-1 准确度 1.1%、VGG-16 Top-1 准确度 4.3%、ResNet-18 Top-1 准确度 1.2%、ResNet-50 Top-1 准确度 1.1%。在 WSJ』93 数据集上,DSD 把 DeepSpeech 和 DeepSpeech2 的错误率(WER)分别降低了 2.0% 和 1.1%。在 Flickr-8K 数据集上,DSD 将 NeuralTalk BLEU 的分数提高了 1.7 以上。图 5:DSD(Dense-Sparse-Dense)训练法中迭代进行剪枝和恢复权重的过程。第六章 EIE:用于稀疏神经网络的高效推断机6.1 介绍第三、四、五章介绍了三种提高深度学习效率的方法,本章着重介绍高效实现这些方法的硬件,「高效推断机」(EIE)[28]。该机器可以在稀疏的压缩模型上直接执行推断,节省内存带宽,实现大幅加速和能耗节约。通过剪枝和量化训练 [25] [26] 实现的深度压缩能够大幅降低模型大小和读取深度神经网络参数的内存带宽。但是,在硬件中利用压缩的 DNN 模型是一项具有挑战性的任务。尽管压缩减少了运算的总数,但是它引起的计算不规则性对高效加速带来阻碍。例如,剪枝导致的权重稀疏使并行变的困难,也使优秀的密集型线性代数库无法正常实现。此外,稀疏性激活值依赖于上一层的计算输出,这只有在算法实施时才能知道。为了解决这些问题,实现在稀疏的压缩 DNN 模型上高效地运行,我们开发了一种专门的硬件加速器 EIE,它通过共享权重执行自定义的稀疏矩阵乘法,从而减少内存占用,并在执行推断时实现大幅加速和能耗节约。EIE 是处理单元(processing element/PE)的一种可扩展数组(scalable array)。它通过在处理单元上交织(interleave)矩阵的行来分配稀疏矩阵并实现并行计算。每个处理单元在 SRAM 中存储一个网络分区,与子网络共同执行计算。EIE 利用了静态权重稀疏性、动态激活向量稀疏性、相对索引(relative indexing)、共享权重和极窄权重(4 比特/extremely narrow weights)。图 6.1:压缩 DNN 模型在 EIE 上运行。EIE 架构如图 6.1 所示。EIE 以压缩稀疏列(compressed sparse column,CSC)格式存储权重不为零的稀疏权重矩阵 W。EIE 只在权重和激活值都不为零的情况下执行乘法。EIE 以游程编码(run-length encoded)格式存储每个权重的地址索引。在量化训练和共享权重之后,每个权重只占用 4 比特,它们可访问由 16 个寄存器实现的查找表以解码成 16 比特权重。为评估 EIE 的性能,我们创建了行为级仿真和 RTL 模型,然后将 RTL 模型综合、布局布线,以提取准确的能量和时钟频率。将 EIE 在九个 DNN 基准上进行评估,它的速度分别是未压缩 DNN 的 CPU 和 GPU 实现的 189 和 13 倍。EIE 在稀疏网络上的处理能力为 102 GOPS/s,相当于在同等准确度的稠密网络上 3 TOPS/s 的处理能力,且仅耗散 600mW 的能量消耗。EIE 的能耗分别比 CPU 和 GPU 少了 24,000 倍和 3,400 倍。EIE 的贡献如下:稀疏权重:EIE 是第一个用于稀疏和压缩深度神经网络的加速器。直接在稀疏压缩模型上运行可使神经网络的权重适应芯片上 SRAM,比访问外部 DRAM 节省 120 倍的能耗。通过跳过零权重,EIE 节省了 10 倍的计算周期。稀疏激活值:EIE 利用激活函数的动态稀疏性来节约算力和内存。EIE 通过避免在 70% 的激活函数上的计算节约了 65.16% 的能量,这些激活函数在典型深度学习应用中的值为零。权重编码:EIE 是第一个用非统一量化、极窄权重(每个权重 4 比特)利用查找表执行推断的加速器。与 32 比特浮点相比,它获取权重节约了 8 倍的内存占用,与 int-8 相比,它节约了 2 倍的内存占用。并行化:EIE 引入了在多个处理单元上分配存储和算力的方法,以并行化稀疏层。EIE 还引入架构改变以达到负载平衡和优秀的扩展性。第七章 结论深度神经网络改变了大量 AI 应用,也正在改变我们的生活。但是,深度神经网络需要大量的计算量和内存。因此,它们很难部署到计算资源和能源预算有限的嵌入式系统中。为了解决该问题,我们提出了改善深度学习效率的方法和硬件。图 7.1:论文总结本文从三方面研究如何提高深度学习的效率:利用深度压缩实现更小的模型大小、利用 DSD 正则化实现更高的预测准确度,以及利用 EIE 加速实现快速、能耗低的推断(图 7.1)。这三个方面遵循相同的原则:利用神经网络的稀疏性进行压缩、正则化和加速。论文地址:https://stacks.stanford.e/file/druid:qf934gh3708/EFFICIENT%20METHODS%20AND%20HARDWARE%20FOR%20DEEP%20LEARNING-augmented.pdf百度AI实战营·深圳站将于 10 月 19 日在深圳科兴科学园国际会议中心举行,AI 开发者与希望进入 AI 领域的技术从业者请点击「阅读原文」报名,与百度共同开创人工智能时代。

敢问心斋

博士毕业论文得了0分,但是毕业生却很优秀!重视过程的博士考核

科研论文造假中外博士的追求不一样中国的博士生毕业难吗?有人会对比海外博士要求来对比,海外部分高校不要求博士毕业生有SCI论文数量的要求,博士阶段即便没有一篇SCI论文,海外博士照样会毕业,但是为何还有人说海外的博士比中国的博士更难毕业?主要是中国和海外的高等教育体制不一样,中国讲究结果考核制,而海外高校讲究过程考核制,中国社会看重学历和各类证书,而海外高校看重科研过程的评估,当中国的博士生想法设法发SCI论文时,很多人为了毕业不得不花钱买论文,中国每年的教授和毕业生为了职称和毕业,养活了世界上无数家的科技杂志,你情我愿的配合,因此很多科技期刊因为发现批量中国学者学术造假被SCI踢出数据库。甚至在国内学术论文发表造假都有一条龙服务,当走捷径的人花钱顺利发表SCI论文毕业后,那些泡实验室的学生们还在辛苦的加班做实验,因为在国内就业市场上,看重的是学历,而不是你学到的知识和科研经验!等级考核制等级博士制度,值得中国借鉴同样是博士毕业,不同的高校水平有很大的差异性,而在德国,博士毕业要分等级,全国的博士必须挂靠高校,就像类似中科院的马普所,他们招收的研究生,马普所并没有学位授予权,而只能挂靠高校,所有的博士毕业论文都需要外审和打分,这也是为何德国马普所羡慕中科院的原因,马普所没有学位授予权,只能通过高校的科研审核,而中国科学院有些所的研究生毕业生质量真心不如普通高校,特别是一些做项目的研究生,没有多少的科研素养,仅仅是参与项目的打工者而已,这也是德国马普所没有学位授予权的重要原因,需要经历高校学术研究的考量,没有经历学术实验的研究,就不能称为博士研究生!重视过程和内容的培训骄傲的0分论文所谓博士研究生,需要是对某一领域的专业素养的培养,一名合格的博士生并不能拿SCI论文数量来考量,这和导师的水平和课题有很大的关联,需要看这名学生在博士生涯做过多少科研实验数据,学到了多少科研方法和思维,就拿德国学徒制的博士考核机制,到教授觉得自己的博士生达到毕业要求的时候,就算是没有一篇论文也可以毕业,教授会根据课题的难易度来清晰的判断一名博士的水平,德国教授们看重博士生成长的过程,在实验室的表现,在组会上的思维表达,当觉得水平到了博士水准时,就可以安排学生写论文,然后外审,经过评委打分,德国的博士打分机制非常奇怪,0~5分,0分是最优秀的博士毕业论文,属于学校特批的博士论文,而1分是优秀的博士论文,占比在20%,2~3分为合格的博士毕业论文,4~5分则是不合格的博士毕业论文,不予毕业,需要重新做实验写博士论文,不管你发表了多少篇SCI论文,只要你的博士毕业论文没有满足要求,那么你还是不能毕业,这一点减少了学术造假博士的产生

十义

翟天临的博士论文645KB?我默默去翻看了一下我的硕士论文~

这两天翟天临的热搜真可谓高居不下啊,究其原因,真是虚荣过了头,广大网友看不下去了,便栽了跟头。俗语说,一个人缺什么就会炫耀什么,中国的艺人普遍学历不高,多出自北影、中戏等艺术学府,但从专业角度来说,无可厚非,人不一定完美,在自己的专业领域出彩就很棒了。也许是近些年广大网友们更追捧不仅演技好,还学历高、能说一口流利的英语的明星艺人,导致了翟的自我人设设计?说实话,如果是真实的、符合学位授予标准的博士,公平招录的博士后,那么,还真是挺让人佩服的,毕竟在浮躁的娱乐圈,能够沉下心来深造是很不容易的事情。然而,就近期广大网友发现的所有证据来看,恐怕很难。其实,演员这个行业,在好莱坞真的是不缺高学历高颜值的人,但是中西方文化不同,在中国的很多艺人看来,做演员不一定是梦想和喜欢的职业,也可能是来钱快、成名快、受万人景仰的一件事儿;而且很多是长得漂亮学习不好的孩子们选的路。但我们不能一刀切,确实还是存在很多老艺术家,真心热爱这个职业的人。只是现在的社会,娱乐圈确是浮躁的典型代表。说回翟天临,栽跟头的源头大概有两件事儿:一、于正发微博暴露了翟的博士论文只有645KB;二、翟天临在直播中对知网是什么东西充满疑惑。我想,但凡是正儿八经上过大学需要写论文的学生,没有哪一个是不知道知网的吧,毕竟没有比它更全面更好用的文献库了,不然,文献都从哪里来?Google学术吗?似乎写的也不是纯英文的论文啊。而且,写论文前学校一般都会进行培训或者老师会进行简单的说明吧,告诉大家论文怎么写,去哪里找文献。再不济,还有查重呢?查重难道不都是统一在知网上进行的嘛?再说论文文件的大小,645KB。对于这个大小真的是一看到就心存疑虑啊,竟然没上兆(M)?吓得我赶紧去翻了一下我的硕士论文,近七万字,2.81M,当然还包括图表。然后有网友说论文纯文字的话645KB是10万字左右的,但是论文纯文字?我翻看了一下本科的毕业论文,不足一万词的全英论文,前后还有封面页、摘要、各种要求的表格,加起来199KB了。一个高等学府的博士论文,有可能纯文字吗?还有各种格式和脚注呢?怎么算645KB都不足以是一篇博士论文的文件大小。在认真的网友们各种搜索和查重下,且不说博士论文符不符合要求,没有发核心期刊、论文查重不过关这两项已经是不符合了。网友们暴怒的原因我想主要是他这个博士学位拿的太容易了。读硕士尚且很难,况且博士呢?我回想了一下我读硕士期间,为了毕业论文写什么头疼到脾气暴躁一点就着,定下题目又久久写不出一个字,文献综述改了一遍又一遍,怕自己立论不够、怕写不够字数、怕查重不过、怕答辩发挥不好。总之,在确认可以拿到学位后是打死也不肯读博了。因为纵观一众博士师兄师姐,那不是人干的活儿,就我这种学渣,发量本就不多,再读博怕是要秃头;那么多书要看,还要出国联合培养,论文多达十万字,怎么想自己都毕不了业。可翟同学读博期间开有6家公司、24个代言,时间那么少,哪来的时间看书上课做学术的呢?而真正做学术的人,每天那么辛苦那么累,为了发文章和毕业,头发大把的掉,每天都心慌揪心的,少学一天都觉得要完蛋。怎么活跃在荧幕前的翟同学拿学位毕业就那么容易呢?学术不端这事儿如果是真的,那对于学术界是一种侮辱,对于真正做学术的人是不尊重,对于中国教育是污点。如果这事儿是假的,那么我只好承认我们的娱乐圈有学术天才一名。对于这点,我很不乐观呀~

比干剖心

硕士、博士研究生,青年学者学术论文发表历程

硕士研究生,博士研究生的研究成果,有一个重要的衡量标准是发表论文及专利。在学术研究发表论文的道路上,多少年轻教师,研究生们因为资历,职称,国家级社科项目等因素尝尽了苦头。建立世界一流大学,建设世界一流的学科,需要有一流的研究性老师和学生。如果学术研究要看老师的职称,科研项目,这对年轻教师来说是极大的挑战,也不利于年轻教师的成长。正是因为这种制度,国家流失了多少优秀的人才?许晨阳当初严厉拒绝了高薪职位邀请,但是在北大教学六年后,他为什么再次回去。这样的例子还有多少,这里暂不做讨论。今天咱们主要讨论国内发表论文流程和国外发表论文流程性的差异问题(今天暂时不谈论文中介,后面专门讨论)。南大核心期刊(CSSCI简称C刊)上发文在南大核心刊物上上发表论文,其中影响因子高的期刊,需要提高作者的详细简历,研究团队的详细简历,如果还没有评定职称,直接被拒稿。拒稿的理由也很奇葩:论文创新性不够!短时间拒稿还算不错的期刊,起码给你有反馈。还有些很多期刊则明文规定,投稿后如果两个月没有收到任何答复,建议作者另投它刊物。在国内C刊上没有被发表的论文,翻译后很快会被SCI期刊录用,且影响因子还不低。这样的“怪事”时常发生,为什么?有人反思过吗?国内期刊审稿,首先看“论资排辈”:两院院士、长江学者,万人计划,教授,副教授,按照学术地位逐级递减。再看论文有没有科研项目支撑。申请科研项目,也是同样的道理,话语权集中在少数人手里。学者饶毅曾怒斥:几位老院士围着一个处长赔笑 ,揭露学术腐败!C刊版面费和数据库收费也很有意思。如果论文被录用了,需要作者交版面费。如果要查询论文,还需要购买数据资源。只有科研机构,高校购买了数据库,才能看到论文信息,单独浏览和下载都需要收费。这种既收作者的版面费,又收科研机构,高校的数据库费用,按道理来说服务应该会更好,但实际结果就是年轻学者研究学术处处遇到困难。在这种条件下会让学者耐心逐渐丧失,有些学者评上职称后,就不在做学术研究了,原因也许是关卡太多了吧!国外期刊普遍SCI期刊上发文在SCI上发文,其中影响因子高的期刊,只要你论文水平不够,会很快(两周之内)收到回信邮件。邮件里明确指出你哪些地方创新不够,他们论文量较大,建议作者去哪些对应的期刊。反馈信息中作者也能看出自己哪些不出,有时编辑还会建议做哪些实验和其他相应的分析研究会更加号,反馈信息比较具体,不像国内编辑“创新不够”几个字打发了。如果被SCI期刊录用了,一般不会全文一字不改的录用,而是编辑会提出修改意见。修改意见有大修改和小修改两类,作者只要按照编辑给的修改意见一条一条落实了,论文质量提升了,对于研究者来说,科研水平进一步提升了。在SCI上发文,不会要求作者提供详细的简介,职称。编辑回信一般都是称呼Doctor xx……编辑给的拒稿意见还是修改意见都能帮助作者,这种氛围有人不喜欢吗?国外论文录用收费有两种情况:1.收作者版面费,则论文公开,外网都可以下载;2.不收作者版面费,需要在相应收费数据库下载论文,单独下载论文需要额外交钱。说道这里,C刊这种既要收版面费,又要收数据库费用的服务有更深的体会了吧!感想和建议对比外发南大核心期刊和SCI期刊后,年轻的学者们,如果你在C刊发表过程也遇到类似的情况,建议花点功夫翻译成英文在SCI上发表吧。刚刚开始翻译论文比较痛苦,长久的好处是显而易见的。在双一流学科建设中,学术期刊要不要进一步提升自己的水平,给年轻学者给予更多的支持。只有一代代青年学者成长起来,建设成为世界一流大学和一流学科才更加有希望。——END——今日话题:关于研究生以及青年学者发表论文中遇到的“那些事”欢迎留言讨论

梅龙镇

阿尔伯塔大学博士毕业论文:基于图结构的自然语言处理

机器之心发布机器之心编辑部自然语言处理(Natural Language Processing)是人工智能的核心问题之一,旨在让计算机理解语言,实现人与计算机之间用自然语言进行通信。阿尔伯塔大学(University of Alberta)刘邦博士在他的毕业论文《Natural Language Processing and Text Mining with Graph-Structured Representations》中,对基于图结构(graph-structured representations)的自然语言处理和文本挖掘进行了深入研究。这篇博士论文将自然语言处理和文本挖掘的多个核心任务与图结构的强大表示能力结合起来,从而充分利用深度学习的表示能力和文本中的结构信息来解决诸多问题:(1)组织信息(Information Organization):提出了基于树/图结构的短文本/长文本对的分解算法以提高语意匹配任务(semantic matching)。基于文本匹配,进一步提出事件粒度的新闻聚类和组织系统 Story Forest;(2)推荐信息(Information Recommendation):提出了 ConcepT 概念挖掘系统以及 GIANT 系统,用于构建建模用户兴趣点以及长短文本主题的图谱(Ontology)。构建的兴趣图谱 Attention Ontology 有助于对用户与文本的理解,并显著提高推荐系统的效果;(3)理解信息(Information Comprehension):提出了 ACS-Aware Question Generation 系统,用于从无标注的文本中生成高质量的问答对,大大降低问答系统的数据集构建成本,并有助于提高阅读理解系统的效果。论文链接:https://sites.ualberta.ca/~bang3/files/PhD-Thesis.pdf引言自然语言处理(NLP)旨在读取和理解未结构化的自然语言文本来完成不同的任务。「如何表示文本」以及「如何进行计算」是其中的两个核心问题。早期的 NLP 研究中,利用 bag-of-words 模型表示文本,通过统计不同单词的频次来形成文本的向量表示,同时结合统计方法进行文本处理,这丢失了文本的词序信息以及单词之间的联系,本质上是用 one hot encoding 来表示每个单词;在深度学习中,研究者根据单词的共现来学习词向量,每个单词由一个 dense vector 表示,语意相似或联系紧密的词在向量空间中距离更小,再结合 RNN 模型(LSTM,GRU 等)进行文本编码完成各种任务;其后又有研究工作将文本类比图像,编码形成矩阵表示,结合 CNN 类模型进行计算;近年来,预训练语言模型,利用自监督学习训练各类大型语言模型,从而给单词或文本赋予上下文敏感的(context-sensitive),多层的语义向量表示,其采用的模型是多层的 Transformer。自然语言的形式及其语意具有层次性(hierarchical),组合性(compositional)和灵活性(flexible)。已有的研究并未充分利用各类文本中存在的语义结构。图(graph)是一种通用且强大的表示形式,可以表达各种不同对象以及它们之间的联系,无论是在自然语言处理,还是在社交网络,现实世界等各种场景都无处不在。本论文在深度学习强大的表示学习能力的基础上,设计并结合了不同的文本的图结构化表示,并利用图结构计算模型,例如图神经网络(Graph Neural Networks), 去解决不同的自然语言处理和文本挖掘问题。论文包含三大部分:第一部分介绍了文本的聚类和匹配,提出各类匹配问题的结构化算法,并进一步提出 Story Forest 系统用于新闻事件的聚类组织和结构化表示。该系统落地到腾讯 QQ 浏览器热点事件挖掘。第二部分关注文本挖掘,提出了 Attention Ontology 兴趣图谱,挖掘和描述用户不同粒度的兴趣点,建立不同兴趣点之间的联系,并可用于刻画文章主题。这部分工作显著提高了 QQ 浏览器,手机 QQ,微信等应用中的信息流推荐系统的效果。第三部分关注文本生成,提出了 ACS-QG 系统,自动从无标注文本中生成高质量的问答对,可用于问答系统的训练,有助于大大减少数据集创建成本,以及提高机器阅读理解的能力。图 1. 文本表示形式以及计算模型的演化图 2. 论文的组成框架第一部分:文本的匹配与聚类第三章 Story Forest 事件聚类组织系统在信息爆炸的年代,查询并找到有价值的信息,对用户而言并不是非常简单的任务。目前的搜索引擎或者信息流服务,会给用户提供一个文章列表。这些新闻文章会包含大量冗余信息,缺乏结构化的组织。本文提出 Story Forest 系统,对新闻文章做事件(event)粒度的聚类,使得报道同一个现实中的事件的不同文章聚类成一个节点,相关联的事件形成结构化的故事树(story tree), 来表征关联事件之间的时间顺序和发展关系。图 3.「2016 年美国总统大选」的故事树,树中的每一个节点代表一个事件已有的文本聚类方法不能很好地对文章进行事件粒度的聚类效果。本文提出 EventX 聚类算法,它是一种双层聚类算法:在第一层聚类中,利用所有文章中的关键词,形成关键词网络(Keyword Graph)并对其进行图分割,分割后的每一个关键词子图,代表一个大的话题,再利用相似度将每篇文章分配到一个最相似的关键词子图之下;在第二层聚类中,每一个关键词子图下的文章形成一个文章图(doc graph), 相连的边代表两篇文章讲述同一个事件,再对文章图进行社区检测(community detection),从而做了第二次聚类。每一个文章子图里的文章代表一个事件。通过双层聚类,即可以对文章对之间做细粒度的语义比较,又可以控制时间复杂度。在得到事件聚类之后,不同的事件节点通过故事结构组织算法,在线插入到已有的故事树中形成故事结构。如果一个事件不属于任何已有的故事树,则形成一个新的故事。图 4. Story Forest 系统以及 EventX 聚类算法第四章 基于图分解和图卷积的长文本匹配文本匹配是判断两个文本之间的关系或者相关度,是 NLP 中的核心问题,有很多的任务其核心都可视为一个文本匹配任务。根据匹配的源文本和目标文本的长短,我们可以将文本匹配任务分成四大类:长文本匹配任务,例如 Story Forest 系统中,一个核心的任务是判断两个文章是否在讲同一个事件;短-长文本匹配,例如输入 query 搜索匹配的文章;短文本匹配,例如问答对匹配,句子对相似度衡量等;长-短文本匹配,例如文本主题分类等等。图 5. 根据源文本和目标文本的长短,将不同文本匹配任务分成四类本章专注于长文本匹配任务,这是很重要的研究问题,然而在此之前,很少的研究工作专注于此。已有的算法基于 Siamese Neural Network 或者 CNN 来编码句子对或者句子之间的交互,无法很好的处理长文本匹配的任务。因为长文本的长度,导致计算复杂度较高;语言的灵活性,导致文本对之间对应的内容难以对齐;同时编码器也难以准确地编码长文本的语义。本文提出 Concept Interaction Graph 用于分解一篇或者一对文章。其主要思想是「化整为零,分而治之」。CIG 中的每个节点包含几个高度关联的关键字,以及和这些关键字高度相关的句子集。当进行文本对匹配时,每个节点包含来自两篇文章的两个句子集。这样,多个节点代表了两篇文章中的不同的子话题,并囊括了文章中的一部分句子并进行了对齐。节点之间的边代表不同子话题之间的联系紧密度。图 6. 根据文章构建 Concept Interaction Graph 的 toy example基于 Concept Interaction Graph,论文进一步提出通过图神经网络(Graph Neural Networks)对文本对进行局部和全局匹配。具体而言,对每个节点上的文本对,利用编码器进行局部匹配,从而将长文本匹配转化为节点上的短文本匹配;再通过图神经网络来将文章结构信息嵌入到匹配结果中,综合所有的局部匹配结果,来得到全局匹配的结果。图 7. 基于 Concept Interaction Graph 和图卷积神经网络的长文本匹配第五章 基于层次化分解和对齐的短文本匹配对于短文本匹配,论文提出了层次化句子分解(Hierarchical Sentence Factorization)来将句子分解为多层的表达,每一层都包含完整的所有单词,并且语句重排列为「predicate-argument」的顺序。随着层数的增加,一个句子逐渐被分解为更加细粒度的语义单元。因此,利用这种多层次,重排序的句子表示,我们可以对齐两个句子,并结合不同的语义粒度去比较他们的语义距离。图 8. 基于层次化句子分解(Hierarchical Sentence Factorization)的句子匹配这种句子分解技术利用了 Abstract Meaning Representation 来对句子做 semantic parsing。然后,它通过一系列的操作,使得每一层都包含句子中的所有单词。对于每一个语义单元,都是谓词(predicate)在前,参数(argument)在后。这种表示充分展现了自然语言的层次性,组合性,并利用归一化的词序来克服自然语言表达的灵活顺序。基于句子的层次分解,论文进一步提出无监督的 Ordered Word Mover's Distance, 结合了最优传输理论的思想去建模句子之间的语义距离。其效果经试验验证显著优于 Word Mover's Distance。同时,论文也提出了将句子的多语义粒度表达,应用于不同的文本匹配模型中,例如 Siamese Neural Networks 中。实验证明,多粒度的匹配效果,显著优于只利用原句进行匹配的效果。第二部分:文本挖掘第六章 ConcepT 概念挖掘系统概念蕴涵了世界的知识,促进了人类的认知过程。从文档中提取概念并构建它们之间的联系对于文本理解以及下游任务有着重要的作用。认识「概念」(concept)是人类认识世界的重要基石。例如,当看到本田思域(Honda Civic)或者现代伊兰特(Hyundai Elantra)时,人们可以联想到「油耗低的车」或者「经济型车」这类的概念,并且能进而联想到福特福克斯(Ford Focus)或者尼桑 Versa(Nissan Versa)等车型。图 9. 人类能对事物进行概念化并产生联想过去的研究工作,包括 DBPedia, YAGO, Probase 等等知识图谱或者概念库,从维基百科或者网页文章中提取各种不同的概念。但是这样提取的概念和用户的认知视角并不一致。例如,与其认识到丰田 4Runner 是一款丰田 SUV 或者说是一种汽车,我们更感兴趣是否能把它概念化为「底盘高的汽车」或者「越野型汽车」。类似地,如果一篇文章在讨论《简爱》,《呼啸山庄》,《了不起的盖斯比》等电影,如果我们能认识到它在讨论「小说改编的电影」这个概念,那么会帮助极大。然而,目前的知识图谱等工作目的是建立一个关于这个世界的结构化知识表示,概念提取自语法严谨的文章。因此,它们不能从用户的视角去对文本(例如 query 和 document)进行概念化,从而理解用户的意图。另一方面,目前的工作也主要在于提取长期稳定的概念,难以提取短时间出现的热门概念以(例如「贺岁大片」,「2019 七月新番」)及它们之间的联系。我们提出了 ConcepT 概念挖掘系统,用以提取符合用户兴趣和认知粒度的概念。与以往工作不同的是,ConcepT 系统从大量的用户 query 搜索点击日志中提取概念,并进一步将主题,概念,和实体联系在一起,构成一个分层级的认知系统。目前,ConcepT 被部署在腾讯 QQ 浏览器中,用以挖掘不同的概念,增强对用户 query 意图的理解和对长文章的主题刻画,并支持搜索推荐等业务。目前它已经提取了超过 20 万高质量的基于用户视角的概念,并以每天挖掘超过 11000 个新概念的速度在不断成长。ConcepT 系统的核心算法架构同样适用于英语等其他语言。图 10. ConceptT 概念挖掘流程:从用户搜索点击日志中挖掘概念ConcepT 系统还可以用于给文章打上概念标签。主要包含两种策略:基于匹配的标记算法和基于概率推断的标记算法。图 11. ConcepT 文章标记流程:将文章打上关联的概念标签图 12. ConcepT 系统从用户搜索 query 中提取的概念展示图 13. 在线 A/B test 结果。ConcepT 系统对 QQ 浏览器信息流业务各项指标有明显提升。其中最重要的指标曝光效率(IE)相对提升了 6.01%。图 14. ConcepT 系统对文章打上概念标签。目前每天可处理 96700 篇文章,其中约 35% 可以打上概念标签。我们创建了一个包含 11547 篇文章的概念标记数据用以评测标记的准确率。人工评测发现,目前系统的标记准确度达 96%。第七章 用户兴趣点建模 Attention Ontology上一章中,我们介绍了概念挖掘系统。为了更加全面的刻画用户兴趣点,我们进一步挖掘包括概念(concept)和事件(event),话题(topic)等等在内的多种短语,并和预定义的主题(category)以及实体库中的实体(entity)等形成上下位等关系。我们将这个包含多种节点,多种边关系,用于用户兴趣点或关注点建模的图谱命名为 Attention Ontology。图 15. Attention Ontology,包含五种节点,代表不同语义粒度的用户兴趣点;三种关系,代表节点之间的上下位,包含,以及关联。Attention Ontology 可以解决「推荐不准」和「推荐单调」的问题。例如:当一个用户看了关于「英国首相特蕾莎梅辞职讲话」的文章后,目前基于关键词的推荐系统可能会识别关键词「特蕾莎梅」,从而推荐给用户很多关于特蕾莎梅的文章。然而这大概率并不是用户的兴趣点。这是「推荐不准」的问题,原因在于系统中缺乏或无法识别合适粒度的兴趣点。另一方面,系统也可能继续推荐更多关于「英国首相特蕾莎梅发表演讲」的文章,这些文章与用户已经浏览过的文章产生了冗余,无法带给用户更多有价值的信息,因此用户也不感兴趣。这是「推荐单调」的问题,而这个问题的本质在于缺乏不同兴趣点之间的联系。Attention Ontology 中包含不同粒度的用户兴趣点,并且不同的节点之间有边来表示它们之间的联系。例如根据 Attention Ontology,我们可以认识到「特蕾莎梅辞职讲话」是和「英国脱欧」这一中等粒度的兴趣点相关的。如果用户浏览了「英国脱欧」这一兴趣点下的不同事件的文章,我们便可以识别出用户不是关注「特蕾莎梅」这个人或者「特蕾莎梅辞职演讲」这一个特定事件,而是关心「英国脱欧」这一话题。而另一方面,知道了用户关注这一话题之后,利用不同兴趣点之间的联系,我们可以给用户推荐相关的文章,从而解决推荐不准和推荐单调的问题。为了挖掘不同性质的短语,如概念和事件短语,论文提出了 Query-Title Interaction Graph(QTIG)用于建模 query 文章 title 之间的联系。这种表示结构将不同 query 和 title 之间的对齐信息,词的 tag,词之间的距离,语法依赖等等信息嵌入在节点特征和边的特征中。利用这种表示,论文进一步提出 GCTSP-Net 模型,将短语挖掘问题建模为「节点分类+节点排序」的问题。该模型对 QTIG 进行节点二分类,抽取出属于目标短语的词;再将节点排序建模为一个旅行商问题,寻找一个最优路径将所有的分类为正的节点进行排序。按照得到的路径,将分类为正的节点串联起来,便得到了输出短语。图 16. Query-Title Interaction Graph. 图中绿色节点为属于输出短语的词。每一个节点代表 query 或 title 中的一个独特的词,边代表两个词相邻或者存在语法依赖。论文设计并实现了构建 Attention Ontology 并将其应用在不同应用中的 GIANT 系统。GIANT 系统包含几大模块:首先,根据用户的搜索 query 和点击日志形成的二分图,来进行聚类得到不同的 query-doc clusters。每个 query-doc cluster 包含一个或多个相似的 query,以及他们的 top 点击的文章。对每一个 query-doc cluster, 我们将其转化为 Query-Title Interaction Graph 表示,并利用 GCTSP-Net 抽取潜在的短语。接下来,我们再利用不同的算法去抽取不同短语之间的关系,形成 Attention Ontology。最后,利用 Attention Ontology 去实现多种应用,包括文章的 tagging,query 的概念化,文本的聚类组织等。同时,Attention Ontology 中的节点可用于在用户画像中描述用户的兴趣点。这样可以提高用户和其感兴趣的文章之间的匹配,从而提高推荐系统的效果。图 17. GIANT 系统架构第三部分:文本生成第八-九章 问答对自动生成问题生成是一种非常重要的文本生成问题,它可以应用在问答系统的训练数据生成,对话系统,教育等等应用中。图 18. 问题生成的不同应用及重要性已有的问题生成系统一般给定一句话和一个答案,要求系统生成某个特定的问题。这种系统属于 answer-aware question generation 系统。然而,它们生成的问题质量并不够好。一个核心问题在于,给定输入的句子和一个答案,我们能问出多个不同的并且合理的问题,是「一对多匹配(one-to-many mapping)」,而训练集中每个输入只有一个标准答案,是「一对一匹配(one-to-one mapping)」。图 19. 根据同样的输入可以问不同的问题本文提出 answer-clue-style aware question generation(ACS-QG)任务,将人提问的过程建模成四步:第一,根据输入选择一部分作为答案(answer);第二,选择一部分和答案相关的信息作为线索(clue)在问题中复述或转述;第三,根据答案选择问题的种类(style),例如 who, where, why 等等,共 9 种;第四,根据输入的句子和以上三种信息(答案 answer,线索 clue, 问题种类 style),生成问题。图 20. 根据输入生成问题的过程问题生成的过程可以从语法树的角度去观察:选择答案片段就像是从语法树中覆盖了一部分信息,而选择线索片段(clue)的过程就是在覆盖的信息附近,选择一部分节点作为提示输出到问题中。图 21. 利用语法树建模问题生成过程本文提出的 ACS-QG 系统,可以从无标注的句子中,生成高质量的问答对数据。它由以下模块组成:数据集创建模块,可以从目前已有的问答数据集(例如 SQuAD)中,创建 ACS-QG 任务的训练数据集;输入选择模块,可以从无标注的句子中,合理的选择和创建(answer, clue, style)三元组作为问题生成的输入;问题生成模块,可以利用输入三元组生成问题,这个模块的训练数据来自于第一个数据集创建模块;质量控制模块,用于过滤低质量的问答对。图 22. ACS-QG 问题生成系统实验证明,ACS-QG 系统能生成大量高质量的问答对,并且效果显著优于一系列已有的问题生成算法。第十章 结论和未来工作本论文利用图结构建模了一系列 NLP 问题中的文本数据,并结合深度学习模型,提高了多种任务的效果。论文中的各种研究,对信息的聚类组织,推荐,以及理解有着重要的意义。未来的研究方向包括:长文本理解,多任务协同学习,以及通用的基于图结构的表示,学习与推理。本论文中的研究已经发表在 SIGMOD,KDD,ACL,WWW,TKDD,CIKM 等各类 top conference 中,论文列表可在作者个人主页找到:https://sites.ualberta.ca/~bang3/publication.html

何谓坐忘

每章都能当做一篇博士论文:闫令琪获SIGGRAPH 2019最佳博士论文奖

昨天,顶级计算图形学机构 ACM SIGGRAPH 颁发了 2019 年最佳博士论文奖。获奖者闫令琪博士毕业于加州大学伯克利分校(UC Berkeley),目前已是加州大学圣巴巴拉分校(UCSB)的一名助理教授。他的博士论文颁奖词是这么说的:「他的论文每章都可以自成一篇博士论文。」从高考状元到计算机科学「学神」,闫令琪博士的学术成就与贡献还不止于此。英伟达最新的 RTX 系列显卡使用的「光线追踪技术」就是源自于闫令琪等人的研究。从高考状元到 CS 学神闫令琪于 2018 年 9 月起任加州大学圣巴巴拉分校助理教授,在此之前他在 2018 年获得了加州大学伯克利分校的博士学位,导师为 Ravi Ramamoorthi。在 2013 年,他获得了清华大学计算机系学士学位。在伯克利毕业之前,人们对闫令琪的印象或许更多的是「2009 年安徽省阜阳高考状元」,他的高考分数为 695 分,名列全省第二。他曾在总结自己高中学习方法时表示:目标性、计划性、劳逸结合是几个重点。「首先要清楚自己的实力。」要想有一个理想的分数,就不能无谓失分,在平时练习时,不要放过任何一个小错误。例如数学选择题,一旦做错了一道题,就要逼迫自己去多做几题「长记性」。时间分配上,闫令琪认为在校时间要合理利用,不能一味注重数理化,而忽视了语文和英语;一天的劳累学习后,回到家里可以适当放松,劳逸结合才能有好的学习效果。闫令琪特别提到不要做无用功。例如数学大题中的三角函数、立体几何等题没有太多花样,对于这类题,只要知道思路,无需浪费太多时间。对于数学试卷的最后一题,要会在做题的同时总结方法;而对于基础题注重运算能力,切勿粗心而丢分。据说,闫令琪在高中时代是一个特别会玩的学生。紧张的高考前夕,他每天玩游戏的时间都在 1 个小时以上,而他当时的目标就是考取清华大学计算机系。进入 UC Berkeley 之后,闫令琪的主要研究方向是基于物理的真实感图形渲染及其相关的数学和物理理论,具体包括基于微观细节的材质观测和建模、离线和实时光线追踪、信号的采样和重建、高效的光线传播和散射等等。作为一名优秀的研究者,他开创并启发了一系列下一代计算机图形学的研究方向,如高度细致的渲染和实时光线追踪。闫令琪曾于 2018 年因开创性的研究被授予 C.V. Ramamoorthy 杰出科研奖 —— 这是历史上首位获奖的华人。此外,他的科研成果还被直接应用于电影和游戏业,曾帮助影片《猩球崛起 3:终极之战》于 2018 年获得奥斯卡最佳视觉效果奖提名。最佳博士论文奖有着开创新领域的贡献,闫令琪获得最佳博士论文奖着实让人感到实至名归。ACM SIGGRAPH 对于闫令琪的论文有很高的评价:闫令琪的论文以统一、综合的视角介绍了计算机图形渲染视觉外观建模。每个章节都能独立成为一篇博士论文的主题。该研究生成的惊艳视觉图像,成为了近期 SIGGRAPH 大会上的亮点,也为产业带来了极大的实用性影响。闫令琪发表过 7 篇有关图形学的 SIGGRAPH 和 ACM Transactions 一作论文,这是前所未有的。该论文为三大领域提供了突破性贡献:镜面微观结构或者微光(glints)建模、皮毛反射(fur reflectance)和快速在论文第二章中,闫令琪开发了一个动物皮毛模型,并用测量与模拟方法进行了测试(简化、泛化了该模型),作者也展示了如何用它完成全局光照计算。该技术被 Weta Digital 用于电影「猩球崛起 3:终极之战」。第三章节内容有关全局光照,展示了对蒙特卡洛渲染去噪方法的重大突破,也介绍了其他基于滤波的去噪方法。这些以及其他相关的研究启发了当前蒙特卡洛采样方法和去噪管道,包括英伟达最新的软件(Optix5,2017)和硬件(RTX GPU,2018),使得实时光线追踪首次成为可能。英伟达 RTX 系列芯片可以实现前所未有的视觉体验,我们还记得黄仁勋在 GTC 大会上的介绍:它可以在游戏中呈现不同材质的反光,以及反光的反光,实现电影级的效果。闫令琪在解决这一领域的开放问题上做了许多工作,他从全新的方向解决计算机图形的问题,超越了传统认为不可能的范围。在这个过程中,他打开了新的子领域,变革了我们当前对渲染、视觉外观、生成全新图像的的认知。闫令琪已经发表了十几篇有关图形学的 SIGGRAPH 和 Transactions 论文。SIGGRAPH 社区以 2019 ACM SIGGRAPH 博士论文奖表彰他取得的卓越成就,也期待未来他能作出更多惊艳的成果。开天辟地的研究让我们看看闫令琪的博士论文《Physically-based Modeling and Rendering of Complex Visual Appearance》究竟讲了什么:论文链接:https://sites.cs.ucsb.e/~lingqi/publications/thesis_final.pdf在这篇论文中,我们主要研究物体渲染,这种渲染能够根据 3D 模型和场景合成图像。当前最先进的渲染技术仍要面临两个基本的挑战:真实感和速度。渲染结果能看出来是人工生成的,过于完美,反而失真;而且渲染过程太慢,无论是对于离线还是交互式应用程序来说。此外,更佳的真实感和更快的速度本质上就是矛盾的,因为当渲染试图产生保真度更高的详细结果时,计算复杂度会大量增加。为了兼顾二者,本文引入了细节渲染和外观建模的概念,准确展示和复现从微米级到整体外观的丰富视觉世界,并将稀疏光线采样与快速高维滤波相结合,从而实现实时性。为了使渲染更加真实,我们首先强调的是细节。但是,渲染具有大量细节的复杂表面绝非易事。传统上,表面的微观结构是通过平滑的正态分布近似得到的,但这样容易忽略细节,比如在现实世界中容易观察到的微光效果。虽然建模实际的表面微观结构是可能做到的,但使用蒙特卡洛点采样方法会导致成本高昂的问题:能量会集中在微小亮点上,而这种微小亮点只占据了像素的极小部分。相反,我们使用完全不同的确定性方法来计算蒙特卡洛最终会收敛到的准确解。我们的方法考虑了通过单个像素看到的表面上高度复杂的法线分布。假设表面分别是由 2D 平面三角形或 4D 高斯元素组成,我们展示了用封闭形式解有效评估这一点的不同方法。我们还展示了如何扩展该方法来准确处理波动光学。我们的研究结果显示,非平滑的塑料、刷过或刮过的金属、金属漆和海浪等材料会产生复杂的、随时间变化的微光。如上所述,尽管渲染细节带来了许多挑战,但我们假设自己知道表面是如何反射光的。然而,现实世界中有大量的自然材料,我们并不知道它们与光交互的准确方式。为了真实地渲染这些材料,我们需要从微观结构中导出准确的外观 / 反射模型来定义它们的光学行为。我们在第四章中通过引入动物皮毛的反射模型证实了这一点。渲染逼真的动物皮毛是计算机图形学领域的一道长期难题。人们在建模人类毛发的几何复杂性方面已经取得了相当大的成就,但毛发纤维的外观 / 反射却还无法很好地理解。基于解剖学文献和测量,我们开发了一个单根毛发纤维反射的双筒模型,其中外筒表示对被多个角质层覆盖的皮层的生物观察,内层表示散射内部结构(被称为延髓),人类毛发纤维中通常不存在这个。我们通过对真实毛发纤维的测量来验证物理模型,并引入了计算机图形学中的第一个数据库,用于 9 个皮毛样本的反射剖面。为了有效进行渲染,我们开发了一种方法来预先计算 2D 延髓散射轮廓,并且用因子化波瓣(factored lobes)来近似反射模型。我们还开发了许多优化方法,在不损失准确率的情况下提升效率和通用性。另外,我们还提出了首个全局光照模型,基于用于表面散射的偶极扩散(dipole diffusion),通过将复杂的光和毛发交互建模为次表面散射,并且用简单的神经网络将毛发纤维的特性转换为散射参数,来近似单个毛发纤维之间的光反弹。然而,如果没有这些细节来改善渲染的真实感,使用当前最先进的蒙特卡洛射线追踪的渲染方法性能依旧低下。物理上正确、无噪声的图像每个像素可能需要数百或数千个光线样本,并且需要很长时间来计算。最近的方法利用了稀疏采样和滤波。滤波方法虽然很快(轴对齐),但需要更多输入样本,或者说输入样本过少速度又会非常慢(剪切)。在第 5 章 [143] 中,我们提出了一种在 GPU 上进行快速剪切滤波的新方法。我们的算法将 4D 剪切滤波器分解为 4 个 1D 滤波器。我们推导出该方法的复杂边界,结果显示每像素复杂度从减少到 O(nl),其中 n 是线性滤波器宽度(滤波器大小为 O (n^2)),l 是(通常非常小)每个像素的光或透镜的每个维度的样本数量(spp 是 l^2)。因此,我们大大减少了剪切滤波开销。论文中,我们展示了如何以交互式的速度渲染景深、柔和阴影和漫射全局光照。论文模型生成场景的静止帧。期待闫令琪博士未来的更多新研究。值得一提的是,去年的 ACM SIGGRAPH 最佳博士论文奖也是由来自加州大学伯克利分校的华人朱俊彦获得,参见:别人的博士生涯!CycleGAN 作者朱俊彦获 SIGGRAPH 杰出博士论文奖。参考链接:https://www.siggraph.org/2019-outstanding-doctoral-dissertation-award-lingqi-yan/https://sites.cs.ucsb.e/~lingqi/

文质彬彬

做科研不要有侥幸心理?又一位十几年前的博士论文抄袭被网络举报

大数据时代的下的放大镜大数据时代给大家的生活创造了各种的便利性,同时由于信息流通的及时性,无数中间商消失,各种智能推送媒介会让关注相关信息的人及时获得最新的消息。曾经的文字纸质媒介都开始网络数字化,从个人信息到毕业论文,由于在大数据之前,所有的毕业论文都没有比对数据库,人们很难判断论文是否存在抄袭,自从大数据时代完善了网络数据库,所有的毕业生论文必须经历查重的审核,直接避免了穿在完全抄袭的论文,目前中国博士生延期率高达66%,而翟天临博士的出现,让很多毕业延期的博士们觉得很难接受,一位平时忙着拍戏的明星,可以轻松毕业,甚至获得北京大学博士后的职位,因此经过大数据比对后,发现翟天临论文存在大量的抄袭,经过事件的发酵,翟天临和相关的导师都被学校严肃处理。在教育部加强高校学术道德的今天,2019年不断有人被十几年前的论文抄袭所困扰,最著名的当属中国生物安全和军队疾病预防控制领域的专家,曾担任解放军疾控所所长的职务的黄留玉,根据通告内容,原第三军医大学2004级军队统招的博士研究生黄留玉抄袭2000级博士研究生史兆兴学术论文内部部分重复,属于严重的学术不端行为,因此做出撤销黄留玉博士学位。复制比高达83.5%的博士论文2019年5月26日,中国政法大学2002级博士生李仕春涉嫌抄袭多篇他人论文被网络举报,其中抄袭最严重的一篇论文,文献复制比高达77.9%,总文字复制比高达83.5%。如果看到这合格数据,翟天临一定会为自己喊冤,相比较翟天临的抄袭比例,这位中国政法大学的博士生可谓是明目张胆的学术造假,在国内知名媒体记者采访中国政法大学宣传部时,中国政法大学给出的答复是,学校学风建设委员会将启动相关调查,经过核实后,将会向社会公开调查结果。学术造假是国际现象从科研大数据分析,目前全球每年的学术论文数量增长非常的快,然而被撤稿的论文数量也非常的快,由于存在各种利益需求,中国的学术造假论文数量增幅速度非常的快,仅仅在IEEE期刊造假的论文中,从2000年以前每年全球不到100起,然而到了2014年增长到近1000起。甚至在2018年的一份数据显示,IEEE总共撤回了7300多份会议论文摘要,大多数作者都来自中国。就像很多网友说的一样,其实中国论文批量造假存在时间区域性,主要是中国高等教育大跃进时期,对于博士毕业生的大量需求,正是有了这种需求,也让当时破格提拔了大量造假的教授和博士毕业生,如果真的翻旧账的话,现在很多高校的教授们都会受到牵连!

蓍草

教育部:建立博士论文评审专家库 不符合条件的专家禁入

近日,教育部答复了《关于优化研究生学位论文匿评及抽检工作,提高研究生培养质量的提案》,明确指出为确保论文抽检评审工作的顺利开展,将组建高水平专家库,建立专家退出机制,将不符合条件或评议存在明显问题的专家及时调整出库,完善专家遴选制度。教育部表示,近年来,教育部高度重视研究生教育质量,印发了《关于加强学位与研究生教育质量保证和监督体系建设的意见》(学位〔2014〕3号)《博士硕士学位论文抽检办法》(学位〔2014〕5号,以下简称《办法》)《关于进一步规范和加强研究生培养管理的通知》(教研厅〔2019〕1号)等文件,通过以教育行政主管部门监管为引导,推动学位授予单位落实主体责任,加强内部质量保证体系建设,不断提高人才培养水平。关于专家库建设和专家遴选工作,教育部将建立全国博士学位论文评审专家库,明确要求专家政治立场坚定、作风正派、愿意承担研究生教育评估监测任务等,入库专家原则上是博士学位授予单位的教授、博士生导师。对专家评议意见进行审核,对存在明显问题的专家评议意见不予采纳,并将该专家移出专家库,同时将师德师风出现问题、年龄超限、撤销导师资格等不符合条件的专家及时调整出库。在学位授予所属一级学科的框架下,通过计算机随机匹配学位论文研究领域的“小同行”专家进行评审,专家必须对是否熟悉本论文研究领域进行“二次确认”,确保评审专家是本领域专家。对于抽检结果使用,教育将采用“反馈抽检结果”“反馈抽检结果”“提供决策参考”的方式使用。教育部将会向学位授予单位及其主管部门反馈抽检结果。各单位针对本单位博士生培养和博士学位授予中的薄弱环节及时整改。对连续2年均有“存在问题学位论文”,且比例较高或篇数较多的学位授予单位,进行质量约谈。对于连续多次被约谈的单位,在招生计划工作中列入负面清单管理。在学位授权点合格评估和研究生教育资源配置等工作中,将抽检结果作为重要参考依据。下一步,教育部将一步完善专家库建设,把专家的政治导向、学术导向、学术态度、育人理念细化为入库专家考核指标,按照政治过硬、专业过硬、有学术道德等标准,建设高水平专家队伍。同时,优化完善论文送审系统,充分利用信息化手段,使学位论文与其研究领域的专家匹配更为精准化,有效发挥专家作用,确保评审意见权威、可靠。此外,教育部还将继续做好抽检结果使用,要求学位授予单位认真研究专家评议意见,强化评议意见的参考和指导作用,进一步按照《办法》和本单位有关规定,经本单位学位委员会审议后,规范使用抽检结果。同时,督促各学位授予单位发现问题、整改落实,不断提升人才培养质量和水平。【来源:教育部】声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。 邮箱地址:newmedia@xxcb.cn