我们已经迈向了5G时代,技术革新带来了万物互联、万物皆媒的新传播图景,媒介的认知范式也随之发生了变化,算法作为构成智能时代的基础设施与底层逻辑,从某种意义上来说,已经成为了更高意义上的媒介。今天带大家一起阅读的是喻国明老师的论文《算法即媒介:算法范式对媒介逻辑的重构》,让我们一起拿出小本本记好新传大佬的前沿理论吧!论文框架论文梳理一、媒介即关系:媒介认知范式由信息传递转向关系联结1.传统媒介观正面临困境传统的媒介观,遵循的是传播的传递范式,将媒介视为物理意义上可感知的对象,并认为媒介是传递信息的工具。在此背景下,人们对媒介的认识逻辑,始终没有跳出人与媒介之间的主客二元对立的分析框架,这其实窄化了媒介的概念。然而,在技术革命所引发的传播生态变革中,媒介已经渗入到了人们生活的方方面面,比如基于智能算法的信息推送等,媒介正在日益去客体化和隐匿主体性。媒介的“消失”,使传统媒介观正面临困境,促使我们以全新的方式来认识媒介。2.媒介作为关系居间者的抽象意义媒介最本初的含义,指的是双方或多方之间的中介。媒介的居间性或者说中介性,才是媒介始终保有的本质特性之一。而传播,本质上也可以说是社会关系的整合与再整合。不再局限于传播的传递范式,当我们从传播的关系范式来观察媒介时,就会发现,媒介为我们建立与呈现空间,并构成我们的观念和意义。人们通过媒介,而认识这个世界。3.媒介的联结价值日益凸显泛媒时代,媒介的外延被大大扩展,构造着人们的生活场景,甚至逐渐与人融为一体。新一轮的技术浪潮,正在加速着媒介逻辑从“传递”向“联结”的转向:人与人、人与物、物与物之间,都达到了前所未有的联结程度。一些能够采集人的生理数据的传感器,甚至使人真正成为了一种传播终端或传播节点,能够以数据的形式参与到与其他物的联结、互动中。联结的价值,在信息技术的不断发展过程中日益体现,逐渐成为最关键的媒介运作逻辑。二、算法即媒介:算法通过对价值关系的连接、匹配与调试实现社会建构1.算法再造社会结构的能量正在释放人工智能等相关技术的本质是基于数据的算法,它正利用其联结属性来建构、匹配与调适价值关系。算法正在规训着人们的社会生活:算法日益成为人们选择、评价等决策的基础性工具,算法思维应用到人们的日常决策中,算法影响着人们的社交关系、身份认同和生活方式,成为了社会关系重置和建构的重要途径。2.作为价值判断框架的算法正形塑认知并重置关系(1)算法正在成为个体认知世界的中介:世界被数据化,而数据又被纳入算法场域;隐形把关人。(2)算法正在重新“组装”社会关系:改造个体间的交往方式(以趣缘为基础);不断聚拢社会资源。市场中,“看不见的手”演进为“数字化的手”,算法在经济与社会生活的很多方面已经成为主导性力量,将分散的资源整理、调度和分配,形成某种可见性的“群体智慧”(以外卖平台为例)。算法的社会性:算法通过营造算法环境来形塑信息世界的现实算法所拥有的改变社会的力量来源于它的联结属性对价值关系的建构、匹配与调适。三、操作启示:人本逻辑之下打造人机协同的算法型内容生态1.以人为本:为个体的深层次多元化需求提供适配的信息服务① 算法的作用:构造流量入口、捕捉用户黏性、搭建场景传播② 互联网激活了以个人为基本单位的社会传播构造,“人的法则”或“人的延申”决定了技术与社会的演进方向2.人机协同:构建人机传播的命运共同体和价值共同体算法本身是科学的,但在实际应用中面临着阶段性问题。人的需求受制于数据,人性自身的超越性自由和可能性力量仍被限制;算法的工具理性仅能满足中微观环境下信息与人在特定场景中的适配,但尚未充分开发价值判断格局来满足社会性需求并达成与个体发展要求的适配。解决方法:增强人的主体性,通过技术发现与补充人的能力局限,通过人的力量来纠正及其的偏狭与误区,以人微尺度,以规则和人文精神来引导“技术向善”。3.学科体系的重构:对数据与算法的纳入与包容传播学科体系的建构也要与时俱进,应该越来越多地包容技术革命带来的新的伊苏,比如算法。
近日,两位本科生学霸在实习期间研究出了一种新的AI算法,受到了广泛关注和热烈讨论。相关论文不仅被领域主席赞不绝口,还已确认被人工智能顶级会议ICLR 2019收录。而本期报道的主人公便是“传说中学霸”、该论文的共同第一作者之一——北京大学地球与空间科学学院骆梁宸。作为一名地球与空间科学学院的大四学生,骆梁宸的学习生活本可能与NLP(注:自然语言处理)算法没有太多的关联。然而,他参与开发的AdaBound算法在训练速度和稳定性上都有着优于主流算法的表现。AdaBound算法给学习率划出了动态变化的界限,实现了从Adam到SGD的渐进和平滑过渡,让模型在开始阶段有和Adam一样快的训练速度,后期又能保证和SGD一样稳定的学习率。该算法适用于CV、NLP领域,可以用来开发解决各种流行任务的深度学习模型,同时,AdaBound算法对超参数不是很敏感,省去了大量调参的时间。能够取得这样的成果,骆梁宸说这离不开他自身的兴趣,更离不开北大所提供的平台。骆梁宸读大一的时候,很喜欢数学、物理等基础课程。而当大二各类专业课接踵而至时,他开始感到有些迷茫,于是在大二结束之后,他选择休学一年作为自己的gap year(间隔年),以便更好地寻找自己的方向。当时正值共享单车热潮,他便发挥自己工程能力强的优势和小伙伴们进入了共享单车行业,拿到了一个亿的融资。这样休学创业的经历,让骆梁宸决定要依托自己在北大打下的坚实的数理基础和出色的工程能力,在企业平台的实习实践过程中进行自我发展。在休学结束回到北大后,骆梁宸先后在微软亚洲研究院、滴滴等单位进行了实习。此次顶会论文的共同一作熊远昊就是他在滴滴实习的时候认识的。北大兼容并包的学术环境让他可以随时请教各领域的大牛老师,也可以在跨院系的实验室中进行科研,这为他能够拿出出色的科研成果创造了良好的条件。说到自己的算法,骆梁宸有几分自豪,也有几分谦虚。“在机器学习里边,有一个应用了五六十年的经典算法,叫随机梯度下降。这种算法从数学上讲,是一种一阶优化算法。这种算法在人工智能研究中属于基础中的基础,很多研究者都需要用到,其重要性不言而喻。它虽然被广泛地使用,但毕竟时间有些久远,存在着很多问题。在最近的4到5年内,大家提出了很多新的方法想要对原有算法进行改进,目标是能让它更稳定,让我们的模型学习得更快、更好。这次我也只是基于比较新的研究成果,在它们的基础上更进一步做了一些推进,得到的算法比之前大家公认那几个目标训练得更快、更稳定,效果也更好,取得了一点点成效。”“这个问题很难,所以真正的进步是很小的,但可能因为大家都会用到它,所以哪怕很小的一点点进步,大家也会感兴趣。我们的成果实际上并没有媒体上说得那么夸张,在我们圈内人自己看来,其实是蛮普通的一个进展。”在学业之外,骆梁宸很喜欢探险和运动,他在车协参加了很多的活动。同时他也是PKUHelper安卓端运营团队的第二任负责人。PKUHelper是北大学生自主开发的手机软件,它融合了课表,北大邮箱,成绩查询,BBS等常用功能,大大方便了同学们的学习生活。回忆起做PKUHelper的日子,骆梁宸觉得很充实,但也有遗憾。“当时没想什么,就是觉得自己的工程能力还可以,有安卓开发的经验,还能帮助同学。其实我们做得还不够,有很多东西都很想完善,但因为我们都是在校生,真正用来开发的时间实在太少了。很多想做的东西都没有办法,也没有时间把它做完,这个确实蛮遗憾的。而且现在,低年级的同学也越来越不愿意参与工程开发,大家都想去做算法,其实我自己也是这样,所以很难招到新人。这对于我们来说也是个蛮大的困难。”说起自己对北大的爱,骆梁宸说自己是始于颜值,终于内涵。起初,北大的园林与未名湖的波光让他心驰神往。作为一名非典型的理科生,骆梁宸对古代经典,尤其是四书五经有着浓厚的兴趣。他在北大不仅能学习本专业的知识,更有充足的机会广泛涉猎,发展兴趣。在他看来,北大是一个很包容的地方,不仅是学习和科研,只要你能在一个方面做得足够好,在这片园子里就会有立足之地,就会受到认可。“我是完全凭兴趣直接上手写工程,而且写的是直接面向客户的内容。这一点反倒是很多信科同学不太擅长的,大家更擅长的是很前沿很理论的算法,但实际做出产品又是另一回事。所以这也可能算是另辟蹊径的一种。”讲到高中的生活,骆梁宸觉得不仅要读好书,更要对未来有规划。“高中还是尽量多拓展自己的兴趣,这样有助于在大学解决自己真正想要做什么的问题。大学基本上都是自主支配的时间,这种问题越早想好就越有利。”对于有志于投身计算机领域的学弟学妹们,骆梁宸准备了一句Linus的名言:“Talk is cheap, show me the code.”(注释:夸夸其谈不算什么本事,有本事给我看看代码)。他很注重实践操作对计算机专业的意义,大量的实际编程是提升科研和工程能力的法门。而对于三个月后即将走入高考考场的学生们,骆梁宸很希望大家能珍惜最后的时光。“高中其实挺好的,虽然有时候会累会苦,但是等到上了大学再回头看,能记住的就都是快乐的日子,顺其自然过来就好了。”习惯了自由的骆梁宸还没有决定好自己的未来。大四的他打算秋天先到国外做一期助研或者访问学者,然后再决定是否读博士。不过不管走到哪里,骆梁宸都已经习惯了北大给他带来的一切。“自己已经把迷茫留在这里,可以清醒地做一些事情了。”他如是说。来源:北京大学招生办 记者:郭曜齐 李垣龙 李昊霖
资料https://n3utrino.work/前沿Title:Singing voice synthesis based on convolutional neural networks核心思路:midi 输入到CNN,预测声学特征(acoustic feature),声学特征输入到声码器得到音频。一句话:运用CNN模型将乐谱序列映射到声学特征深度神经网络是人工神经网络,其包含很多隐含层。给语音合成和歌声合成带来机遇。其次在DNN的歌声合成方法中,DNN作为声学模型,就是实验从乐谱特征到声学特征的映射。神经网络还可以对波形直接建模,例如wavenet、SampleRNN、WaveRNN、FFTnet、WaveGlow。神经王座作为声码器改变了语音合成的质量。神经网络声码器以声学特征作为输入。歌声合成最关键的是利用乐谱信息来预测声学特征。前馈神经网络的局限是无法考虑到语音的序列特性。语音的每帧之间有相关性,但是前馈网络是认为各个帧是相互独立的。由此RNN和LSTM是一个很好解决办法。此外,可以通过使用语音参数生成算法对预测的声学特征进行平滑处理来缓解此问题,该算法利用动态特征作为约束来生成平滑的语音参数轨迹。基于DNN的歌声合成歌声合成系统与语音合成系统很像。但是又有本质的不同。结构如下图:主要包括训练部分和合成部分,训练部分:从数据集中提取光谱,激发和颤音参数作为声学特征,乐谱特征和声学特征依据训练好HMM模型来对齐。输入参数:节奏和速度是乐谱中重要的特征,颤音是一个重要的演唱技巧必须被建模。本文假定颤音是F0的周期波动。颤音用正弦函数建模。ma(t)(颤音的F0振幅), mf (t)(颤音的F0频率), 和 fs移码基于统计学的参数合成方法是依赖于语料库的。音高应该正确的覆盖全,生成的F0轨迹会极大地影响合成歌声的质量。基于DNN的歌声合成系统提出了音符级音高或分解技术。对从波形提取的log F0序列与音符音高之间的差异进行建模。乐谱中的所有清音帧和音乐休息都被线性插值并建模为浊音帧。颤音函数为:基于CNN的歌声合成声称深度双向LSTM-RNN可以生成平滑的语音参数轨迹,相对较长的乐谱功能序列(相当于几秒到几十秒)被视为一个片段,并由CNN同时转换为声学特征序列。结构如下图所示:F()为帧的映射函数,G()为段的映射函数如图所示,第一部分是一个1x1的卷积层,将乐谱特征转化为一帧帧的序列。辍学方法用于保持针对未知乐谱的鲁棒性。第二部分是1xN的卷积层,在第一部分的中间输出特征序列中,以片段为单位将其转换为声学特征序列。声学特征的维度就是输出特征的频道数。段的大小就是1xT,T就是每段的帧数。T的大小可以调整。乐谱特征序列声学特征序列:两者之间的关系:音高对歌声合成的质量影响比较大。我们把乐谱的音高与第一部分的输出拼接起来作为第二部分的输入。通过样本数据对齐音符并拼接logF0参数。初步的主观实验证实了使用从插值乐谱中提取的logF0参数的有效性。损失函数歌声合成的参数特征ot包括静态特征向量和动态特征向量歌声参数向量和静态特征向量为T为帧数,o与c的关系o=Wc,W为窗口矩阵。样本采样率 48KHZWindowed with a 5ms shift量化位数是16bit结论基于卷积的神经网络歌声合成器能很好地合成歌声,以段落为单元转化乐谱特征序列为声学特征序列。无需参数合成算法就可以训练自然语音参数轨迹。并且能实现并行计算加快训练速度。
边策 安妮 发自 凹非寺量子位 出品 | 公众号 QbitAI通过墙壁漫反射的光影,能重建原始画面么?现在可以了。这不是科幻。一篇新论文登上了Nature,论文中显示,仅仅用一台普通的数码相机,仅仅凭借墙上模糊不清的光影,就能还原最初的画面。先来考考大家。下面这个漫反射光影,你能看出什么来?其实这是一个蘑菇。那下面这个是什么?很相似是不是?但这是一张人脸……你看不出来,但是厉害的算法,真的能凭借这种漫反射,还原逼真的原始画面。无图无真相。下面就是三个重建的实例。首先放墙上的漫反射光影。然后是算法重建的图像。震不震惊!这个效果,简直就是把一面墙,变成了一面镜子!不信?再来对比一下原图。无论是红黑两色组成的英文字母传递的暗号:还是超级马里奥里熟悉的蘑菇:甚至神似辛普森一家中角色的戴红色棒球帽的复杂头像,这个算法都能够通过一面墙一五一十还原出来:这个AI算法无需借助昂贵的拍摄器材就能还原屏幕,甚至你在自己家都可以把实验模拟操作模拟出来。研究人员在一间普通的房间的一端放置了一块屏幕,屏幕上显示图案,面向对面的墙壁。这块屏幕旁边有一套普通的数码摄像机,同样面向对面的墙壁,不过摄像机与屏幕间隔了一块挡板,摄像机根本没有机会直接拍摄到屏幕上的画面。研究人员采用了一台400万像素的数码相机完成这个实验,售价约为1400美元(约人民币9500元),研究人员预计比此前用脉冲激光相机探物便宜了至少30倍。而这台数码摄像机要做的,就是通过拍摄屏幕发射到对面墙壁的光,还原屏幕上的图像。实验难度还在加大:研究人员还在房间中间随手放置了一个不明位置的遮挡物体,可以是一块不发光的板子,也可以是随手拽过来的一把椅子,阻挡一部分光线到达墙壁。在整个拍摄过程中,数码相机能捕捉到的只有墙上斑驳的光影。在这项研究公布之前,这种想法被视为不可能的存在:普通摄像机、一块普通屏幕,一把随意搬过来的椅子加一面墙,如何还原屏幕上五彩斑斓的未知图案,甚至是动图?甚至连专业物理学家都不看好。荷兰乌得勒支大学的光学物理学家Allard Mosk曾表示:“人们认为,在没有任何先进仪器的情况下,只利用墙面上漫反射的光重建图像几乎是不可能的。”没想到,这群波士顿大学的研究人员做到了。让墙变成镜子先让我们来复习一下初中物理知识:物体对光线的反射分为镜面反射和漫反射两种。镜子能让我们看清物体,是因为镜子表面光滑,能把光线按照某个固定方向反射回去。但墙面是粗糙的,当屏幕上的光投射到上面时,光线会往各个方向反射,我们称之为“漫反射”。在常识中,我们是无法通过漫反射的混乱光线恢复物体原貌的。之前也有些技术能恢复图像,但对光线的要求极高,比如激光,成本也高得多。而波士顿大学的Vivek K Goyal小组这项只需要研究普通照相机。Mirror mirror on the wall!只要算法够强,墙面也能变成镜子!与镜面成像不同的是,在镜子前个东西加与阻挡视线,而在屏幕和墙面之间插入障碍物,反而会降低我们还原图像的难度。这看似违反常识,其实是有道理的。想象一下小时候做过的“小孔成像”实验,当光线只能通过一个小孔时,屏幕的光就会在墙面上形成清晰图像。显示器和墙面之间的障碍物减少了杂散光线,让入射光线更少,就能让成像稍微清晰一点。当然,Goyal的研究没有把入射光线限制在太小的范围里,而是用算法从墙上的阴影中恢复屏幕原来的样子。虽然现在只能恢复任天堂8位机那种简单的图像。以上只是定性的描述,若要精确恢复屏幕上的图像,我们需要建立墙面上各点亮度与屏幕亮度的函数关系:在上面方程中,Pw是墙上的点,x是屏幕上的点,P0是障碍物上的点,nx和nw分别是显示器与墙面的法向量,Pw-x表示的是从点x指向Pw的向量。I(Pw)墙上点表示Pw的亮度,可以由相机拍摄的图像获得;f(x)表示屏幕上点x的亮度,实际代表着显示器上的图像;当P0在Pw和x之间时,V等于0,否则等于1;μ表示显示器指向不同角度光照差异;b表示背景光对墙面亮度的贡献。以上方程中,I(Pw)我们可以用相机照片获得,通过以上方程反向推算出f(x)。如果没有障碍物,V处处等于1,I(Pw)与f(x)的依赖关系太弱,反而不利于恢复图像,这也是在屏幕和墙面之间加入障碍物的原因。以上方程太复杂,也不利于计算。既然屏幕的光照越强,墙上的点也就越亮,我们可以把上面的积分方程转化为一个线性方程。y = A(po)f + by是墙上各点的亮度,我们选取126×126个点,也就总共15,876个变量的方程组,其中A(P0)代表一个变换矩阵。其实Goyal小组去年已经做出了相关成果,但当时必须要知道障碍物的形状以及位置,才能恢复图像。但这次他们把难度又提高了一个档次,仅仅知道障碍物的形状,却不知道位置。Goyal的方法是,先估计出障碍物的位置,再通过平均位置附近的49组数据反向恢复图像。再发展下去,他们的算法连障碍物是什么形状都不需要知道,只通过墙上模糊的影子,就能它的样子。相关研究通过AI算法分析光影预测直接看不到的物体不仅有这一种方法,早在2010年,MIT Media Lab的研究人员已经有了成果。和波士顿大学不同,这种方法需要单独购置特殊设备,即一台能够发射出激光的相机。与耳朵接收回音类似,这种方法通过手机激光照在物体表面的反射路径,算法预测角落中直接看不到的物体。2017年,MIT计算机科学和人工智能实验室(CSAIL)又开发了一种新算法,这个AI系统可以借助智能手机的摄像头,收集光反射的相关信息,检测隐藏在障碍物后的任何物体,还能实时测量它们的移动速度和行进轨迹。想象一下,你走在一条“L”形的走廊上,拐角的另一边放置了一堆杂物。这些杂物投射在你视线内地面上的少量光线,形成一个模糊的阴影,我们称之为“半影”。AI系统就利用了智能手机摄像头中半影的视频,将一系列一维图像组合在一起,揭示周围物体的信息。研究人员将这个“透视眼”系统称为“角落相机”(ConerCameras),研究人员表示,这种方法在室内和室外的效果都还不错。这种方法也有弊端,如果如果隐藏的场景本身光线暗,系统的识别也会有问题,此外,智能手机的相机像素也影响收集的图像质量,相机里障碍物越远,系统收集的图像质量也越差。但在Nature最新研究中,这种弊端不会显现,波士顿大学的研究人员表示,从理论上讲,你不仅可以拍摄屏幕,还可以拍摄同一房间内任何灯光昏暗的物体。传送门可移步Nature原文继续了解,论文Computational periscopy with an ordinary digital camera作者:Charles Saunders, John Murray-Bruce & Vivek K Goyal
本文由 查重降重中心 sp8080.com 整理分享又到了毕业季,毕业一定少不了的就是论文。不同的学校对论文的查重是有要求的,大多数学校的要求都是在百分之三十,极少数学校的查重会高于或低于百分之三十。那么我们自己写的论文到底查重在多少呢?这需要通过专业的查重软件去做检测。一、硕士论文查重知网多少钱1.知网硕博论文入口(VIP5.2)知网VIP5.2系统(学术不端文献检测系统5.2)是高校最终检测硕士论文、博士论文重复率的专用系统,支持多语种,单篇最多可检测30万字符。300元/篇。2.知网大分解查重知网大分解与知网VIP5.2相比,少了“CNKI大成编客-原创作品库”和“学术论文联合比对库”,单篇检测字符最多不超3万,其他一样,适合初稿检测。80元/篇。知网主要针对机构市场,受之前舆论的影响,目前已经放弃了个人市场,虽然知网已经公开放弃,但是个人要检测知网论文仍然可以在淘宝买到。唯一的缺点是价格比较高,但对于和学校检测一致这样的诱人结果,本着破财消灾的观念,花点钱也是值得的。二、硕士论文知网查重的标准硕士论文查重是在知网进行,要求是总相似比百分之三十以下,引用只能百分之二十,用的是知网系统,系统原理如下:连续相同十一字算重复。引用之后最后修改一下因为超过百分之直也算相似,比如改下表达方式,知网系统计算标准详细说明:1.知网检测系统对文字复制的检测已经达到相当高的水平。2.百分比只是描述检测文献中重合文字所占的比例大小程度,百分比越大,重合字数越多,存在抄袭的可能性越大。是否属于抄袭及抄袭的严重程度最后需由专家审查后决定。3.对句子也有相应的处理,有一个句子相似性的算法。并不是句子完全一样才判断为相同。句子有句子级的相似算法,段落有段落级的相似算法,计算一篇文献,一段话是否与其他文献文字相似,是在此基础上综合得出的。 4.检测系统不下结论,是不是抄袭最后还有人工审查这一关,所以,专家会有相应判断。 三、硕士论文知网查重率太高怎么办1.同义词替换:在修改硕士论文时,最简单自己的就是替换简易同义词,因为检测硕士论文设置的阈值的可能较小。当我们表达时,我们需要将原来的句子调整顺序,并保持原义。或者是使用中文翻译系统把原文字翻译成英文,再把英文翻译成中文,不过这样的论文质量相对较低,还需要后期继续完善。 2.调整语序:所谓调整就是把词语、语序调整一下,主动句和被动句互换等等你能想的出来的在保持句意不变的前提下进行句子变换的方法。假如新添加的内容或者新的表达方式没有与他人重合,那就成功地把重复率降下来了,如果只是降了还没达到要求,那就继续改。 3.图表结合:论文中有一些借鉴引用他人的观点,不想删除的话,可以试试把文字换成表格或者图片,因为图表一般不在查重范围内。还有文献里有一些有效的表格数据也可以通过文字的形式用自己的话表达出来。 四、总结知网主要针对机构市场,受之前舆论的影响,目前已经放弃了个人市场,虽然知网已经公开放弃,但是个人要检测知网论文仍然可以在淘宝买到。唯一的缺点是价格比较高,但对于和学校检测一致这样的诱人结果,本着破财消灾的观念,花点钱也是值得的。在毕业之前,学校将学生论文进行查重率检测,如果论文报告的结果不符合学校要求,轻则延迟毕业,重则被退学。因此,学生需要掌握一些技巧,以减少论文的查重率,才可以迅速通过学校的检查。
鱼羊 发自 凹非寺量子位 报道 | 公众号 QbitAI“视觉实力秀”,CVPR 2020 正在线上举办中。本届 CVPR 号称十年来最难的一届,共接收 6656 篇论文,中选 1470 篇,录用率仅为 22%,为十年来最低的一次。不过,中国军团依然表现亮眼。学术界清华领衔,商汤则以62 篇论文入选的成绩,领跑产业界。成绩亮眼,却有些见怪不怪。毕竟,这已经不是商汤第一次在顶会上“一骑绝尘”。此前的 ICCV 2019 上,商汤及其联合实验室就曾以入选 57 篇论文的成绩引来瞩目。而这一次的 CVPR,在入选论文数上,商汤持续超越微软、Facebook 等科技巨头。并且,又拿下了 CVPR 2020 ActivityNet 时空动作定位赛道、动作分类赛道,以及 CVPR 2020 NTIRE 竞赛等3 项世界冠军。至此,成立 6 年以来,商汤已经在各种重要赛事中,斩获了 60+ 个世界第一。那么,问题来了,商汤凭什么?62篇论文 + 3项世界冠军,实现多领域技术突破先来看看,商汤的 CVPR 2020 成绩单背后,是怎样的技术进展。三项比赛中,ActivityNet 是视频动作识别领域的重要实力检验竞赛。该项竞赛历年由 Google、Facebook、UC Berkeley 等顶尖院校与研究机构主办,相关技术在视频分析、活体检测等多项实际应用中具有重要价值。在 AVA-Kinetics 时空动作定位比赛中,依托自研技术对象-场景-对象推理网络(ACAR-Net)和自有的深度学习超算平台,商汤研究院和 X-Lab 及香港中文大学-商汤联合实验室团队以绝对优势夺得第一。39.62mAP的成绩,大幅领先今年的第二名 6.71 mAP。在动作分类竞赛中,商汤研究院和 X-Lab 及联合实验室团队依托自有的深度学习超算平台,在短时间内训练了多个具有超深网络的视频分类模型。在多模型融合阶段,商汤自研的时空交错网路(TIN)同样发挥重要作用。由此,与 Google Cloud AI 拿下该项竞赛的并列第一。而 NTIRE(New Trends in Image Restoration and Enhancement)作为全球最全面的 low-level 视觉大赛之一,能够直观地反映出low-level 视觉这一热门领域中研究进展和突破。商汤研究团队在 CVPR 2020 NTIRE 的真实图像(Real World RGB Images)光谱重建(HS Reconsturction)赛道中,凭借一种新的 4 级网络结构,在增大感受野的同时,在不同级子网中做特征提取,从而成功卫冕冠军。论文方面,商汤今年入选的 62 篇论文,同样分布多个领域,包括:对抗式生成模型、三维点云理解与分析、训练加速与模型量化、视频理解与分析、网络结构搜索等。例如,商汤入选 CVPR 2020 的论文《用于加速卷积神经网络训练过程INT8训练技术》,就针对如何提升深度学习训练速度的问题,提出了用于加速卷积神经网络训练过程的 INT8 训练技术,采用 8 比特数值训练模型,可以极大地提升训练速度,减少计算损耗,而且训练精度几乎无损。所以,商汤的秘诀是什么?答案还要从商汤自身的定位中寻找。AI时代的“算法工厂”据悉,目前商汤一共有约 4000 名员工,其中有 2500 多人都是算法和产品研发人员,超过总员工数的一半。而商汤的路线,是依托这样的技术力量,以“算法工厂”的模式,完成科研到产品的转化。什么叫“算法工厂”?商汤科技联合创始人徐冰在公开演讲中谈到,现在,如何批量地生产针对不同物体和场景的模型,已经成为驱动 AI 增长、下一代技术演进的关键问题。而成熟的深度学习训练平台,是能够推动大规模新模型生成的。这也就促成了“算法工厂”概念的形成。“算法工厂”具体如何体现?最直接的改变,当然就是降本增效。徐冰提到,在 15 年的时候,完成一个亿分之一级别精度的行人识别模型,需要 10 个研究员,6 个月的时间。而现在,同样的模型,1 个研究员用 3 天时间就可以达到同样的效果,而且使用的 GPU 资源只是原来的一半。如此一来,训练出的模型数量,就能远远超过研究人员的数量。当一个人平均能带来 4-5 个,甚至几十个工业级别模型,就能够把人工智能算法作为一种集中的服务,通过框架平台直通终端客户,更快地扩展应用范围。徐冰表示,有了算法工厂,有了更多的前端的感知能力,在商业上,可以看到的就是数字化进程的进一步加快,AI 在各个场景渗透率会迅速提高、功能数迅速增加,工业生产、城市治理、工作学习的各个方面都会受到颠覆性的影响。简而言之,打造“算法工厂”的目的很简单——实现 AI 大规模落地,进一步激发商业价值。技术落地进行时“算法工厂”带来的能量,在疫情期间也得到了体现。疫情期间,商汤和青岛西海岸新区人民医院合作,在一周时间内,按要求研发出来了针对新冠肺炎的 CT 影像筛查系统,并部署抗疫一线,帮助医生提高诊断的准确率和效率。这样的速度,正是基于商汤打造的 SenseCare 智慧诊疗平台。实际上,除了影像科室,AI 医疗在心外科等临床科室,也能积极发挥辅助作用。比如心脏支架手术前,需要进行大量数据研判。在这个过程中,AI 可以在术前识别好血管曲率、 长度、直径等核心指标,再进行支架放置手术模拟。这对于降低手术风险、提高手术效率而言很有帮助。基于这样的背景,商汤的 SenseCare 智慧诊疗平台,提供了 AI 识别、辅助诊疗、手术规划等服务,覆盖消化内科、骨科、呼吸科、神经内科、放疗、放射科、口腔科、心血管科等众多科室。并且,2019年,SenseCare 已经获得了两项国家药监局认证,开始商业化进程。另一个引人瞩目的落地案例,是智慧城市。近期,商汤在上海长宁区江苏路街道率先试点 AI+ 一网统管,开发了“智能巡屏”等功能。它基于商汤 SenseFoundry 方舟城市级开放视觉平台,构建多场景、一站式 AI 城市治理解决方案,实现了 AI 研判处置全闭环管理,依次为自动发现、立案、智能派单、处置、自动核查、结案六大环节。这样的 AI 闭环管理,能有效解决暴露垃圾识别、共享单车乱堆放等城市痛点问题,大大提升城市管理效能。此外,AI 技术落地的另一个趋势,就是算法与硬件的结合。比如大家熟悉的手机拍照。受到硬件极限的限制,亿级别像素手机的出现,实际上就是软件 + 算法 + 多镜头拍照的结合。而商汤作为“AI工厂”输出算法,已经帮助手机厂商实现了 60 倍变焦、暗光拍摄这样广为人知的功能。如今,AI 早已渗透到生活的方方面面,尤其是今年以来,新冠疫情下,数字化成为驱动创新、带动经济增长的新动力,而AI正是推动这一进程的重要底层技术。在这样的背景之下,人工智能已经迈向落地为王的时代。而 5G 技术的普及、新基建大幕的拉开,更是 AI 企业化前沿技术为实际生产力的一阵东风。对于商汤这样的科技创业公司而言,这或许就是历史赋予的最好机遇。且拭目以待。— 完 —
大家好,我是您的毕业大管家小毕同学。第一次写论文的小盆友,可能对于论文查重比较陌生。当你把毕业论文交到学校后,学校会对你的论文重复率进行一个检测,合格后,才让你参加后面的毕业答辩。如果重复率两次都不合格的话,那可能会让你延期答辩,严重的话,会影响毕业。小毕今天给大家普及一下论文查重的相关知识。(一)论文查重系统是怎么查的?将一篇论文提交到查重系统后,系统会对此论文进行分段、分句等处理,系统通过严格的比对算法,和查重系统中的文献库做比对。不同的论文查重系统对于抄袭字的要求不同,一般地,像知网、毕业之家都是13个字符左右。最后会生成一份详细的论文查重报告。(二)不同的论文查重系统是否可以比较?哪个更准确?当然是不可以比较的。因为不同论文查重系统对比对算法和覆盖的文献库都是不一样的,所以查重的结果也不一样。不仅如此,即便是同一查重系统,提交的时间不同,查重结果也是不一样的。(三)一般学校对于查重结果什么要求?不同的学校,对于论文的要求也不同,一般地,本科论文基本上要求是30%以内;硕博论文基本上要求是10%以内。童鞋们可以提前去咨询学校,做到知己知彼。(四)国内的高校会选用哪个查重系统?可以自己选择查重系统吗?这也是根据学校而言的,查重软件很多,像知网、毕业之家、维普、万方、PaperRed等等。对于初稿,考虑查重费用的原因,可以考虑便宜的查重软件。但是,不管童鞋们初稿选用的什么查重系统,都尽量定稿之后用自己学校使用的查重系统再检测一下,保持一致性,这样才能够有把握。(五)为什么明明抄袭的内容,系统没有查出?论文查重系统只是收录了庞大的文献数据,但是并不意味着什么内容都查得出来。它只是对抄袭的收录内容有效。(六)查重系统测完,论文就会被收录吗?会不会影响下一次查重结果?一般地,只要是正规的查重系统是不会的。一般查重系统检测后一段时间就自动删除报告,不会影响下一次检测,所以,童鞋们可以放心查重。(七)投稿发表的论文和毕业论文查重上有什么区别?对于查重的原理基本上是一致的,没有区别;但是对于投稿的论文查重,建议使用跟杂志社要求的系统一致,比如知网期刊;如果需要排除作者自己的论文,那么只有查知网的才可以,其他的系统无法进行排除。(八)为什么同一查重系统,检测结果也不一样?数据库是论文查重系统的灵魂所在,查重系统不仅数据库庞大、覆盖范围广,而且更新速度非常快,所以,即使是在同一查重系统查询,最终的检测结果也可能不一样。最后,祝大家都能通过毕业之家平台,顺利毕业!如果还有什么不懂的问题,记得随时咨询呦!毕业之家一站式毕业生服务平台,记得关注我哦,我是你的毕业大管家小毕。
雷锋网 AI 科技评论按:近期来自纽约雪城大学的 Daniel Acuna 等人在 bioRxiv 上发表了一篇文章,作者在文章提出了一种机器学习算法,该算法能够自动进行论文图片查重,其目的旨在解决文献查重中的一个死角——图片查重。目前许多期刊都会对一些图片进行查重,但只有极少数的期刊有自动化的查重流程。例如《Nature》期刊对收到的稿件一般会进行随机抽样检测,《Journal of Cell Biology》以及《The EMBO Journal》等期刊则对稿件中的大部分图片进行手工查重。显然手工查重费时费力,这也是为什么到目前为止大部分期刊都没有图片查重这一项。然而这并不意味着图片查重不重要;如果能够及时发现不当的图片抄袭(重用),那么可能会制止许多学术不端行为。以 2014 年轰动学术圈的小保方晴子(Haruko Obokata)学术造假丑闻为例,当时小保方团队同一天在《Nature》上发表了两篇文章,文章称他们从新生小鼠身上分离的细胞通过 STAP 方法能够获得胚胎干细胞。据后来人们的调查发现,在文章中竟赫然有两张图片使用了她在博士学位论文中的图片,而这些图片当时是用于表示细胞原本就处于胚胎状态的,而非 STAP 之后变为胚胎状态。在这个事件中,如果《Nature》期刊能够在发表之前检测出文章中的图片重用,那么这个让整个学术圈震惊的造假丑闻也许就能扼杀于摇篮之中了。然而事实是,没有。再说一下美国研究诚信办公室(US Office of Research Integrity, ORI)。ORI 有多种工具来协助工作人员进行图片查重,但每年他们也只报告了大约 10 例的学术不端行为;为了这少数的几例报告,不知道他们要查阅多少案例/文件以及对比多少图片。不过需要说明的是,ORI 并不会去主动审查学术不端(成本有点高),除非有匿名检举。显然,他们期待自动图片查重程序的出现。Daniel Acuna 等人发表在 bioRxiv 上的这篇预印文章或许为此提供了一线希望。总的来说,作者首先分析了 PubMed Open Access Subset(PMOS)数据集(2015)中包含的 200 多万张图片,通过他们开发的自动查重管道能够自动检测出由相同的第一(最末)作者发布的多组论文的图片重用。之所以做出「相同的第一(最末)作者」的限定,是为了降低模型的时间复杂度。由于缺乏相应的测试数据集,作者就制定一个标准,然后让一群人类审阅者手工来检查这些检测到的图片是否真的有重用,以此来评价自动查重管道的有效性。下面我们来看这篇论文的详细内容。数 据作者分析了 PMOS(2015)上来自 4324 个期刊的 760036 篇论文,其中有 2,628,959 张图片。当然并不是所有的图片都会被用到,例如有些是和公式相关;将这些图片从中清除掉。平均来说大约每篇论文包含 4.78 张图片。方 法文章中使用的方法包括:复制-移动检测算法(Copy-move detection algorithm)、生物医学补丁检测(Biomedical patches detector)、人工评估算法的有效性。复制-移动检测算法作者在这里使用了和 V. Christlein et al.(2012) 相同的算法:基于关键点的检测方法。这有以下几个流程:(Fig A)使用低阈值 SIFT 关键点检测算法计算关键点。(Fig B)找到欧氏空间中图片上的所有关键点中两两邻近的点,这些关键点对的间距要小于等于第二近邻距离的 60%。将其他没有匹配或匹配程度小于 40 个像素的关键点移除。(Fig C)对关键点进行平面聚类,移除聚类面积小于 40x40 平方像素的集群。如果再一个集群中,有超过三个关键点与同一个集群相匹配,那么就将这两个集群定义为匹配集群。(Fig D)使用 RanSac 算法找到匹配的簇之间的仿射变换。如我们前面所说,考虑到在数百万张图片上进行最近邻搜索的时间复杂度,作者在这里只分析了第一(最末)作者的数据。雷锋网认为,如果想要将这种算法应用到实际应用中,可能还需要考虑如何降低该算法的时间复杂度。生物医学补丁检测在科学文章中,许多图片都有着极为相似的区域,例如许多图片会使用相似的文本和形状来描述图形的某些区域(轴标签、箭头等),因此前面的算法发现的许多匹配可能就是这些内容。于是作者开发了另外一个额外的步骤。作者首先从上一步「复制-移动检测」结果中抽取 20k 的样本,让随机森林来预测一个匹配是生物医学匹配的概率,然后根据预测的熵对这些匹配进行排序,选择出熵值较高的匹配,然后让一些论文作者来标记(哪些是生物医学匹配)。人工标记后,将这些数据添加到训练数据集中,然后重复这个过程。通过这种方式来清除掉非生物医学的匹配。这种方法明显有一个很大的不足之处,即需要专业知识才能进行人工标注。这大大限制了本文方法的广泛应用。这个作者在文章中也有提到。人工评估算法的有效性论文图片查重研究的一个很大问题是,没有测试集。于是 Daniel Acuna 他们三人就担任了这个人类评估器。他们制作了一个基于网络的工具,这个工具包含了上述匹配结果中的 10000 个可能有问题的案例,并且提供了与 PUBMED 的链接,能够看到相应图片的标题、说明以及文章本身。三个人独立审查了所有这些案例,并按照 No problem、suspicious、potential fraud、fraud 来给这些匹配结果进行评估。结 果经过以上三个步骤以及相关细节的约束,作者得出如下图所示的结果。其中左侧 A 图为生物医学图被重用的比例。可以看出,在所有这些论文中有大约 1.5%(0.6%+0.9%)的论文是需要考察其论文是否存在欺骗,其中有 0.6% 的论文存在明显的图片重用。另一方面,从右侧的 B 图,我们可以看出一个有意思的现象:跨论文的图片重用匹配更有可能属于学术不端行为(43.1%)。讨 论这篇论文的意义一方面指出了 PubMed 开放获取的论文中,有相当多的论文(0.59%)被三位科学家一致认为存在欺诈行为,另一方面它提出了一种大规模分析文献图片重用(抄袭、欺诈)的方法,为各类期刊及研究诚信机构提供了可行的、节省成本的方法。当然(我们也在上文中部分指出了)这项工作还存在着许多有待改进的地方:在标记非生物医学补丁时,需要有专业背景知识的专家的参与,这大大限制了这种方法扩展到其他领域。如何改进算法或框架,从而不再需要专家知识,是接下来研究的重点之一。Daniel Acuna 等人的这项工作为了降低时间复杂度,一方面只选择了少量的生物医学的出版物(4324 个期刊的 760036 篇论文),另一方面只考虑了第一(末位)作者自身论文中的图片重用现象。能否将这种方法应用到亿级规模的出版文献库中,还有待观察。不管怎么来说,降低模型的复杂度,是将这种方法推广到工业级的必由之路。还有一点,也是这种方法的一个痛点,即没有测试集。如何构建训练-测试集,可能是促进相关研究的一项重要工作。雷锋网认为,从利益相关的角度来说,可能期刊和研究诚信机构更应该在这些方面做出努力和尝试。但是不管怎么说,这篇文章所构建的这种方法可能将是实现针对学术文献中图片查重漫长而艰辛的征程中的第一步。科研人员为什么会在学术文献中造假不得而知,但是无论动机如何,随着机器学习以及人工智能的发展,可能做这种行为之前就需要慎重考虑了。据《Nature》新闻介绍,Daniel Acuna 他们还没有公开他们的算法,但已经和芝加哥西北大学研究诚信办公室主任、美国研究诚信官员联合会副主席 Lauran Qualkenbush 进行了讨论。后者表示:「这对研究诚信办公室非常有用,我非常希望今年我的办公室可以成为 Daniel 这项工具的试点单位。」
Domain Adaptation 图像分类分割MCD_DA算法 | CVPR2018Oral论文论文:Maximum Classifier Discrepancy for Unsupervised Domain Adaptation会议:CVPR2018, Oral研究任务: Unsupervised Domain Adaptation通过带标签的source domain的图片和标签训练得到一个网络模型,利用target image 进行domain adaptation 操作,使得source domain训练的网络模型也能够应用在target image上。关于这个研究任务具体是研究什么的,具体请参考以前的文章AI图像分割算法 | 带你了解最近减小域间差异分割算法LSD-seg当前使用的方法:如下图,一般的分类或者分割网络包括下采样的特征生成模块和分类模块,图片输入网络,通过特征生成模块提取为图片特征,再利用分类模块预测图片的类别,利用已有的标签对网络进行训练。这个网络在分类网络的基础上添加了一个判别网络,主要利用对抗学习来对齐两个数据集图片特征的分布,只要图片特征的分布一样,那么源域图片训练的分类器也就可以应用在目标域图片上了,这样是不是就可以减轻数据集之间差异带来的问题。但是,作者认为,这种方法存在一点问题。1)它仅仅对齐图片特征的分布,并没有考虑类别边界,我们使用的分类器是完全由源域图片训练得到的。这样可能导致,目标图片通过特征生成模块,可能生成类别模糊的特征,也就是,如上图左图中,在分类边界出现一些分类错误的特征。2)由于每个数据集的特征,使得不能完全对齐这篇文章主要就是希望解决这个问题,他提出了使用两个独立的分类模块,通过训练从而具有不同特点,那些类别模糊的特征通过两个不同分类器可能会被分为不同的类别,如图片中看见的分类矛盾的阴影区域,作者希望通过度量并且最小化这种分类矛盾区域,来解决这个问题,得到比较好的分类结果。关于符号网络结构首先,看一下他的网络,与一般的网络(上述网络)不同,它由一个特征生成器和两个独立的类别分类器构成。训练过程训练的过程中,第一步,我们利用有标签的源域图片和标签训练特征生成器和两个分类器,利用分类Loss来优化他们。两个分类器,使用不同的方法初始化,并且独立训练,得到两个不同的分类器。Step A : Train on source通过第一步,我们可以得到两个不同的分类器,像我们之前说的,这两个分类器,可能会将来自目标图片的类别模糊的特征分类为不同的类别,如上面这幅图中表示。我们将两个分类器之间的分类不一致定义为两个分类器预测的分值的差的绝对值,如上面这个公式,分类差异第二步,我们固定特征生成器的参数,通过最大化分类差异,来训练两个分类器,保证分类准确同时又突出类别模糊的特征。通过第二步训练,我们最大化了两个分类器之间的差异,如第二幅图展示的第三步,我们固定两个分类器的参数,通过最小化分类差异,来优化特征生成器。通过这三步的迭代训练,我们希望最终,源域和目标域图片通过特征生成器得到的特征更加相近,使得两个分类器的分类一致,检测不出两个数据集之间的类别差异。这样我们就完成了我们的训练。结果这篇论文在分类和分割两个任务上进行实验,实验结果如下所示classification:Semantic Segmentation(GTA5 to Cityscapes)总结利用两个独立的分类器对齐源域和目标域图片特征分布(1)利用源域图片训练特征生成器和分类器(2)利用目标域图片最大化分类差异训练两个分类器(3)利用目标域图片最小化分类差异训练特征生成器(4)多次迭代训练(5)最终使得特征生成器生成的特征越来越接近,消除分类差异推荐书籍深度学习与计算机视觉的算法原理、框架以及代码,app打开可免费阅读以往文章想不想让你拍的照片秒变宫崎骏风格漫画,CartoonGAN帮你实现弱监督语义分割算法AE-PSL | 对抗性擦除最重要最具判别性的区域弱监督语义分割 | 使用图片类别进行图像分割之MIL Loss算法图解 | 分而治之与快速排序算法欢迎关注,接收更多最新AI科技
上周读了几篇关于如何处理noisy label的论文,这里记录一下对于论文Deep Self-Learning From Noisy Labels的一些理解以及自己的代码实现。文中主要提出了一个矫正noisy label的方法,以及如果利用这些矫正过的标签。从上图可以看出,整个流程分为两个部分,上半部分其实就是普通的分类网络,网络结构任意,只是在计算loss时,同时计算了原始label的loss以及下半部分矫正过的label的loss。文章的重点在下半部分,即如果矫正noisy label。作者通过相似性评测计算,为每个类别选出了若干个prototypes,然后再计算所有数据和这些prototypes的相似性均值,与哪一类的值小,说明越接近那一类,则将label改成那一类。在计算相似性上,作者没有使用常用的距离来算,而是使用了cosine来算相似性。为了为每个类别选出具有代表性的而他们之间又有一定差异的prototypes,作者又使用了一个不是很复杂的trick,具体可以参考论文描述。作者上边的这个矫正noisy label的操作,其实相当于对数据做了一次聚类,只是将聚类相似性计算换成了cosine,并且选出了多个prototypes,即多个中心点。从论文的结果看效果还不错,作者分别手动生成了不等比例的symmetric和asymmetric的noisy label进行测试。由于作者没有开源代码,而且网上也没找到其他人的实现,刚好我对这方面也比较熟悉,所以自己动手复现了一下。我自己测试集使用的是fashion-mnist,分别进行了symmetric测试和asymmetric测试,发现结果不够稳定。对于symmetric的效果比较明显,而对于asymmetric noisy label的处理基本无效。而且我又尝试了一下对于聚类结果的label再用此算法矫正,发现结果很平稳,没有下降,也没有提升,基本无效。比较失望,先将代码公布一下,有不完善的地方,欢迎交流指正。https://github.com/sarsbug/SMP