欢迎来到加倍考研网! 北京 上海 广州 深圳 天津
微信二维码
在线客服 40004-98986
推荐适合你的在职研究生专业及院校
同济大学研发疫情防控智能识别系统和疫情地理信息系统朗读者

同济大学研发疫情防控智能识别系统和疫情地理信息系统

由同济大学牵头建设的上海自主智能无人系统科学中心新冠肺炎疫情防控科研攻关团队自主研发出疫情防控智能识别系统,可快速识别人流中个体感染者的风险的。 供图 摄中新网上海2月15日电 (黄艾娇 许婧)由同济大学牵头建设的上海自主智能无人系统科学中心新冠肺炎疫情防控科研攻关团队研发的第一套疫情防控智能识别系统(TongjiNCP-AIS),15日在同济大学四平路校区大门口开始试运行,可快速识别人流中个体感染者的风险。这是同济大学首批新型冠状病毒防治应急科研攻关项目取得的成果。同济大学自主研发出可快速识别人流中个体感染者的风险的疫情防控智能识别系统。 供图 摄记者在现场看到,在摆放于校门口的这套系统的摄像头前站定,系统马上通过人脸识别技术,结合现场体温检测,对同济大学教职员工、学生的基本情况进行自动分析查询。如果体温正常、满足外地返沪大于14天隔离和上海的相关要求,校门将予以放行;如有发热现象或不满足相关要求,系统将自动报警,不予放行,对相关人员实现快速识别及隔离。据介绍,这套系统是科研团队利用人工智能、大数据、人脸识别、温度识别、动作识别等技术,可实现人脸识别、心率监测、呼吸监检测、门禁联动、门禁数据智能更新、咳嗽检测和语音播报,让人工智能技术在疫情防控期间发挥更大的作用,减轻学校相关管理人员的工作,实现疫情期间高效的校园安全管理。系统针对大规模人群,可以自动发现体温不正常个体,实现拍照和跟踪,以及提醒功能。团队将在近日加紧研制4套同样的智能识别系统,服务于学校其它数处校门口的监测防控。上海自主智能无人系统科学中心新冠肺炎疫情防控科研攻关团队研发出疫情地理信息系统。 供图 摄与这套疫情防控智能识别系统一同研发的,还有上海自主智能无人系统科学中心新冠肺炎疫情防控科研攻关NCP-GIS团队研发的新冠肺炎疫情地理信息系统(TongjiNCP-GIS)。团队充分发挥人工智能理论与技术优势,运用地理信息技术、大数据技术、云端技术等,针对疫情研发构建了新冠肺炎疫情地理信息系统,初步实现了上海疫情动态分析可视化、空间影响评估、数据空间分析、人员活动轨迹示踪等功能,为疫情防控预警和校园防疫决策分析提供空间信息辅助和支撑。疫情发生后,同济大学充分整合校内多学科力量并联合校外科研力量,自筹经费紧急启动“同济大学新型冠状病毒防治应急科研攻关项目”,加快开展新型冠状病毒防治科研攻关。率先启动的首批应急科研攻关项目主要依托同济大学牵头的上海自主智能无人系统科学中心,围绕人工智能、大数据、机器人等相关前沿技术,与医学、生命、信息、交通、测绘、土木、城市、管理等多学科协同交叉,重点开展疫情城市/社区时空宏观传播、个体移动与交通出行、装配式智能建造隔离区与资源智能调管、疫苗研制和智慧诊断救治、机器人与无人系统应用等方面的科研攻关,形成公共卫生防疫防控智能技术支撑体系。(完)

富有天下

同济大学研发疫情防控智能识别系统,如有发热将自动报警

当教职员工、学生在摄像头前站定,系统能马上通过人脸识别技术,结合现场的体温检测,对其基本情况进行自动分析查询。2月15日,这套疫情防控智能识别系统已在同济大学四平路校区大门口开始试运行,可快速识别人流中个体感染者的风险。如果被检测的人体温正常、满足外地返沪大于14天隔离和上海的相关要求,校门将予以放行;如有发热现象或不满足相关要求,系统将自动报警,不予放行,对相关人员实现快速识别及隔离。该系统是由同济大学牵头建设的上海自主智能无人系统科学中心新冠肺炎疫情防控科研攻关团队研发的第一套疫情防控智能识别系统(Tongji NCP-AIS),这也是同济大学首批新型冠状病毒防治应急科研攻关项目取得的成果。记者从同济大学了解到,科研团队利用人工智能、大数据、人脸识别、温度识别、动作识别等技术,可实现人脸识别、心率监测、呼吸监检测、门禁联动、门禁数据智能更新、咳嗽检测和语音播报,让人工智能技术在疫情防控期间发挥更大的作用,减轻学校相关管理人员的工作,实现疫情期间高效的校园安全管理。系统针对大规模人群,可以自动发现体温不正常个体,实现拍照和跟踪,以及提醒功能。团队将在近日加紧研制4套同样的智能识别系统,服务于学校其它数处校门口的监测防控。与这套疫情防控智能识别系统一同研发的,还有新冠肺炎疫情地理信息系统(Tongji NCP-GIS)。该系统初步实现了上海疫情动态分析可视化、空间影响评估、数据空间分析、人员活动轨迹示踪等功能,为疫情防控预警和校园防疫决策分析提供空间信息辅助和支撑。疫情发生后,同济大学充分整合校内多学科力量并联合校外科研力量,自筹经费紧急启动“同济大学新型冠状病毒防治应急科研攻关项目”。率先启动的首批应急科研攻关项目主要依托同济大学牵头的上海自主智能无人系统科学中心,围绕人工智能、大数据、机器人等相关前沿技术,与医学、生命、信息、交通、测绘、土木、城市、管理等多学科协同交叉,重点开展疫情城市/社区时空宏观传播、个体移动与交通出行、装配式智能建造隔离区与资源智能调管、疫苗研制和智慧诊断救治、机器人与无人系统应用等方面的科研攻关,形成公共卫生防疫防控智能技术支撑体系。

大鳄魔

考研大数据:同济大学2020年推免半数以上,统招的难度你想不到?

大家都知道上海同济大学是历次国家重点建设大学,在上海是仅次于复旦大学和上海交通大学的。实力很强劲。实力到底有多强呢?在教育部第四轮学科评估中,有4个A+学科(土木工程、环境科学与工程、城乡规划学、管理科学与工程),1个A类学科(设计学),7个A-学科(数学、机械工程、计算机科学与技术、建筑学、交通运输工程、风景园林学、软件工程)。A类学科数量尤其是A+数量在重点大学中也是很靠前的。这所高校这么强,那研究生招生每年招多少呢?翻了学校2020年,2019年等历年硕士研究生招生简章都没有找到具体的数量。但参考2019年全年的硕士研究生招生实际的话,大约是5670人,其中推免生招生1976人,全日制1721人(学硕和专硕),非全日制1973人。也就是说,推免生招生数量比统招的数量还要多。2020年同济大学推免生共录取1982人(含直博生362人)。这样看的话,下面我们看看同济大学2020年硕士研究生推免生的分布情况:应该说,推免生占据了全日制半数以上的名额,我们看看2019年统招各专业的招录比的情况,这样好让考生做到心中有数:通过2019年的数据发现,报考人数为19136人,而实际录取人数为3694人,大概的录取计划为1:5左右。从这点上可以看出同济大学的报考难度来了,2019年同济大学实际招录的全日制考生仅为1721人,如果考同济大学的研究生,也就是1:10的录取机会。这样看来,想考个同济大学的统考硕士太难了。对于同济大学的统考的全日制硕士1:10的招录比,您想发表什么样的观点呢?欢迎在下方讨论区留言参与讨论。

狼少年

上海交大、同济采用网络远程研究生复试,考生须准备双镜头

上海交通大学和同济大学硕士研究生复试将在线上进行。4月28日,上海交通大学发布2020年研究生招生复试考生须知。须知明确,硕士研究生招生复试采取远程复试的方式进行,复试时间预计在5月上中旬,远程复试平台为Zoom,具体时间由招生院系通知。考生需提前准备好硬件设备,用于面试的设备为1台笔记本电脑或台式机、摄像头、麦克风和耳机,而用于监控面试环境的设备为1部手机或笔记本电脑或台式机(须带有摄像头)。须知提出,复试过程中禁止录音、录像和录屏,禁止将相关信息泄露或公布。复试全程只允许考生一人在面试房间,禁止他人进出。考生须在复试前按要求安装调试好设备。考生端两台设备开启摄像头,电脑自带摄像头对准考生本人,另一部电脑或手机摄像头从考生后方成45°拍摄,要保证考生考试屏幕能清晰地被复试专家组看到。考生面试时正对摄像头保持坐姿端正,双手和头部完全呈现在复试专家可见画面中。复试模拟图。图片来自上海交通大学研究生招生网4月29日,同济大学在该校研究生招生网上发布了招生常见问题答疑,明确研究生复试将于5月上旬正式启动,采用网络远程复试的形式完成。网络远程复试平台为Zoom,要求考生准备双镜头。根据《同济大学研究生网络远程复试ZOOM平台简明使用说明》,主镜头(主机位)需全程清晰显示考生面容以及双手位置;副镜头(辅机位)在考生侧后方1-2米处设置,需全程清晰显示考生复试环境。上述答疑篇还提到,复试前,考试需准备独立的复试房间,灯光明亮,安静,不逆光。可视范围内不能有任何复试相关资料,不能有其他人在场。同日公布的《同济大学2020年硕士研究生招生考试复试录取办法》规定,考生需自觉履行保密义务,复试中不得录音、录像、直播、录屏、投屏,不以任何形式对外发布复试相关内容和信息。此前,华东师范大学、上海大学、上海财经大学、上海理工大学、上海戏剧学院等多所上海高校预告,硕士研究生复试原则上将采取网络远程的方式。(本文来自澎湃新闻,更多原创资讯请下载“澎湃新闻”APP)

波之塔

同济大学研发疫情防控智能识别系统 如有发热将自动报警

来源:澎湃新闻原标题:同济大学研发疫情防控智能识别系统,如有发热将自动报警当教职员工、学生在摄像头前站定,系统能马上通过人脸识别技术,结合现场的体温检测,对其基本情况进行自动分析查询。2月15日,这套疫情防控智能识别系统已在同济大学四平路校区大门口开始试运行,可快速识别人流中个体感染者的风险。疫情防控智能识别系统,本文图片均为同济大学供图如果被检测的人体温正常、满足外地返沪大于14天隔离和上海的相关要求,校门将予以放行;如有发热现象或不满足相关要求,系统将自动报警,不予放行,对相关人员实现快速识别及隔离。该系统是由同济大学牵头建设的上海自主智能无人系统科学中心新冠肺炎疫情防控科研攻关团队研发的第一套疫情防控智能识别系统(Tongji NCP-AIS),这也是同济大学首批新型冠状病毒防治应急科研攻关项目取得的成果。疫情防控智能识别系统记者从同济大学了解到,科研团队利用人工智能、大数据、人脸识别、温度识别、动作识别等技术,可实现人脸识别、心率监测、呼吸监检测、门禁联动、门禁数据智能更新、咳嗽检测和语音播报,让人工智能技术在疫情防控期间发挥更大的作用,减轻学校相关管理人员的工作,实现疫情期间高效的校园安全管理。系统针对大规模人群,可以自动发现体温不正常个体,实现拍照和跟踪,以及提醒功能。团队将在近日加紧研制4套同样的智能识别系统,服务于学校其它数处校门口的监测防控。与这套疫情防控智能识别系统一同研发的,还有新冠肺炎疫情地理信息系统(Tongji NCP-GIS)。该系统初步实现了上海疫情动态分析可视化、空间影响评估、数据空间分析、人员活动轨迹示踪等功能,为疫情防控预警和校园防疫决策分析提供空间信息辅助和支撑。新冠肺炎疫情地理信息系统(Tongji NCP-GIS)界面图疫情发生后,同济大学充分整合校内多学科力量并联合校外科研力量,自筹经费紧急启动“同济大学新型冠状病毒防治应急科研攻关项目”。率先启动的首批应急科研攻关项目主要依托同济大学牵头的上海自主智能无人系统科学中心,围绕人工智能、大数据、机器人等相关前沿技术,与医学、生命、信息、交通、测绘、土木、城市、管理等多学科协同交叉,重点开展疫情城市/社区时空宏观传播、个体移动与交通出行、装配式智能建造隔离区与资源智能调管、疫苗研制和智慧诊断救治、机器人与无人系统应用等方面的科研攻关,形成公共卫生防疫防控智能技术支撑体系。

四维

2019年国家重点研发计划立项数高校排名,同济大学独占鳌头!

最近,工信部公布了最新一批国家重点研发计划“物联网与智慧城市关键技术及示范”重点专项名单。到今天(5月20日),2019年已公布的重点专项共计包括6项,其余5项分别是综合交通运输与智能交通、可再生能源与氢能技术、核安全与先进核能技术、网络协同制造和智能工厂、智能机器人等。小编对各大高校2019年重点专项立项情况进行了统计,排名结果如下:通过这份排名可以看到,在国家重点专项这类顶级科研项目立项情况来看,国内高校还是有非常强的竞争力。高校中,立项数最多的是同济大学。2019年,立项数达到了6个,总经费也超过了1亿元。在前一阵子,美国商务部将同济大学列到了危险名单中。其中,非常重要的一点原因就是同济大学在国内科研中的影响力。从立项数来看,同济大学确实相当低调而务实。清华大学和西安交通大学并列第二位,立项数都达到了5项。从公布的这6个重点专项来看,以工科领域研究为主,因此上榜高校以工科大学为主。不过,不得不佩服的是,即便不是最擅长的领域,清华依旧可以有不错的表现。天津大学、华南理工大学、北京航空航天大学分别有3项入选,表现也都相当不错。有2项入选的高校有7所,浙江大学、南开大学和武汉大学均在其中。从这份榜单来看,能够入选国家重点研发计划的高校还是以985工程重点大学为主。211工程高校入选数量并不多,仅有长安大学、北京化工大学、西南交通大学、哈尔滨工程大学等4所高校进入了榜单。非重点大学中,南京工业大学、广东工业大学和深圳大学各有1项入选。虽然这3所大学并没有重点大学的头衔,但其实力确实不弱于任何一所211工程高校。毕竟这些大学不管是在地域、师资还是经费上,都遥遥领先于其它普通大学。国家重点研发计划关系到国家未来的发展,在一些前沿领域的研究都在靠这些科研计划来作为支撑。尤其是在美国大肆封锁的情况下,国内自力更生就显得尤为重要。像这些前沿领域,国内高校具有师资方面的优势。在上个世纪50、60年代那么困难的情况下,国内还能够涌现一批科研成果,因此环境并不是主要瓶颈。未上榜的高校也要努力了,毕竟这项计划是面向国内所有高校的,让那些有一技之长的大学能够真正涌现出来。

石峻

2019年国家重点研发计划重点专项高校排名,同济、西交齐爆发!

转眼2019年第一季度马上就结束了,国内各重点高校也抓紧了科研项目的申报。在最近3个月时间里,国家重点研发计划相继公示了“智能机器人”、“网络协同制造与智能工厂”、“综合交通运输与智能交通”、“可再生能源与氢能技术”和“核安全与先进核能技术”等5个重点专项。各高校在这些重点专项中表现也是有较大差距。小编对各高校在已经公示的这5个重点专项中的表现进行了统计,详情结果如下:已经公示的这5项以新型工科为主,在此类学科较强的高校在项目中表现也比较抢眼。西安交通大学、清华大学和同济大学都是以5项入选位居国内高校的前列,尤其是西安交通大学和同济大学这两所高校,最近两年在国家重大项目评选上有了明显的反弹趋势。西安交通大学和同济大学未来几年将会迎来一个明显的扩张期,实力会稳步提升。华南理工大学和天津大学各有3项入选,浙江大学、北京航空航天大学等6所高校2项入选,哈工大、吉林大学等19所高校有1项入选。从入选情况来看,以文理见长的高校表现都一般。像南京大学、复旦大学都未能入选,从目前趋势来看,当前国家重点研发计划中的重点专项还是以经济社会主战场的科研为主。相对而言,基础科学相关的研究入选数量较少。从目前来看,还有合成生物学、宽带通信、光电子与微电子等数十项重点专项没有评审,待这些重点专项全部公示后小编再做一次详细统计。在这些入选高校中,主体还是以重点大学为主。但其中不乏一些新贵,像这几年进步神速的南京工业大学和广东工业大学,虽然没有重点高校的头衔,但实力并不弱于一般的211工程高校。这对于国内高校的发展是一个良性的促进作用,毕竟根据国情,重点大学的帽子一旦戴上基本就下不来了。希望越来越多的普通高校能参与到重大项目中来,这对国内高等教育的发展也是百利无一害的事情。

静女

2018年国家重点研发计划高校经费总排名,同济大学成最大黑马!

自从2018年5月科技部公布首批重点专项开始,一直到前几天公布的智能机器人等6个重点专项为止,2018年实际公布的项目数量已经达到了56个。在这56个项目中,国内的科研高校是绝对的主力。小编对过去一年时间各大高校承担的重点专项数量及经费情况进行了统计,经费排名结果如下:从总经费排名来看,过去一年清华大学依旧一直独秀。在总项目数和经费总排名上都是国内高校第一,项目总经费金额达到了6亿元。浙江大学排名第二位,总经费和北京大学相差无几,但在牵头项目数方面远远多于北大。同济大学算是最大的黑马,总入选项目数和北大持平,同时总经费也达到了3.4亿元。而最近,美国商务部也是将同济大学、西安交通大学等高校划到了“危险清单”中。从这份排名来看,同济大学确实承担了不少国家级重点研发项目。上海交通大学表现不错,经费也超过了3亿。总经费超过2亿元的高校有2个,分别是中国海洋大学和中国农业大学。这两所高校都是行业类大学,在各自领域里都具有相当的竞争力。这两校虽然入选项目数都不多,但总经费着实不少。中山大学、南京大学、华中科技大学、天津大学表现都很不错,与历年排名结果都比较接近。中国科学技术大学维持着一贯的传统,入选项目不多,但总经费一点不少。排名靠前的高校中,有6所非985工程高校。它们分别是华中农业大学、暨南大学、北京工业大学、哈尔滨工程大学、贵州大学和江南大学,这些高校能够脱颖而出也确实说明了其在某个领域的优势地位,也是国内行业类大学的代表。尤其是华中农业大学,总经费达到了1.5亿元,比武汉大学、山东大学、复旦大学等高校都要高出不少。2018年国家重点研发计划的经费排名一定程度上体现了高校在重点领域的科研实力,当然,由于每年公布的重点专项类型有一定区别,这也就导致了部分高校排名不高甚至没有入选榜单。典型的高校包括北京师范大学、南京农业大学等,过去几年表现一直不错,但2018年公布的项目中表现不佳。不过,这也可以看作高校对过去一年成绩的一个总结,真正有实力的高校总会脱颖而出。

刘伶

让研究生喊“爸爸”的教授,又招生了

坠亡研究生陶崇园的导师王攀,再度出现在争议的漩涡中。近日,武汉理工大学官网公示了2020年通过硕士、博士研究生招生资格审核的教师名单,王攀也在内。我们还记得,2018年3月26日,王攀指导的硕士研究生陶崇园,因不堪忍受长期“精神摧残”而最终坠亡。事发后陶崇园与王攀的聊天记录和往来邮件显示,王攀曾多次要求陶崇园喊他“爸爸”。但是时隔不到三年,王攀又能招学生了?争议声起后,11月27日,武汉大学理工学院作出《情况通报》,决定该教师的硕士研究生招生资格不予通过。武汉理工大学回应“坠亡研究生导师王攀恢复招研资格”:不予通过这事暂且不论。之前,教育刚发布了《研究生导师指导行为准则》,规定了数项针对导师的行为规范。点击图片可查看《研究生导师指导行为准则》准则是参照,现今的高校师生关系好似掉入了一个循环的怪圈,非常规、甚至突破人伦道德底线的案例时有发生。陶崇园坠亡的事件,只是走向极端的“太仓一粟”。“我真的有这么差吗”2-3年的研究生课程中,导师起到了至关重要的作用。研究生阶段导师负责的学生数量有限,相比本科“一对多”的情况,研究生课程更多是一 一对应的关系。掌握了研究生们学业“生杀大权”的导师,除了遵循传道授业职能,还是“老板”“上级”“领导”。浏览一圈豆瓣、微博的研究生相关话题,不乏求助帖文,内容饱含与导师的种种冲突。“老师只说了格式问题,没有仔细看过内容,就全盘否定了我的论文。”“被导师抱怨又笨又懒,甚至陷入自我怀疑:我真的有这么差吗?”“导师安排的任务,会严重干涉到我的研究时间安排,但又不能拒绝。”“情绪PUA。”豆瓣帖子截图学生遭遇的困境五花八门,但没人敢真的说个“不”,苦水都是自己吞下去。“胳膊拧不过大腿,怕影响到毕业”。他们展露出一个显著的共性:再三确认能否保证不透露院校和名称信息。“是匿名的对吧?”这是被访同学问我最多的一句话。这样的压抑与沉默是研究生师生关系出现问题后,学生的普遍应对方式。但它也终有压抑不住的那一天。2018年12月同济大学研究生陆经纬坠楼身亡,就是悲剧性事件。陆经纬全年无休为导师工作,导致她患病休克,但这并没有感动她的导师。据学生家属说,导师曾经威胁如果不完成专业毫不相关的工作,就不给她毕业的资格。微博截图2019年,南京邮电大学研究生谭某在实验室自焚,同样由导师对他三年来的谩骂和无法负荷的额外工作量所致。生命终结是残酷的结局,屡屡被曝的此类案例以撕裂的面貌揭开了学术圈隐藏的伤疤。老师也有话说在高等教育界,层叠的学术圈金字塔,可不是单由导师搭建起来的,它离不开导师对门下研究生资源的巧妙利用。名目则是借着那套传统的伦理观,导师王攀,就自诩对学生陶崇园有“一日之师,终生为父”的恩德。云南大学人类学系副教授覃延佳认为:“导师误解了自身角色所具有的权力,对指导教师职责范围的限度理解有误,利用身份优势强制学生加入其各项工作中。”电影《三傻大闹宝莱坞》剧照对导师进行道德谴责恐怕于事无补。因为老师们也有苦处要抱怨。就职于江苏某高校的李老师对我说,学校考核结果关乎招生资格和数量,老师们不堪重负。所以他觉得部分导师在指导学生时的疲态,情有可原。而且有些学生达不到要求,导师迫不得已直接亲自上手代为完成,他笑称这是“老师给学生打工。” 按照太原理工大学一名学者的说法,一些学生在学术上缺乏精益求精的态度,因而导师与学生之间的矛盾是复杂难辨的,难以单纯归咎一方。无心向学的态度只是一方面,覃教授看到,“很多学生为了更好的发展,也在违心讨好教师。例如部分学生在考学自荐的时候,就表达自己可以帮导师处理财务报账、搜集科研材料等工作。” 这正如某位网友总结的,这是他们“逆来顺受的尊师重道”。客观生态现象的逼迫下而不得已做出的选择,透露着师生之间难舍难分、互惠互利又不对等的关系。指导与升学、资格晋升相互捆绑,纠葛背后是众人皆知、暗自服从的逻辑。被传统道德观念、根深蒂固的权力结构所“庇护”的高校教育环境,又哪来的绝对平等,这是社会深层结构所致。老师们既是行政管理权威的承受者,又是复杂人情世故的参与者。他们卷在其中,对学生好与坏,凭的不过是自己的良心。电影《死亡诗社》剧照《研究生导师指导行为准则》的出台,积极面向是倒逼各界重新审视师生关系。但我们也不敢乐观指望着一纸行政规范就能改善整个环境。毕竟,“你是能禁止导师接项目,还是禁止导师发脾气呢?”守则只是一方面,问题的解决,还亟待高校学术环境的改善和追责体制的落实。2019年9月华中科技大学的研究生自杀身亡,最后校方仅决定停止导师徐某某研究生招生资格2年。研究生以生命为代价的案例不在少数,舆论的重点往往是谴责导师,但在覃教授看来,舆论的盲目反而起了反作用。“舆论导向只爆结果,不分析原因与对策的倾向,导致这种状况非但没有得到大幅度环节,更因为各种科研项目与科研业绩考核的影响而日益加剧。”抛开教师与学生个体的道德素养,承载双方关系的根本,始终还是学术与制度环境,毕竟,死水里养不出活鱼。作者 | 浦潇编辑 | 董可馨排版 | 翁 杰

杨时

学界 | 同济大学综述论文:基于深度生成模型的药物研发

机器之心发布机器之心编辑部利用人工智能技术进行小分子设计以及新药研发是制药领域的热点研究问题之一。人工智能技术有望缩短药物研发时间,减少药物研发成本。近日,国际计算化学领域著名期刊 WIREs 系列刊物《WIREs Computational Molecular Science》发表同济大学刘琦教授课题组长文,系统探讨了基于深度生成模型(Deep Generative Models)进行药物研发的计算问题。机器之心经授权对此论文进行编译介绍,感兴趣的读者可查看原英文论文。论文:Advances and challenges in deep generative models for de novo molecule generation论文链接:http://onlinelibrary.wiley.com/doi/10.1002/wcms.1395/abstract摘要:分子的 de novo 生成需要按预期属性生成新的或修正过的分子结构。深度生成模型与传统机器学习方法中的判别模型不同,它利用深度学习模型强大的表征学习能力,提供了直接生成预期分子的可能性。尽管深度生成模型在机器学习社区中一直被广泛讨论,但与分子的 de novo 生成相关的深度生成模型的计算问题还需要具体研究。本文简洁深入地讨论了在分子的 de novo 生成问题上应用深度生成模型的最新进展,特别强调了在这一特定领域成功应用深度生成网络所要面临的重要挑战。1 引言在计算分子科学中,新分子的 de novo 设计和结构与属性分析是一个很重要的问题。近几年,基于人工智能的新方法,尤其是深度学习模型,在新分子的 de novo 设计与分析这一问题上展现出了光明的前景。深度学习模型通过级联非线性特征变换在训练样本上形成了抽象的表征学习(如分子表征),能够有效提取任意输入-输出关系的基本特征,从而促进分子计算科学中的定量构效关系(QSAR)分析。此外,这样的深度表征能力也促进了能够处理分子的 de novo 生成问题的生成模型的发展。分子的 de novo 生成需要按照预期属性生成新的或修正过的分子结构。一般而言,解决这个问题离不开逆 QSAR 问题,即,要在已知 QSAR 模型的约束下生成新结构。逆 QSAR 问题的重点在于定义一个把分子活性映射到化合物描述符上的逆映射函数,然后将这个化合物描述符转化为新的化合物结构。定义一个将描述符转化为化学结构的显式逆映射函数仍极具挑战性;由于大部分正向转换函数都是非线性的,因此获得逆向映射十分困难。然而,与传统机器学习方法中的判别模型不同,深度生成模型可以基于具有强大表征学习能力的深度学习模型,在不使用显式逆映射函数的情况下直接生成预期分子。这为分子的 de novo 生成开辟了一条新的道路。尽管机器学习社区一直在广泛讨论深度生成模型,但它们在分子计算科学中的具体应用却尚未被开发。这说明缺乏针对分子 de novo 生成的深度生成模型相关计算问题的具体研究。本文针对在分子的 de novo 生成问题上应用深度生成模型的最新进展,提供了一个简洁而又深入的探讨。我们在此也特地强调了在这一特定领域成功应用深度生成模型所面临的若干重要挑战。2 利用深度生成模型进行分子的 de novo 生成的最新进展2.1 生成模型与判别模型我们从区分生成模型和判别模型开始讨论。这两者的主要区别在于分布类型——判别模型直接学习条件概率分布,而生成模型学习的是联合概率分布。就分子分析而言,如果要预测给定分子 x 的属性 y,我们既可以用判别模型直接计算 P(y|x),也可以用生成模型计算 P(x,y)——再通过贝叶斯规则推导 P(y|x)。应用生成模型的优势在于可以用它们以监督(即建模 P(x,y))或无监督(即建模 P(x))的方式推断真实数据的分布。这种学习数据分布的方式可以用于数据模拟或新数据合成。生成模型旨在学习训练集的真实数据分布以便生成具有变化的新数据点。但它不可能总是能以显式或隐式的方式了解数据的确切分布。因此,需要对与真实数据分布相似的分布进行建模。和传统的浅层模型(如高斯混合模型和朴素贝叶斯模型)相比,深度生成模型利用了深度神经网络的强大力量,它旨在学习近似真实分布的函数。下文讨论了深度生成模型及其在分子的 de novo 生成方面的应用。2.2 用于分子的 de novo 生成的深度生成模型分类2.2.1 问题设定就下列所有不同的深度生成模型而言,输入数据集一般都包含 T 个带有特定标签的训练分子,标记为,其中 x_i 表示一般由特征向量表示的分子(如 SMILES 表征或结构分子指纹),y_i 表示分子活性的数值,或指向某个特定分子属性的离散值。以下生成模型的目的是根据这些训练数据生成特定的数据分布,该分布可用于数据采样以及生成 N 个新分子。这些分子应该来自于同样的训练域,它们属性相似但分子结构不同。在实践中,训练数据的标签 y_i 不是必须的,而整个训练过程能够以无监督的方式进行。图1:用于分子 de novo 生成的不同深度生成模型:(a) 基于自编码器的模型;(b) 基于生成对抗网络的模型;(c) 基于循环神经网络的模型;(d) 与强化学习结合的混合模型我们一般将深度生成模型分为四类,它们分别是:基于自编码器的模型、基于生成对抗网络的模型、基于循环神经网络的模型以及将深度生成模型和强化学习结合在一起的混合模型(图 1,表 1)。2.2.2 基于自编码器的模型:变分自编码器和对抗自编码器自编码器是一种针对无监督特征表征学习的、基于神经网络的架构。基本的自编码器包括编码器、解码器以及距离函数。编码器是高维输入数据到低维表征的映射,而解码器则是在给定低维表征的情况下对原始输入的重建。距离函数量化了原始输入和重建输出之间偏差的损失信息。但是基础的自编码器不能直接应用于分子的 de novo 生成,因为模型可能只学习到了一些训练数据的显式映射,而不是分子的泛化样本函数。因此,这些模型要根据这一约束进行修改,如变分自编码器或对抗自编码器即需要从输入数据中学习隐变量 z。变分自编码器提供了一个公式,其中连续表征 z 被解释为概率生成模型中的隐变量。假设 P(z) 为连续表征上的先验分布,Q(z|x) 是概率编码分布,P(x|z) 为概率解码分布。Q(z|x) 和 P(x|z) 的参数可以在变分自编码器的训练过程中通过反向传播推断出来(表 1a)。对变分自编码器而言,我们一般假设隐变量 z 的先验分布 P(z) 必须遵循零均值化和单位方差的多元高斯分布(图 1a)。至于对抗自编码器,它与变分自编码器的差别在于其架构中添加了额外的判别器神经网络来强化编码器 Q(z|x) 的输出,使其遵循特定的目标分布,同时解码器的重构误差被最小化(图 1b)。这一想法借鉴了生成对抗网络模型的主流思想(图 1c)。对这两个模型来说,通过解码器学到 P(x|z),即可以实现分子的 de novo 生成。表 1 分子 de novo 生成的深度生成模型的分类已经有研究者提出了一些在分子的 de novo 生成上应用 VAE 和 AAE 模型的研究(表 1)。通过 VAE 或 AAE 从 ZINC 分子数据库定向采样了 2 型多巴胺受体和 MCF-7 细胞系化合物,但没有很好地记录其模型生成能力,也没有对这些模型进行比较。Lim 等人提出使用条件 VAE 生成有五个目标属性的类药性分子。Dai 等人通过在解码器上引入句法和语义约束提出了一种新的句法导向的变分自编码器(SD-VAE)来生成句法有效且语义合理的化合物。这种方法极具启发性和创造性,因为在分子的 de novo 设计方面,生成合理的分子也是一个具有挑战性的问题。和 VAE 相比,AAE 一般会更灵活,也更适用于分子的 de novo 生成,因为从理论上讲,AAE 可以在不需要之前的高斯分布要求的情况下拟合特定分布。此外,AAE 中分子生成时的重构误差也比 VAE 更低。但这两种模型都缺少在大范围训练数据集上的综合客观的表现基准。2.2.3 基于 GAN 的模型GAN 是一个极具吸引力的 AI 模型,该模型由两个在零和博弈中存在竞争关系的神经网络的框架实现。其中,一个网络生成候选数据(生成模型),另一个评估这些数据(判别模型)。一般而言,生成网络学习从潜在空间到想要的特定数据分布的映射,而判别网络判断真实的数据分布和由生成器产生的候选数据的距离(图 1c)。和基于 AE 的模型相比:1)通过同时最小化生成器和判别器的损失,GAN 可以具备更强的约束;2)和基于 AE 的模型相比,GAN 没有先验分布的要求;3)基于 AE 的模型本质上还是侧重于特征表征和隐变量的建模,生成任务是次要的。因此,为优化生成任务而生的 GAN,会更有效更直接地生成分子。尽管 GAN 广泛应用于图像生成,但在 de novo 分子生成方面应用得很少(表 1)。在 RL 设置中提出了目标强化的生成对抗网络(ORGAN),这是 GAN 框架中第一个用于分子生成的研究工作。随后提出了基于 ORGAN 框架的分子 GAN(MolGAN)模型,该模型的设计是为了解决在 ORGAN 中的分子图表征而非 SMILES 表征的问题。我们推测将 GAN 应用于 de novo 分子生成的最大阻碍是通过维持两个对抗过程的平衡来训练 GAN。在训练 GAN 时出现的这样的问题常称作模式崩塌(mode collapse)。基本思想是生成器可能会意外产生几个完全相同的样本(完全崩塌),或者是有一些共同属性的相似的样本(部分崩塌)。在这样的情况下,生成器生成的样本会呈现出很差的多样性,这就限制了学习后的 GAN 的有用性。这在分子生成中是一个大问题,因为生成分子的多样性是评估生成模型性能的一个重要指标。也有人提出了一些改进 GAN 中模式崩塌(mode collapse)问题的办法。有人将提出的不同形式的 GAN 收集在 GAN ZOO(https://github.com/hinpuravinash/the-gan-zoo)中,但对模型的训练来说依旧存在巨大的挑战。研究者热切期望未来能解决这一问题并将 GAN 应用于 de novo 分子的生成过程中。2.2.4 基于 RNN 的模型基于 RNN 的模型被广泛用于自然语言处理中的统计语言模型。最近的一些研究提出了将 RNN 用于 de novo 分子生成的方法(见表 1)。Segler 等人探索了通过首先训练通用的先验模型使用 RNN 生成针对特定目标的库的可能性,接着,基于一小组针对特定目标的活性化合物对我们所关注的模型进行微调。这种迁移学习的理念在图像识别中得到了成功的应用。RNN 的基本架构维护一个内部状态,这对于跟踪序列中前面看到的符号是必要的。通过使用如长短期记忆(LSTM)单元和门控循环单元(如图 1d)等微架构,RNN 的性能得到了很大的提高。为了将分子设计和自然语言处理联系起来,我们可以用一种序列形式表示分子,例如使用 SMILES 表征。在大量的 SMILES 字符串上进行训练后,RNN 模型可以被用来生成新的没有被包含在训练集中的有效 SMILES 字符串。在这种情况下,RNN 可以被看做是分子结构的生成模型。RNN 的应用已经成为近年来 de novo 分子生成的主流方式。与基于自编码器(AE)和对抗生成网络(GAN)的模型相比,RNN 具有以下的优势:(a)序列化的分子的 SMILES 表征天生适用于 RNN 模型;(b)RNN 模型可用于处理各种长度的表征,而基于自编码器或生成对抗网络的模型通常要求分子由固定长度的向量表示;(c) 与训练基于自编码器和生成对抗网络的模型相比,训练 RNN 模型较为容易一些。2.2.5 将深度生成模型和强化学习相结合的混合模型研究人员已经提出了一些将深度生成模型与强化学习相结合的混合模型用于 de novo 分子生成的方法(见表 1)。强化学习是用于解决动态决策问题的人工智能的一类人工智能算法。在分子生成中使用强化学习的基本思想是通过强化学习引导或约束整个分子生成过程,以获得所需的性质。在这一动态过程中,通常会设计出一个用于分子生成的生成模型,并用一个预测模型进行分子评估。评估结果会被作为奖励或惩罚反馈给系统,从而引导生成器以一种交互的方式生成所需的分子(见图 1e)。目前有两种典型的将深度生成模型与强化学习相结合的模式,即包括 ORGAN 、MolGAN 在内的基于 GAN 的模型,以及基于 ANC 的(对抗性神经计算机)模型。前者是自然语言处理研究社区之前使用的 SeqGAN 模型的扩展,使用 RNN 或简单的多层感知器作为核心生成器。后者是基于对抗性神经计算机的模型,包括基于对抗性阈值神经计算机(ATNC)的和基于增强对抗性神经计算机(RANC)的模型,它们使用可微神经计算机(DNC)作为核心生成器,比基于 GAN 的模型更有效。将深度生成模型和强化学习耦合的混合模型是未来深度生成 de novo 分子生成的方向,但这种较高的模型复杂度和模型训练方法仍然是十分具有挑战性的问题。3 新分子生成领域的深度生成模型面临的挑战3.1 分子表征——阿基琉斯之踵对于所有可以用于 de novo 分子生成的模型来说,恰当的分子表征是应用程序成功的关键。不恰当的分子表征可能成为 de novo 分子生成任务中的阿基琉斯之踵。在这个特定的应用场景中,分子表征任务需要考虑的关键因素是:(a)表征应该尽可能信息丰富,以表示分子属性;(b)表征应该能够容易地逆向生成分子式。如表 1 所示,我们总结了两类目前用于生成分子的分子表示,包括基于 SMILE 表征和基于分子图表征的 one-hot 编码。目前,大多数深层生成模型使用 SMILE 表征和 one-hot 编码来表示小分子。SMILE 是一种从分子图推导而来的基于字符串的表征方式。因此,RNN 是处理此类表示的理想候选模型。RNN 模型的缺点是既要学习句法规则又要学习表征的顺序歧义。SMILE 字符串是由基于图的分子表示生成的,而在原始图空间中工作可以去除额外开销。最近的进展还包括直接应用 GAN 等其它深度生成模型来处理这种图表征。例如,MolGAN 是一种基于 GAN 的用于分子生成的深度生成模型,专门用于处理图表征 [18 ]。Li 等人 [39] 还提出了多目标 de novo 药物设计的两种图生成模型,即基于马尔可夫过程的图生成(MolMP)和基于 RNN 的图生成(MolRNN)。然而,这两种类型的表征都不能完全、具体地表示分子信息(见第 3.4 节)。新的和信息丰富的分子表征需要被继续关注并应用于深度生成模型。3.2 模型对比基准测试—如何评估生成样本的合理性和多样性de novo 分子生成的模型对比基准测试和验证是非常具有挑战性的。验证新生成的分子最直接的方法是合成它们并通过实验验证它们的预期特性。显然,以这种方式定量评估生成模型的性能是不可能的。为此,现有的对比基准常常涉及到设计各种评价指标来评估生成样本的质量和多样性。在这里,医药化学家和统计学家做出了很大的贡献。通常,这些指标可以被分为四类,它们包括:(a)用于评估模型重构能力的指标,即模型在潜在空间中将数据编码为一种表征方法的能力,并通过对这种表征解码来重构输入。这些指标特别适合对基于自编码器的模型进行评估;(b)用来评估生成样本多样性的指标,包括 Frechet Chembl——净距离 [42],内部化学多样性、外部的化学多样性 [43,44];(c)用来评估生成样本的有效性的指标,包括生成有效分子的比率;(d)用来评估生成分子特性的指标,包括分子成药性,可合成性及可溶解性。多数现有模型通过使用 RDKit [45] 评估生成样本的有效性来进行评估。一些其它的模型评估了生成样本的多样性(见表 1)。然而,目前的深度生成模型尚不能完全重现待生成的分子的自然化学多样性 [43]。研究人员提出了一个协作平台 DiversityNet(见表 2),它可以对化学领域的人工智能生成模型进行对比基准测试。我们在这里还提出了一些新的指标,这些指标从 GAN 社区借鉴,并期望可以用于分子生成模型进行对比基准测试,这些指标包括核最大平均差(MDD)、推土机距离(Wasserstein)和 1-近邻分类器 [48]。这些指标本质上是为了评估两种不同分布的距离而设计的,在这里可以将它们用于评估基于 GAN 的 de novo 分子生成模型。表 2:与深度生成分子 de novo 设计相关的开源平台3.3 需要开源工具和平台实现可重用性和可复现性训练用于 de novo 分子生成的深度生成模型是非常具有技术性和挑战性的。迫在眉睫的是,我们需要开发开源工具和平台实现可重用性和可复现性。表 2 列出了一些与 de novo 分子生成相关的开源平台。其中,ChemTS 提供了一个 python 库,用于使用 RNN 实现蒙特卡洛树搜索,用以 de novo 分子生成。ORGANIC 和 REINVENT 分别实现了相关文献中提出的特定模型。当前所有可用的平台都没有被专门设计用来解决 de novo 分子生成问题,或者说他们只实现一个特定的算法,但这限制了这些工具(见表 2)的广泛使用。研究人员还需要再接再厉,设计出更全面、有效的工具来专门解决 de novo 分子生成问题。3.4 从图像和文本生成到分子生成还有很长的路要走!最后,这些深度学习模型起源于图像处理和文本挖掘研究社区。这些社区已经开发出了鲁棒性很强的技术,我们可以借鉴这些技术来设计 de novo 分子。例如,最初用于大规模图像数据库 ImageNET 的图像处理的基于迁移学习的微调技术已经被成功应用于 de novo 分子生成。虽然分子生成可以与图像和文本生成进行类比,但是将这些模型直接应用到分子上是非常具有挑战性的,原因如下:(a)图像和文本的表征与分子的表征有很大的不同。用整个像素或整个单词的集合来具体地表示一个完整的图像或句子是很直接的,基于这些表征的重构也是如此。同时,深度学习模型的抽象能力可以直接应用到图像和文本中进行特征表示学习,从而避免了手动标注的特征工程。然而,像 SMILE 模式这样的分子表征是手工设计的,并且是基于线性的,通常不能表示关于分子的其他有意义的信息。目前,我们缺乏一个有效的分子表征,包含适合深度生成模型解析的完整分子信息。(b)图像和文本具有容错性。修改单个像素或单个字母一般不会影响对整个图像或文本的理解。然而,分子对错误是十分敏感的。原子水平的变化将极大地影响分子的性质,因此,为了获得所需的性质,产生一个分子的生成模型必须是高精度的。4 结语总而言之,从图像和文本生成到分子生成还有很长的路要走!我们希望利用图像和文本挖掘社区开发的技术来设计更有针对性的深度学习技术,这些技术可以成功地被用来解决 de novo 分子生成的特定需求。这一特殊领域未来的前景是光明的,我们现在只是刚刚开始将复杂的人工智能技术应用于药物研发。作者介绍:本论文由同济大学刘琦教授课题组受邀撰稿完成,刘琦教授课题组以 AI 和机器学习计算技术为基础,重点关注关于药物研发、肿瘤精准治疗及基因编辑领域的交叉计算问题研究,曾获 2017 年吴文俊人工智能自然科学奖三等奖。同时积极进行计算机科学和生物医学交叉领域的科普宣传。本文为机器之心发布,转载请联系本公众号获得授权。