科研大数据【科研大数据资讯】

不祭先祖

大数据时代下的科研活动的发展方向

针对大数据时代科研活动的新生知识需求，TIB将其所开展的4个领域的产品研发活动，包括：开放科学（open science）、数据科学（data science）、非文本资源（no-textual materials）和可视化分析（visualization analysis）进行调整拓展，4个领域协同推进数字化/网络化发展。　　开放科学产品线　　开放科学是数据驱动科研的最佳实践方法。数据驱动科研的背后，就是要解决一系列针对科研数据的保存、流通、管理、保障等需求和问题。TIB开放科学部门的重点工作是推进开放科学基础设施为依托的科研协同环境。　　TIB成立的开放科学实验室（Open Science Lab），长期与包括莱布尼兹研究网络2.0在内的多个提供研究人员或者研究基础设施的机构保持合作关系。　　Open Science VIVO Beta（2014年3月至今）利用关联开放数据（linked open data），为科研社群提供协同、一致、多样的信息展示。通过在主要德语研究机构上及时抓取科研活动及成果信息，利用关联数据本体的拓展和对接，实现全欧洲境内科研机构、人员、项目等信息的互联整合。目前该网络内共有597位研究人员、19家机构和766项研究成果。该网络在欧美研究社群中广泛使用。　　CoScience（2014年3月-2015年3月）是为帮助科研人员共享科研方法、存储科研经验、推广新兴科研工具的数字化信息服务项目。在项目的两期工程中，共与13家高校图书馆、信息机构和数字化项目达成合作。通过开放平台文档和开放视频讲座两种方式，为科研人员集成经验方法，引导研究人员间的知识共享。　　非文本资源产品线　　TIB提出的“超越文本（move beyond text）”战略具有现实意义。图书馆的知识资源仍然是其最重要的资本和基础[15]。大数据时代的推进使得图书馆馆藏资源不仅仅局限于传统的印本资源，而是囊括了具有多种数据类型、地理分布存储的广泛意义的数据资源。　　TIB成立的非文本资源部门关注各类数字化科技信息。针对其中的非文本资源开展了一系列搜集、标引、存取和贮藏实践，将非文本资源视作与传统文本资源同质的“文化遗产”。下面分别列举3个重点领域（全维度的科研数据、视听多媒体资料以及3D数据）的相关实践。　　RADAR（Research Data Repository）（2013年9月-2016年8月）是依托莱布尼兹信息基础设施建立的一个通用型科研数据知识库，提供多维科研数据保存（最高保存时限15年）、出版、认证和追踪工作。并与图书馆、研究机构、出版商和开放平台进行数据整合，实现科研数据的分布式存储和一体化获取。　　AV-Portal（2014年至今）是一个针对视听多媒體科研数据的分布式集成门户。其视频资源覆盖自然科学和工程等多个学科，对视频质量进行严格控制，视频内容主要涉及计算机可视化、教学资料、仿真模拟、实验过程、访谈和会议记录等。检索视频资源时，可以实现对视频内容的概览、视频语音内容的语种翻译并支持对视频资源每一帧的内容检索。用户可以自由上传资源，资源发布需要审核，部分资源支持开放获取。　　DURAARK（Durable Architectural Knowledge）（2013年2月-2016年1月）是一个针对建筑学类3D模型长期保存的数据库。从语义层面对建筑的3D模型资源进行组织和标引工作，建立新的元数据格式对建筑的数据信息以三维立体模型的形式进行长期保存，以期实现对建筑信息多维简便的获取。　　数据科学产品线　　在TIB开展的数据科学产品开发活动中，大量的成果是以数据科学为工具对数据进行的深度分析与挖掘。在该领域产品研发过程中，TIB同样面对复杂的处理对象——数据类型。与非文本资源产品关注的重点相同，其不仅针对传统文本信息，更重要的是对诸如科研数据、视听内容、3D信息、仿真模块及软件多种数字化的科技数据源进行检索、查询和保存。　　基于数据科学领域机器学习、模式识别和统计学方面的工具，TIB针对科研数据的分析、组织和检索工作进行了语义化探索，研究成果多应用于检索工具和系统中。　　AV-Portal是数据科学产品的集大成者。在其两个工作重点：文本（数据）挖掘和知识管理（语义分类、本体等）方面均有所应用。文本挖掘工具主要是对非结构化的数据进行整理，使之结构化并挖掘其中的潜在联系；知识管理则主要对现有馆藏资源进行语义层面的改进。　　该门户支持对经过质量控制的科学视频进行包括场景、文字、语音和图像在内的多维度的数据识别，以不同的粒度对对象的不同特征进行分析处理，实现对信息进行快速、一致、交互地存取；从语义层面对资源进行分类组织，扩展检索方法；支持基于DOI的针对科学影片和片段的引用，自制影片及科研辅助资料的上传。多媒体检索方法和语义数据分析的技术使得这些非结构化的资源组织和检索工作得以更好地实现。

展开

快斗

基于临床科研大数据平台研究

利用人工智能技术建设临床科研大数据平台。采用了Openstack作为数据平台私有云的解决方案，应用层使用Docker容器化的方案，数据库使用了开源数据库软件PostgreSQL，平台的应用主要由科研数据中心、临床大数据治理平台、智能科研检索、临床科研采集系统、全院级科研随访系统五部分组成。通过该平台临床研究人员获取数据将更便捷、科研管理更高效、探索新的研究方向更容易。基于临床科研大数据平台，能为医院各专科提供有效的科研服务，实现科研、论文和核心技术等方面的突破提升。随着医疗体制改革的深入，科研水平成为衡量医院发展水平的重要因素。科研大数据平台作为医院科研、教学工作的一个重要组成部分，在提高临床科研水平和培养医学研究人才方面发挥着十分重要的作用。如何为临床科研人员搭建平台，以有限的资源发挥最大效应，实现资源共享，最大限度地发挥科研支撑平台的作用，是目前大型综合性医院亟需解决的课题。研究背景 2017年国务院发布的《新一代人工智能发展规划》中提出要大力推广应用人工智能治疗新模式新手段，建立快速精准的智能医疗体系。随着大数据和人工智能的运用，国内外涌现了一大批借助医学信息学和机器学习技术进行临床研究数据分析挖掘，取得了丰硕成果。通过对医疗电子化数据的建模、分析、挖掘，并且基于数据二次利用所形成的进一步应用，已经成为医疗信息化、精准化、智能化的下一个核心发展方向。我国健康大数据和医疗人工智能行业尚处于起步阶段，基础薄弱。目前国内最有代表性的医疗人工智能产品，在于基于医疗影像的人工智能自动筛查和诊断系统，对胸片、皮肤照片、脑部影像等医学影像进行自动分析，并生成相应的影像诊断报告。但在其他人工智能的技术领域，例如自然语言处理、语音识别，以及通用的机器学习方法，目前在中国形成可落地的产品尚不多见。基于临床科研大数据平台的架构与应用目前大部分医院已经建立了较为全面的医疗信息化支撑体系，无论是电子处方、医嘱套餐，还是临床路径、电子病历，在提高临床效率服务上下足了功夫，但由于临床数据分散在多个应用系统中（如EMR、LIS、PACS等），且都是非结构化的海量数据。本文通过人工智能技术的应用进行探讨，为有兴趣致力于研究大数据的临床科研工作者提供一点思路。技术架构研究采用了Openstack作为数据平台私有云的解决方案。通过使用Openstack搭建私有云平台，既可以获得类似阿里云等公有云的灵活、弹性、扩展性等云计算的优势，又可以降低安全风险。在应用层使用Docker容器化的方案。通过使用Docker容器化部署，每个服务运行在了一个独立的环境之中，互不干扰，也不会影响宿主机的环境，解决了长久以来生产环境与开发测试环境不一致导致的各种问题。同时，通过Docker提供的集群化以及资源分配功能，提供了更高的可用性，并提供了不停机升级的特性。数据库使用了开源数据库软件PostgreSQL。PostgreSQL作为当前最先进的开源关系型数据库管理系统，体现了极高的性能与稳定性，支持python、perl、c、R、Java、Javascript、PL/PgSQL等多种语言编写存储语言及扩展，支持多种特殊索引结构、支持自定义的数据结构、支持机器学习库以及GPU并行计算等。基于临床科研大数据平台的应用基于临床科研大数据平台的应用主要由以下几部分构成：科研数据中心、临床大数据治理平台、智能科研检索、临床科研采集系统、全院级科研随访系统等应用（表1）。在此治理和科研采集的基础之上，未来可支持科研统计分析及临床辅助决策。在人工智能支撑下，通过临床辅助决策应用到电子病历等业务系统中，将治疗评价、风险预测贯穿在诊疗流程，基于医院原有临床数据进行实时决策支持，最终实现临床采集-科研分析-指导临床的闭环。表1 临床科研大数据平台应用全院级专病科研数据中心通过将原有院内临床数据中心CDR，未充分结构化的病历、报告等文本数据，经过人工智能技术处理形成高质量、多维度的结构化数据，以满足科研检索、临床数据收集、统计分析的需要。结合科研采集、随访管理等系统采集的数据，进一步丰富“以患者为中心”的科研数据库。临床大数据治理平台基于自然语言处理、知识图谱、机器学习等AI引擎的大数据治理平台，实现各类临床数据的结构化、标准化和归一化等处理。针对数据驱动的临床研究场景，能够将医院积存的海量临床数据自动结构化、标准化成可被临床研究直接分析、利用的科研数据。治理后的结果为后续的临床应用提供了良好的数据基础。智能科研检索提供多维度、多病种符合专病模型的检索功能，从病历、诊断、用药医嘱、检验、检查报告、体征等结构化及非结构化文本中提取检索点位，个性化定制专病检索模型。支持通过入选和排除等集合运算实现研究人群的精确筛选，实现自动发现满足条件的新病人并自动入组，实时精准从海量病历中定位研究人群。临床科研采集系统在数据治理基础上，满足科研所需的病例报告表（CRF）设计与数据采集、科研项目管理、团队管理与多中心、权限设置与隐私、数据核查与质疑、数据导入导出等常见功能模块。高度结构化、规范化的病历数据，利于病例报告单（CRF）自动填写，科研流程管理支持研究全过程协同。全院级科研随访系统可有效解决院内外数据整合、患者依从性差、失访率居高不下的难题，在全面提升随访专业度、保证科研项目的顺利推进的同时，极大地提升科研人员的工作效率。随访平台从患者管理和科研需求出发，整合随访计划提醒、随访量表填写、智能科普患教、在线病情咨询、患者报告结局（ePRO）信息采集等功能；自动问答功能为患者提供准确的知识问答和健康建议，实现个性化健康宣教和科普。同时为满足临床科研需要，可将患者采集结果便捷地返回给专病科研库，实现对患者离院后健康信息的全量收集。结论与展望智能化的临床科研支持系统不仅能对历史病历数据进行快速检索浏览，而且能便捷地将临床数据应用于具体研究中，成为医院各科室开展临床研究提供高效的工具，加速推进学术研究及成果转化，释放积压的大量医疗数据潜在学术价值。同时在全院级临床科研大数据平台与应用平台上，实现了各业务系统历史数据及实时数据的整合、治理。经过治理后的数据保障临床科研数据质量，在此基础上各科室临床研究人员获取数据将更便捷、科研管理更高效、探索新的研究方向更容易，从而实现科研效率整体提升，不断提升学术研究能力，实现医院临床学术研究质和量提升。【引用本文：朱明宇. 基于临床科研大数据平台研究[J]. 中国数字医学,2020,15(7):17-18,35.】新媒体部： 010-81138718；81138717

展开

清春

科研进入“大数据时代” 上海深化科技创新资源数据发展

10月29日，2020浦江创新论坛科技创新资源分论坛在沪举行，以“云时代的科学第四范式”为主题。　郑莹莹　摄中新网上海10月29日电 (郑莹莹张亨伟)“近年来，随着越来越多大科学装置的建设和重大科学实验的开展，国内的科学研究也进入到了前所未有的大数据时代。”上海市科学技术委员会副主任傅国庆29日说。当天，2020浦江创新论坛科技创新资源分论坛在沪举行，以“云时代的科学第四范式”为主题。傅国庆表示，科学数据已经成为科学发现的新型战略资源。一个国家的科学研究水平，将直接取决于其在科学数据上的优势，以及将数据转化为知识的能力。他介绍，从国际上来看，伴随着以互联网、云计算和大数据为代表的数字经济的迅速发展，科学数据已经成为传播速度最快、影响面最广，开发应用前列最大的科技资源，科技创新进入了数据驱动的第四范式时代。《上海科技创新资源数据中心三年行动计划(2021-2023)》发布仪式。　郑莹莹摄当天，《上海科技创新资源数据中心三年行动计划(2021-2023)》发布。该计划的内容显示，“上海科技创新资源数据中心研发与转化功能型平台”(简称数据中心)自2018年12月正式启动以来，围绕人才、装置、机构、项目等科技资源数据要素，以“科技创新资源信息集成融合、科技资源研究与运行评价、科技创新资源协同配置服务”三大核心功能为支撑，在采集、汇聚上海市科技资源和服务大数据的基础上，实现了科技数据的加工、存储、挖掘、分析、共享和服务，从而促进科技资源科学统筹配置，转变政府职能，促进科技资源共享利用，提高服务水平，提高全社会创新服务效率，推动科技研发服务产业的快速发展。目前该数据中心已拥有全球各类科研资源数据近10亿条，数据总量1120TB，覆盖了专利数据、人才数据、文献数据、基地数据、装置数据等多方面的科技资源内容。在此基础之上，未来上海科技创新资源数据中心筹划逐步将科学数据这一关键科技资源纳入覆盖范围，更好更深入地为科技创新事业提供服务。上海科技创新资源数据中心首席执行官朱悦介绍，上海科技创新资源数据中心将紧跟国家战略和上海推进建设具有全球影响力的科技创新中心的建设要求，用三年的时间深化科技创新资源数据服务，探索科学数据管理体系建设模式，探索共建共赢的科学数据应用模式，优化科学数据服务生态，加强国际合作，全力打造支撑“1+1+N+X”科学数据生态体系的技术载体。其中，重点推动以云架构为基础的综合型科学数据管理平台建设，计划到2023年实现50PB存储的建设目标。同场正式发布的SCIPLUS科研云正是“三年行动计划”的一个良好开端，科研云将利用云计算、大数据、人工智能等前沿技术，推进传统科研工作向科研第四范式转变。(完)

展开

妇女节

整合科研大数据打造智能知识服务平台中科院文献情报中心“慧”系列产品发布

2018年12月27日上午，中国科学院文献情报中心主办的“慧”系列智能知识服务产品发布会在京举行。发布会现场会上，中国科学院副院长张涛院士表示，随着信息时代的到来，数据信息爆炸式增长，数据密集型科研范式成为重要的科研范式，科研人员对科研信息与科研交互的需求越发强烈。特别是面向学科多元交叉，对从基础研究到应用研究再到市场研发整个创新价值链的文献情报知识梳理充满渴求，并且科技创新研发活动也面临海量数据分散孤立、知识价值难以判断的问题，这意味着科技信息服务手段需要创新，知识服务的内涵需要拓展。“慧”系列智能知识服务产品是在中科院支持下为科学家研发的智能知识服务产品，是在新型知识发现与科学研究模式下，在中国科学院文献情报中心的“科技大数据平台”基础上研发的。该系列产品面向科学家群体,突破了“数据计算型”的知识发现与情报分析范式，解决因科技大数据分散孤立不能整合计算、释放知识价值的问题；解决因科学家收集数据、项目填报重复繁杂难以提升科研工作效率的问题；解决传统数据服务架构弱化用户参与、不能促进数据流动的问题。中国科学院文献情报中心主任刘会洲称，“慧”系列产品从“智能的知识分析、精准的知识发现、及时的前沿跟踪、主动的知识递送、开放的学术交流”五个方面，阐述了“智能、精准、及时、主动、开放”服务理念。以“慧眼”与“慧科研”为代表的“慧”系列智能知识服务产品，正是立足中国科学院科技事业发展的新要求，面向科研人员对知识服务的新需要，依托知识图谱与深度学习技术，实现了海量科技大数据在广度与深度上的计算组织，实现了集成文献检索、精准推送、智能分析、学术交流、资源共享、科研管理等贯穿“科研、交流、管理”全链条的开放学术生态系统。国家科技图书文献中心（NSTL）主任彭以祺表示，这样的服务模式和产品，对满足科技创新引领知识服务的转型和升级具有重要意义，对我国科技文献事业的发展起到了推动作用。科技大数据是国家信息安全的重要组成部分，特别在当前复杂的国际形势下，科技大数据的保障对科研工作有不可替代的作用。在当前这个以数据为创新驱动的新环境中，中国科学院文献情报中心作为国家级的科技文献资源保障机构，很好地抓住了时代机遇，率先建成科技大数据平台，将重要基础性战略资源汇聚协同起来，成为推动科学发现和知识创新的新引擎。（文/谷雨）

展开

洋洋洒洒

2019年保研季来临，科研院士大数据和美国科研数据惊人的相似！

被质疑的清华大学博士后清华大学作为中国最顶尖的高校之一，很多学生以本科硕士博士都在清华大学就读感到荣幸，然而在美国学生看起来，觉得非常的不可思议，一名清华大学的博士后赴美学习，当介绍起自己的学习经历，美国的同学都觉得不可思议，在同一所高校攻读本科、硕士、博士在美国学生眼中觉得是不可思议的一件事，因为每一所高校的强势学科不一样，如果竟让在一个学术环境下学习，很容易造成学术研究的局限性，在中国很多高校，学术带头人杰青和长江学者等人才研究的方向，就可以看出这所高校该学科的大概情况，因此在科研圈中，学术流动越频繁学术生产力也会越高，美国高校非常忌讳本硕博都在同一所高校，首先会滋生学术近亲繁殖，其次会让高校学术科研不会有新的发展方向，因此鼓励学生们进行频繁的学术交流，因此在美国存在大量交换生的现象。中科院院士的数据大调查近日中国青年报对中国两院院士做了数据调查，从2459名的院士中，去除一些早期的院士，以及没有攻读研究生的院士，采集到有效的数据为1068人，其中仅有204名院士在同一所学校接受了从本科到硕士甚至博士阶段的完整的学历教育，有864名院士在本科、硕士、博士三个阶段，至少经历了一次环境的转变，更有很多人经历了两次转变。中科院院士的数据调查也符合美国高校的科研数据，那就是跨高校学习更能体验不同的学术文化圈，更能提升科研工作者的科研视野。例如2017年决定从清华大学离职的颜宁，就像颜宁对自己离开清华大学，在网络中留言说的一样，并不是由于清华大学的科研环境不好，清华大学的科研环境和平台非常棒，只是她希望希望可以换换环境，挑战一下自我，从2018~2019年颜宁的科研数据成果来看，只要是科研大牛，无论在哪一个平台和高校，都会有不错的表现！“自讨苦吃”的颜宁，成就最好的自己其实从清华毕业再到普林斯顿大学求学，海外学成归来，成为清华大学最年轻的教授，在众多质疑的压力下，颜宁把最好的青春十年时光奉献给了清华大学实验室，并且通过自己和同事们的努力，已经让曾经不出名的清华大学生命科学院带到了世界顶级科研机构，为了再次挑战自我，放弃了清华大学优越的条件，重返普林斯顿大学，甚至需要为几十万美元的项目写申请书，但是她从2018~2019年的成果产出来看，颜宁其实选择成就最好的自己，告别尘嚣的大都市换成了一个安静的小镇，普林斯顿大学新的团队成员，来自全球的优秀学者，如何获得思想的碰撞和思维的提升，这也许是每一位科研工作者的目标！因此，2019年已经到了高校保研季，希望不同高校的学生可以从中有所收获，多看看不同地区不同高校优秀的导师，选择自己感兴趣的课题进行申请研究生，清华北大固然好，但是换一个学术环境也许会带给你不一样的学术体验！

展开

华之乱

支撑上千科研大数据项目 EasyStack私有云助力北方工业大学校企合作

北方工业大学位于中国首都北京，前身是创立于1946年的“国立北平高级工业职业学校”。由中央与北京市共建，以北京市管理为主，是北京市重点建设的多科性高校，也是教育部“卓越工程师教育培养计划”院校，是国家首批“卓越工程师教育培养计划2.0”、“新工科研究与实践项目”入选高校。截至2018年12月，学校有北京市重点实验室2个，省部级研究中心6个，校级研究所10个。北方工业大学承担了国家自然科学基金，“863”计划、科技支撑计划等在内的国家和北京市重大和重点项目，完成了千余项企业合作横向课题，承担如国家电网、国家电厂、海洋大数据等数据存储、实时数据分析处理等第三方托管业务。作为国家电网、国家电厂、海洋科研院所等上千企业实时大数据科研平台，北方工业大学科研大数据平台承载了庞大的数据存储和分析处理任务，而传统架构无法灵活扩缩，缺少体系化的云平台支持大数据和AI工具，导致IT基础设施对大数据业务的支撑能力明显不足。基于中国开源云计算的领导者易捷行云EasyStack在教育、科研行业的诸多最佳技术实践，经过严格的竞标与技术选型，北方工业大学决定选择EasyStack ECS易捷行云企业云构建科研大数据云平台，对北方工业大学的众多科研项目和大数据业务进行有力支撑。无缝整合云与大数据平台助力科研效率提升北方工业大学科研大数据平台通过对具有来源多样化、海量以及增长快速特征的信息数据的分析，洞察，为企业和科研院所提供进行数据决策依据，以分析结果形成企业的输出能力创造新形态的业务模式。 ECS易捷行云企业云平台通过与大数据平台软件的无缝整合，能以 Analysis-as-a-Service 的方式提供给高校，大幅降低了云平台大数据分析业务的技术门槛。该大数据分析服务支持大数据集群的自动化部署、弹性扩展和监控运维，支持一站式解决科研大数据平台的应用和管理难题；同时支持 Hadoop、Spark等多种大数据集群，满足可学校根据业务需要灵活地选择适合的集群执行分析任务的需求。 “黑科技”解放科研人员双手值得注意的是，ECS企业云提供的CDH 5.4.0集群的生命周期管理从很大程度上解放了科研人员的双手，在集群中，ECS企业云平台预装了包括 HDFS 分布式文件系统、YARN 任务调度及资源管理系统、HIVE 数据仓库工具、ZOOKEEPER 配置一致性管理工具、OOZIE 工作流管理工具等大数据分析场景支撑组件，通过界面就可以快速创建，调整集群的大小。而面临不同品牌、多种型号的服务器、存储等混杂资源，该项目在利旧基础设施资源的同时，也对云平台的兼容性、弹性、稳定性提出了较高要求。ECS云主机管理模块支持与多种 Hypervisor 软件的管理集成，架构上是基于插件方式来实现，其带来的优势是不需要改变平台总体架构就可以方便地通过Hypervisor 层的驱动插件，实现对新种类的 Hypervisor 软件的支持。目前ECS领先业界支持多虚拟化平台包括 KVM、VMware、XEN 和 Hyper-v，同时还率先增加了对 PowerVM 小型机虚拟化的支持。 ECS 云主机管理模块在资源层面对底层虚拟化技术的封装，对上层用户来说他们不再需要关心云主机是通过那种 Hypervisor 软件创建的，不需要考虑底层技术的兼容性问题，所有云主机抽象为一种按需使用的计算资源，并且具备秒级获取云资源、支持多种操作系统、实时监控、弹性灵活的特性。此次，北方工业大学科研大数据平台的云硬盘后端采用分布式架构存储，具备海量扩展能力，并且存储数据时基于多副本机制，支持数据的快速重建，有效避免了任意节点故障导致的数据丢失，大幅提升了存储系统的 SLA 水平，该云平台具备高性能、支持备份与恢复、弹性扩容、多后端支持的特性。未来，北方工业大学将逐步适应云平台资源使用方式，并持续验证平台的适用性和稳定性。北方工业大学在经历二期扩容后还将结合业务规模进行科研大数据云平台的后期升级。

展开

其正色邪

用数据创造的科研奇迹，见证大数据的起源

大数据和人工智能一直是相互纠缠难舍难分的。没有大数据的发展，就没有现在人工智能的火热，都说大数据大数据，那么这个概念的起源到底回归到什么时候呢？每个互联网概念火之前都会有一个元年，16年是vr元年，17年是短视频直播元年，18年是人工智能元年。那么大数据元年呢？这个大数据元年，要从世界范围来说，应该是2005年。这是一个跟自然语言识别的翻译领域，相关的事件。美国国家每年都会给予相应的科研经费在某个领域上面，自然语言处理在2005年的时候还是各个实验室的重点项目，过年每年都会投入大量的经费在上面。所以美国政府每年都有一个关于，该领域的翻译比赛。除了拿了科研经费的机构需要参加之外，其他公司也可以参加。谷歌，就是在2005年是第一次参加该比赛的。2月份参加测试，然后4月份测试结果出来之后确是让大家大跌眼睛。第一次参加测试比赛的谷歌夺得了第一，并和第二拉开了很大的差距。这就有一点匪夷所思了。就连，闻名遐迩的IBM沃森实验室也只排第三，而且数据跟谷歌相差甚远。按正常的科技进步带来的机器翻译分数的增长，每年大概也只有0.5%。那就是说谷歌比第二名第三名的科技领先20年左右，很明显是不可能的。原由事后才知道原来是因为谷歌，雇佣了世界上最著名的机器翻译领域专家奥科博士。而奥克博士也透露谷歌的成功并不在于技术的进步。甚至，他们这次用的方法还是两年前的方法，不过是将已存的数据扩大了很多倍。由于谷歌本身行业的特点，在此次的翻译测试中，谷歌团队使用了比其他研究机构多几千，甚至几万倍的数据。最终的结果大家也看到了。平常大家由于都是学校或者是研究机构。没有这个用超级多的数据的先例，所以各家所提供的数据，上下即便有差别，也顶多是几倍几十倍的差别，对于结果影响并不是很大。可能会由于其他的数据处理的方法的影响，甚至会产生相反的结果。但谷歌不同，这是由于量变产生了质变的影响。奥科当时使用的数据产生的模型是六元模型。也就是一个单词前后六个单词都有关联性。这已经基本上和现在翻译技术相看齐了，而参加测试的其他的研究机构构建三元模型，也就是前后只能考虑三个单词的关联性。这明显和六元模型不是一个量级。果然随着这个，秘籍的透露。在第二年，各个研究机构都比之前使用的数据多了上百倍的差距。最终的结果就是跟谷歌的差距拉小了很多。到现在，由于互联网的发展。网络上的数据呈现裂变式的增长，各个领域的数据开始出现交叉，形成无数个密集的点。各个点之间相互的关联性将网络数据织成一张密集的网，产生海量具有不知名关联性的数据，形成大数据。大数据起源虽然说从05年谷歌那次翻译事件开始。但是真正成为流行语被广泛传播开来，还是在09年之后，随后和云计算一起成为新兴的互联网代名词。本文由“科技快闪”原创编辑，素材整理来源于网络，图片素材来源于网络，创作不易，如有转载，请注明出处！如有侵权，请联系删除！谢谢支持与理解！

展开

礼乐不节

联合实验室：开启大数据科研创新模式

本文转自【中国网】；北京东直门医院作为北京中医药大学的第一临床医院，拥有丰富的中医临床资源，多年来积累了海量的中医药大数据，此次与海森健康联合成立实验室就是“希望利用大数据、人工智能技术，挖掘医院积累下来的海量中医药数据的价值，助力临床研究。”东直门医院常务副院长商洪才在实验室揭牌仪式上强调。2020年8月31日，海森健康联合教育部首个中医内科学重点实验室——北京中医药大学中医内科学教育部重点实验室（下称重点实验室）共同打造的“人工智能与中医药大数据联合实验室”（下称联合实验室），在北京中医药大学东直门医院（下称东直门医院）正式揭牌，成为将大数据与人工智能技术引进至中医药领域的一大里程碑。东直门医院常务副院长、重点实验室主任商洪才、重点实验室副主任刘伟敬、重点实验室教授林生，海森健康科研业务负责人甘伟、商务总监李堂，北京中医药大学生命科学学院教授韩东燃、四川大学华西医院中国循证医学中心主任孙鑫，以及东直门医院男科主任李海松、妇科主任史云、肾病科主任周静威、心内科主任张立晶、脑科主任杨保林、信息中心副主任刘涓等临床科室负责人出席了揭牌仪式。北京中医药大学中医内科学教育部重点实验室成立于2002年，是东直门医院的龙头实验室，其前身是由北京中医药大学东直门医院气血研究室，中医脑病研究室和部分基础实验室人员，于1999年联合建设成为“211工程”的学校级重点学科实验室，2002年被教育部批准为首个开展中医药基础和应用基础科学研究的重点实验室，同年被北京市教育委员会认定为重点实验室。刘伟敬介绍，近三年来，北京中医药大学中医内科学教育部重点实验室共承担课题97项，其中承担国家重大课题3项、国家自然科学基金课题23项、省部级课题9项；发表SCI论文114篇，单篇最高影响因子近24分；2020年，实验室脑病研究团队、心血管研究团队初评通过国家科技进步一等奖、二等奖各一项，是中医药领域名副其实的“科研大户”。海森健康是嘉和美康集团成员企业，专注于提供医疗大数据、人工智能及互联网医疗的智慧医疗创新服务，具备强大的大数据、人工智能技术能力，并承袭集团十多年的医疗信息化积累。海森健康大数据科研平台是以智能医学数据中台为核心，通过整合院内各业务系统数据，并结合前瞻性课题数据库，对相关数据进行治理、融合及质控、建模等，为科研工作提供优质、可靠的数据资源。在此基础上，利用平台的人群筛选、人群管理、特征分析、可视化展示、统计分析、数据导出和权限管理等功能，即可轻松实现一站式科研工作模式，极大提高科研效率及整体研究质量。中医药有着悠久的发展历史、丰富的实践经验和海量的文献，但其技术水平的增长，需要在临床试验中不断总结、摸索，经验极具个性化。此外，中医临床产生的大量诊疗数据，尤其是中西医诊疗的综合信息资源整体利用度不高，大量数据资源浪费，掣肘着中医药的发展。对于这一点，商洪才有着清晰的认识。揭牌仪式上，他强调，东直门医院作为北京中医药大学的第一临床医院，拥有丰富的中医临床资源，多年来积累了海量的中医药大数据，此次与海森健康联合成立实验室就是“希望利用大数据、人工智能技术，挖掘医院积累下来的海量中医药数据的价值，助力临床研究。”迫切的临床数据分析、处理需求背后，折射出的是医院在科研上不断暴露出的问题。以男科为例，该院男科主任李海松介绍，由于涉及到隐私，部分患者不愿意记录下自己详细的患病信息，一些数据在临床诊疗阶段就出现了缺失，到研究阶段的时候，“你要查某一类患者的详细信息，信息系统里经常查不到。”在李海松看来，科研数据在临床阶段就要有针对性地进行收集，需要临床和科研形成一体化，“建设一个医疗和科研一体化的平台”成了以李海松为代表的众多科主任的共同心声。利用大数据、人工智能技术能很好地解决这一痛点。甘伟介绍，依托大数据、人工智能技术打造的科研平台可以通过多层级自然语言处理体系，将复杂的病历文书及检查报告等文本数据转化成结构清晰的多维度科研数据项；并能根据数据清洗规则智能清洗数据，最大限度提高数据利用率。同时，在科研方式上，也能形成线上与线下的结合、联动，提升科研效率。线上，主要基于大数据科研平台，实现对院内外全量数据的采集、处理及挖掘分析等，帮助科研人员快速确立研究方向、获取相关数据，并“一站式”完成目标人群建立、统计模型选择及结论汇总分析等步骤，大大缩短了科研周期，并提高了成果质量；线下服务则主要包括：研究方案设计，专病库搭建，统计咨询指导，数据治理服务，以及数据挖掘、建模等。两者结合，实现海量真实诊疗数据在临床研究中的深度利用，以及研究成果对于临床决策的有效反哺，助力医院打造以专病库为核心的“临床-科研一体化”发展路径。事实上，作为我国古代医学的精粹，中医药一直备受国家的高度重视：2016年《“健康中国2030”规划纲要》就提出，要强化中医药防治优势病种研究，推进中医药继承创新；2019年国务院办公厅发布的《关于促进中医药传承创新发展的意见》也强调，要促进中医药传承与开放创新发展；《中医药发展“十三五”规划》也强调了要加强中医药研究，推进理论与技术创新。在2020年抗击新冠疫情中，中医药更是发挥了至关重要的作用。未来，联合实验室将整合东直门医院丰富的中医药临床大数据资源、北京中医药大学中医内科学教育部重点实验室雄厚的科研实力，以及海森健康强大的大数据与人工智能技术优势，围绕中医药大数据分析的诊断、治疗以及智能预测诊疗模型构建、真实世界研究等一系列课题展开深度合作，从而推动我国中医药的发展，让中医药惠及更多的民众，推动健康中国建设。

展开

不屈者

如何让大数据科研成果“走出”实验室，落地产业？

随着移动互联网、计算机技术的发展，人类进入信息时代，大数据也应运而生，并成为一种新型信息资产，同时，大数据技术的发展，也使得云计算、物联网、移动互联网等领域更加迅速地覆盖到了社会生活的方方面面，数据形态的呈现也围绕着B端行业需求和C端人们多样化的生活形态而发生改变。近日，中科天玑数据科技股份有限公司（以下简称“中科天玑”）网信行业总监吴琼在接受亿欧采访时表示，未来大数据科研成果需要“走出”实验室，大数据的发展也必须要跟产业相结合。吴琼认为，虽然目前大数据技术已相对成熟，但是在未来，大数据应该更多与行业结合，因为纯粹的技术是虚幻的，通用的Hadoop或者Spark等大数据技术并不能直接帮助行业进行变革，只有将技术与行业场景结合才能真正推动大数据落地。▋如何理解产业化和行业化是大数据的未来？吴琼介绍道，在大数据技术越来越成熟情况下，单纯去卖一个大数据技术、架构，很少有客户愿意为其买单，必须跟产业领域结合，依靠大数据原来这个产业原来解决不了的问题。她认为，未来国内大数据应用产业化的走向主要有五个方面：第一是大数据行业的政策体系会持续完善；第二是逐渐形成产业生态；第三是机器学习成为大数据行业的核心技术；第四是大数据、人工智能、云计算会进一步的结合；第五是通过企业大数据一体机等硬件，软硬结合发展。据了解，作为中科院计算所为加速大数据技术成果转化而孵化的一家大数据产品与解决方案服务商，中科天玑自2010年成立起便在走产业化道路，公司业务从最初的互联网信息挖掘、舆情监测业务扩展到了涉及不同行业的多元化布局，现在其公司产品主要以大数据智能计算引擎、人工智能算法为核心，围绕大数据平台、自然语言处理、机器学习、知识图谱、人工智能等方面进行不断拓展，如今在网信、情报、金融、教育等行业已有相关解决方案落地。▋挖掘数据价值与保护数据安全需要同时兼顾现在有关“数据是21世纪的石油”“数据是隐性资产”的说法层出不穷，数据本身是没有价值的，企业需要做的是利用数据挖掘等技术让积累数据产生价值，从企业角度来看，应该鼓励技术人员从产品和业务角度进行技术创新，挖掘数据价值。当然，在将数据和业务结合的同时还需兼顾数据安全，无论是2018年严峻的数据泄露形势，还是国内外各种政策法规的出台，都表明数据安全亟需引起重视，企业在挖掘大数据价值的同时，必须兼顾其安全性，并利用技术手段采取相应措施保障数据安全。说的永远比实践简单，大数据企业究竟该如何兼顾两者同时发展呢？吴琼认为需要从四方面入手，分别是数据来源、数据存储、数据分析、理解“价值”。其中，第一点数据来源是指提高已有的、传统通道的数据来源的质量，并且还要丰富数据来源，紧跟抖音、短视频、直播等新媒体形式，扩展大数据来源。其次，数据存储强调依靠企业自主研发的数据存储平台，利用平台的数据安全预防措施保障大数据安全。第三是数据分析，它要求突出如何实现深挖价值，研究团队在进行数据挖掘时，要主要将技术与实际应用场景结合，将科研成果落地。最后是理解“价值”，即明确什么叫价值，数据价值的实现需要跟具体的行业需求结合起来，在明白行业需求的前提上进行。▋坚持“产学研”道路，让科研成果“走出”实验室其实，大数据作为国家大力推动的新科技，许多高校都成立了专门的科研实验室，虽然成果很多，但是很多科研成果一走出实验室便夭折了，该如何让让众多的科研成果真正落到，而不是只停留在论文或者实验室里呢？作为国家队的一员，中科天玑选择走“产学研”道路，更为注重研究成果产业化和科研成果落地。据介绍，中科天玑一直在加强大数据人才培养，例如2017年6月推出大数据科研平台，覆盖了数据处理、机器学习、数据可视化等领域，可接入各种数据源，实现数据采集、存储、分析挖掘、价值展现的全流程管理，帮助科研工作者简化流程，提升工作效率。同时，中科天玑还成立了大数据实验室平台，内置丰富的大数据课程资源与项目案例包，现已成为高校大数据教学、实训与人才培养的重要利器。吴琼说：“对科研院所或者高校来说，实现产学研结合最重要，例如中科天玑的计算所就是一个大数据分析实验室，有专门的研究团队，实验室把一些科研课题模块化、组件化，再通过公司把组件化的科研成果与实际应用场景融合，实现产业化，整个流程是算法到组件再到场景落地。”

展开

鉴识

科研组演示“基于文本大数据的社会态势感知与分析系统”

人民网厦门1月5日电今日，首届人民网内容科技创新创业大赛总决赛在厦门市湖里区举办。在大赛项目路演环节中，科研组演示了“基于文本大数据的社会态势感知与分析系统”项目。据悉，该项目利用时空认知智能 (包括时空常识图谱、认知量化计算和普适学习技术)，按4W 1H方式，对反映社会/自然活动的文本大数据进行数字重构，构建全时空的人类社会画像库，实现社会态势感知与分析服务。据该项目相关负责人介绍，时空认知智能能够为信息的计算和服务模式带来的变革首先体现在信息的计算模式上，它可以实现内容的深度挖掘和人物轨迹的追踪。其次，在社会舆情方面，如果能把有关的文本和视频数据都进行整合，就可以对这个社会发展的热点有一个更为准确的把握。而时空认知智能除了应用到横向的社会态势感知以外，还可以应用到垂直的信息服务领域，比如房地产等。视频观看：http://v.people.cn/n1/2020/0105/c407832-31535016.html

展开

医学科研大数据平台

首页

考研

考博

院校选择

专业选择

研究生动态

研究生题库

科研大数据

大数据时代下的科研活动的发展方向

基于临床科研大数据平台研究

科研进入“大数据时代” 上海深化科技创新资源数据发展

整合科研大数据打造智能知识服务平台中科院文献情报中心“慧”系列产品发布

2019年保研季来临，科研院士大数据和美国科研数据惊人的相似！

支撑上千科研大数据项目 EasyStack私有云助力北方工业大学校企合作

用数据创造的科研奇迹，见证大数据的起源

联合实验室：开启大数据科研创新模式

如何让大数据科研成果“走出”实验室，落地产业？

科研组演示“基于文本大数据的社会态势感知与分析系统”

首页

考研

考博

院校选择

专业选择

研究生动态

研究生题库

科研大数据

大数据时代下的科研活动的发展方向

基于临床科研大数据平台研究

科研进入“大数据时代” 上海深化科技创新资源数据发展

整合科研大数据打造智能知识服务平台 中科院文献情报中心“慧”系列产品发布

2019年保研季来临，科研院士大数据和美国科研数据惊人的相似！

支撑上千科研大数据项目 EasyStack私有云助力北方工业大学校企合作

用数据创造的科研奇迹，见证大数据的起源

联合实验室：开启大数据科研创新模式

如何让大数据科研成果“走出”实验室，落地产业？

科研组演示“基于文本大数据的社会态势感知与分析系统”

整合科研大数据打造智能知识服务平台中科院文献情报中心“慧”系列产品发布