大数据技术研究综述【大数据技术研究综述问答】

大数据技术的国内外现状

请问游是

驺虞

大数据由于其异构性和异质性的特征，提高大数据格式转化的效率成为了增加大数据技术应用价值的必经途径，而提升大数据计算能力的关键在于提高数据的转移速率，这就要求技术人员要及时对大数据进行整合与处理。在大数据的处理中，数据的重组与错误数据的再利用都是有效提高大数据应用价值的措施。在应用实践研究方面，目前大数据在实际中的研究应用主要体现为数据管理、数据搜索分析和数据集成。其中，数据管理主要用于大型互联网数据库和新型数据储存模型与集成系统中，而数据搜索分析则多用于模型社交网络中，数据集成则通过将不同来源不同作用的数据进行整合从而开发出整体数据库新的功能，目前正处于研究发展的起始阶段。本回答被网友采纳

展开

国内外大数据发展现状和趋势(2018)

金芒果

诞信相讥

去百度文库，查看完整内容>内容来自用户:yangxiaofeng67行业现状当前，许多国家的政府和国际组织都认识到了大数据的重要作用，纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手，实施大数据战略，对大数据产业发展有着高度的热情。美国政府将大数据视为强化美国竞争力的关键因素之一，把大数据研究和生产计划提高到国家战略层面。在美国的先进制药行业，药物开发领域的最新前沿技术是机器学习，即算法利用数据和经验教会自己辨别哪种化合物同哪个靶点相结合，并且发现对人眼来说不可见的模式。根据前期计划，美国希望利用大数据技术实现在多个领域的突破，包括科研教学、环境保护、工程技术、国土安全、生物医药等。其中具体的研发计划涉及了美国国家科学基金会、国家卫生研究院、国防部、能源部、国防部高级研究局、地质勘探局等6个联邦部门和机构。目前，欧盟在大数据方面的活动主要涉及四方面内容：研究数据价值链战略因素；资助“大数据”和“开放数据”领域的研究和创新活动；实施开放数据政策；促进公共资助科研实验成果和数据的使用及再利用。英国在2017年议会期满前，开放有关交通运输、天气和健康方面的核心公共数据库，并在五年内投资1000万英镑建立世界上首个“开放数据研究所”；政府将与出版行业等共同尽早实现对得到公共资助产生的科研成果的免费访问，英国皇家学会也在考虑如何改进科研数据在研究团体及其他用户间的共享和披露；英国研究理事会将投资200万英镑建立一个公众可通过网络检

展开

大数据现状及发展方向

可谓畏矣

君在

　　前瞻产业研究院《2014-2018年中国大数据产业发展前景与投资战略规划分析报告》显示，大数据产业主要涉及数据生成、存储、处理分析、应用四个环节，具体来看，包含硬件设备、处理分析环节、综合处理、语音识别、视频识别、商业智能软件、数据中心建设与维护、IT咨询、方案实施、信息安全等领域。　　在大数据风靡全球的同时，我国政府也加快了对大数据相关技术的攻关，工信部发布的《物联网十二五规划》里，把信息处理技术作为4项关键技术创新工程之一被提出来，其中包括了海量数据存储、数据挖掘、图像视频智能分析等大数据技术的重要组成部分。　　随着技术的日益成熟，市场逐步向前推进，受高科技的快速发展、互联网速度的进一步提高，我国大数据产业链雏形显现，给产业链企业带来巨大的投资机会。

展开

大数据发展现状怎样?

陈亮

初始化

2015年左右，大数据相关政策规划密集出台，同期为大数据企业新增数量顶峰时期。近年来，我国大数据产业迎来新的发展机遇期，产业规模日趋成熟。大数据产业主体从“硬”设施向“软”服务转变的态势将更加明显，面向金融、政务、电信、医疗等领域的大数据服务将实现倍增创新。大数据企业数量持续增长，增速与政策出台密切相关根据IT桔子统计，大数据企业的快速增长阶段出现在2013-2015年，增长速度在2015年达到最高峰。2015年后，市场日趋成熟，企业新增开始趋于放缓，大数据产业逐渐走向成熟。大数据新增企业数量的变化与新政策的出台密不可分。2015年8月国务院颁布《促进大数据发展行动纲要》，大数据由此正式上升为国家发展战略。2016年工信部印发了《大数据产业发展规划(2016-2020年)》，推动大数据产业进一步发展。另一方面，新一代信息技术、智慧城市、数字中国等发展战略逐步推动社会经济数字化转型，大数据的产业支撑得到强化，应用范围加速拓展，产业规模实现相应快速增长。大数据企业地域分布以北上广为主根据中国信息通信研究院监测统计，当前我国活跃的大数据企业超过3000家。我国大数据企业主要分布在北京、广东、上海、浙江等经济发达省份。受政策环境，人才创新，资金资源等因素影响，北京大数据产业实力雄厚，大数据企业数量约占全国总数的35%。依托京津冀大数据综合试验区，天津、石家庄、廊坊、张家口、秦皇岛等地大数据产业蓬勃发展，依靠良好的政策基础、科研实力、地理位置和交通优势，分别形成了大数据平台服务和应用开发、数字智能制造、旅游大数据等创新企业集聚中心，在信息产业领域形成了竞争优势。行业应用领域丰富，企业服务、医疗健康、金融等细分领域前景可期根据中国信通院对1404家涉及行业大数据应用的企业进行的统计整理，从中可以看出，金融、医疗健康、政务是大数据行业应用的最主要类型。除此之外依次是互联网、教育、交通运输、电子商务、供应链与物流、农业、工业与制造业、体育文化、环境气象、能源行业。从融资细分领域分布来看，大数据行业融资企业分布在近20个领域，大数据行业迎来历史新机遇，在企业服务、医疗健康、金融等垂直细分领域的大数据应用展现出巨大潜力。大数据产业增量蓝海市场正在逐步打开，截止到2019年，企业服务领域的企业获投占比最高为62%，金融行业次之为13%，健康医疗为8%。随着互联网与移动互联网的进一步普及渗透，以及IT基础设施的逐步完善，企业服务市场仍将继续扩大。—— 以上数据及分析均来自于前瞻产业研究院《中国大数据产业发展前景与投资战略规划分析报告》。

展开

人工智能的研究现状和未来热点

不然

雌节

在大数据时代，人工智能相关技术得到了越来越多的关注，市场对于人工智能产品的呼声也越来越高，不少科技公司都陆续开始在人工智能领域实施战略布局，由于人工智能人才相对比较短缺，所以人才的争夺也比较激烈。另外，由于相关人才的数量比较少（研究生培养为主），而且培养周期比较长，所以人工智能人才在未来较长一段时间内依然会有一定的缺口。未来人工智能的就业和发展前景都是非常值得期待的，原因有以下几点：一是智能化是未来的重要趋势之一。1、随着互联网的发展，大数据、云计算和物联网等相关技术会陆续普及应用，在这个大背景下，智能化必然是发展趋势之一。2、人工智能相关技术将首先在互联网行业开始应用，然后陆续普及到其他行业。所以，从大的发展前景来看，人工智能相关领域的发展前景还是非常广阔的。二是产业互联网的发展必然会带动人工智能的发展。1、互联网当前正在从消费互联网向产业互联网发展，产业互联网将综合应用物联网、大数据和人工智能等相关技术来赋能广大传统行业。2、人工智能作为重要的技术之一，必然会在产业互联网发展的过程中释放出大量的就业岗位。三是人工智能技术将成为职场人的必备技能之一。1、随着智能体逐渐走进生产环境，未来职场人在工作过程中将会频繁的与大量的智能体进行交流和合作，这对于职场人提出了新的要求。2、未来需要掌握人工智能的相关技术。从这个角度来看，未来掌握人工智能技术将成为一个必然的趋势，相关技能的教育市场也会迎来巨大的发展机会。四是人工智能取代人力，对全球的经济产生影响1、说到人工智能，大多数人都是比较期待的，当然也有少数人会怀着担忧的心态看到它，因为人工智能的发展，让我们看到了人工智能的高效和服从。2、在未来，当人工智能的发展进入到一个全新的领域阶段，它是不是就能够取代现在一些行业所需要的人工劳动呢？如果是的话，那么将会有大面积的失业问题出现。3、人工智能的发展，能够在短时间内对其进行量产，这样就会有很多人下岗，对全球的经济和社会来说，影响都是巨大的。

展开

如何入门大数据

怼

为我

大数据数据科学并没有一个独立的学科体系，统计学，机器学习，数据挖掘，数据库，分布式计算，云计算，信息可视化等技术或方法来对付数据。但从狭义上来看，我认为数据科学就是解决三个问题：1. data pre-processing;(数据预处理）2. data interpretation；（数据解读）3.data modeling and analysis.（数据建模与分析）这也就是我们做数据工作的三个大步骤：1、原始数据要经过一连串收集、提取、清洗、整理等等的预处理过程，才能形成高质量的数据；2、我们想看看数据“长什么样”，有什么特点和规律；3、按照自己的需要，比如要对数据贴标签分类，或者预测，或者想要从大量复杂的数据中提取有价值的且不易发现的信息，都要对数据建模，得到output。这三个步骤未必严谨，每个大步骤下面可能依问题的不同也会有不同的小步骤，但按我这几年的经验来看，按照这个大思路走，数据一般不会做跑偏。这样看来，数据科学其实就是门复合型的技术，既然是技术就从编程语言谈起吧，为了简练，只说说R和Python。但既然是荐数据科学方面的书，我这里就不提R/Python编程基础之类的书了，直接上跟数据科学相关的。R programming如果只是想初步了解一下R语言已经R在数据分析方面的应用，那不妨就看看这两本：R in action：我的R语言大数据101。其实对于一个没有任何编程基础的人来说，一开始就学这本书，学习曲线可能会比较陡峭。但如果配合上一些辅助材料，如官方发布的R basics（http://cran.r-project.org/doc/contrib/usingR.pdf），stackoverflow上有tag-R的问题集（Newest ‘r’ Questions），遇到复杂的问题可在上面搜索，总会找到解决方案的。这样一来，用这本书拿来入门学习也问题不大。而且这本书作者写得也比较轻松，紧贴实战。Data analysis and graphics using R：使用R语言做数据分析的入门书。这本书的特点也是紧贴实战，没有过多地讲解统计学理论，所以喜欢通过情境应用来学习的人应该会喜欢这本入门书。而且这本书可读性比较强，也就是说哪怕你手头没电脑写不了代码，有事没事拿出这本书翻一翻，也能读得进去。但如果你先用R来从事实实在在的数据工作，那么上面两本恐怕不够，还需要这些：Modern applied statistics with S：这本书里统计学的理论就讲得比较多了，好处就是你可以用一本书既复习了统计学，又学了R语言。（S/Splus和R的关系就类似于Unix和Linux，所以用S教程学习R，一点问题都没有）Data manipulation with R：这本书实务性很强，它教给你怎么从不同格式的原始数据文件里读取、清洗、转换、整合成高质量的数据。当然和任何一本注重实战的书一样，本书也有丰富的真实数据或模拟数据供你练习。对于真正从事数据处理工作的人来说，这本书的内容非常重要，因为对于任何研究，一项熟练的数据预处理技能可以帮你节省大量的时间和精力。否则，你的研究总是要等待你的数据。R Graphics Cookbook：想用R做可视化，就用这本书吧。150多个recipes，足以帮你应付绝大多数类型的数据。以我现在极业余的可视化操作水平来看，R是最容易做出最漂亮的图表的工具了。An introction to statistical learning with application in R：这本书算是著名的the element of statistical learning的姊妹篇，后者更注重统计（机器）学习的模型和算法，而前者所涉及的模型和算法原没有后者全面或深入，但却是用R来学习和应用机器学习的很好的入口。A handbook of statistical analysis using R：这本书内容同样非常扎实，很多统计学的学生就是用这本书来学习用R来进行统计建模的。PythonThink Python，Think Stats，Think Bayes：这是Allen B. Downey写的著名的Think X series三大卷。其实是三本精致的小册子，如果想快速地掌握Python在统计方面的操作，好好阅读这三本书，认真做习题，答案链接在书里有。这三本书学通了，就可以上手用Python进行基本的统计建模了。Python For Data Analysis：作者是pandas的主要开发者，也正是Pandas使Python能够像R一样拥有dataframe的功能，能够处理结构比较复杂的数据。这本书其实analysis讲得不多，说成数据处理应该更合适。掌握了这本书，处理各种糟心的数据就问题不大了。Introction to Python for Econometrics, Statistics and Data Analysis：这本书第一章就告诉你要安装Numpy, Scipy, Matplotlib, Pandas, IPython等等。然后接下来的十好几章就是逐一介绍这几个库该怎么用。很全面，但读起来比较枯燥，可以用来当工具书。Practical Data Analysis：这本书挺奇葩，貌似很畅销，但作者把内容安排得东一榔头西一棒子，什么都讲一点，但一个都没讲透。这本书可以作为我们学习数据分析的一个索引，看到哪块内容有意思，就顺着它这个藤去摸的瓜。Python Data Visualization Cookbook：用Python做可视化的教材肯定不少，我看过的也就这一本，觉得还不错。其实这类书差别都不会很大，咬住一本啃下来就是王道。Exploratory Data Analysis 和 Data VisualizationExploratory Data Analysis：John Tukey写于1977年的经典老教材，是这一领域的开山之作。如今EDA已经是统计学里的重要一支，但当时还是有很多人对他的工作不屑一顾。可他爱数据，坚信数据可以以一种出人意料的方式呈现出来。正是他的努力，让数据可视化成为一门无比迷人的技术。但这本书不推荐阅读了，内容略过时。要想完整地了解EDA，推荐下一本：Exploratory Data Analysis with MATLAB：这本书虽然标题带了个MATLAB，但实际上内容几乎没怎么讲MATLAB，只是每讲一个方法的时候就列出对应的MATALB函数。这本书的重要之处在于，这是我读过的讲EDA最系统的一本书，除了对visualization有不输于John Tucky的讲解外，对于高维的数据集，通过怎样的方法才能让我们从中找到潜在的pattern，这本书也做了详尽的讲解。全书所以案例都有对应的MATALB代码，而且还提供了GUI（图形用户界面）。所以这本书学起来还是相当轻松愉悦的。Visualize This：中译本叫“鲜活的数据”，作者是个“超级数据迷”，建立了一个叫http://flowingdata.com的网页展示他的数据可视化作品，这本书告诉你该选择什么样的可视化工具，然后告诉你怎样visualize关系型数据、时间序列、空间数据等，最后你就可以用数据讲故事了。如果你只想感受一下数据可视化是个什么，可以直接点开下面这个链接感受下吧！A tour through the visualization zoo（A Tour Through the Visualization Zoo）Machine Learning & Data Mining这一块就不多说了，不是因为它不重要，而是因为它太太太重要。所以这一部分就推两本书，都是”世界名著“，都比较难读，需要一点点地啃。这两本书拿下，基本就算是登堂入室了。其实作为机器学习的延伸和深化，概率图模型（PGM）和深度学习（deep learning）同样值得研究，特别是后者现在简直火得不得了。但PGM偏难，啃K.Daphne那本大作实在太烧脑，也没必要，而且在数据领域的应用也不算很广。deep learning目前工业界的步子迈得比学术界的大，各个domain的应用如火如荼，但要有公认的好教材问世则还需时日，所以PGM和deep learning这两块就不荐书了。The Element of Statistical Learning：要学机器学习，如果让我只推荐一本书，我就推荐这本巨著。Hastie、Tibshirani、Friedman这三位大牛写书写得太用心了，大厦建得够高够大，结构也非常严谨，而且很有前瞻性，纳入了很多前沿的内容，而不仅仅是一部综述性的教材。（图表也做得非常漂亮，应该是用R语言的ggplot2做的。）这本书注重讲解模型和算法本身，所以需要具备比较扎实的数理基础，啃起这本书来才不会太吃力。事实上掌握模型和算法的原理非常重要。机器学习（统计学习）的库现在已经非常丰富，即使你没有完全搞懂某个模型或算法的原理和过程，只要会用那几个库，机器学习也能做得下去。但你会发现你把数据代进去，效果永远都不好。但是，当你透彻地理解了模型和算法本身，你再调用那几个库的时候，心情是完全不一样的，效果也不一样。Data Mining: Concepts and Techniques, by Jiawei Han and Micheline Kamber 数据挖掘的教材汗牛充栋，之所以推荐这本韩家炜爷爷的，是因为虽然他这本书的出发点是应用，但原理上的内容也一点没有落下，内容非常完整。而且紧跟时代，更新的很快，我看过的是第二版，就已经加进去了social network analysis这种当时的前沿内容。现在已经有第三版了，我还没看过，但应该也加入了不少新内容。其实这本书并不难读，只是篇幅较长，啃起来比较耗时。其实这两本书里单拎出来一块内容可能又是几本书的节奏，比如bayesian方法，再拿出两三本书来讲也不为过，我个人用到的比较多，而且也确实有不少好书。但并非是所有data scientist都要用到，所以这一块就不再细说。还有一些印象比较深刻的书：Big Data Glossary：主要讲解大数据处理技术及工具，内容涵盖了NoSQL，MapRece，Storage，Servers，NLP库与工具包，机器学习工具包，数据可视化工具包，数据清洗，序列化指南等等。总之，是一本辞典式的大数据入门指导。Mining of Massive Datasets：这本书是斯坦福大学Web Mining的讲义，里面很多内容与韩家炜的Data Mining那本书重合，但这本书里详细地讲了MapRece的设计原理，PageRank（Google创业时期的核心排序算法，现在也在不断优化更新）讲解得也比较详细。Developing Analytic Talent：作者是个从事了十几年数据工作的geek，技术博客写得很有个人风格，写的内容都比较偏门，通常只有具备相关数据处理经验的人能体会出来，丝毫不照顾初学者的感受。比如他会谈到当数据流更新太快时该怎么办，或者MapRece在什么时候不好用的问题，才不管你懂不懂相关基础原理。所以这本书不太适合初学者阅读。这本书其实是作者的博客文章的集结，用how to become a data scientist的逻辑把他近几年的博客文章串联了起来。Past, Present and Future of Statistical Science：这本书是由COPSS（统计学社主席委员会，由国际各大统计学会的带头人组成）在50周年出版的一本纪念册，里面有50位统计学家每人分别贡献出的一两篇文章，有的回忆了自己当年如何走上统计学这条路，有的探讨了一些统计学的根本问题，有的谈了谈自己在从事的前沿研究，有的则给年轻一代写下了寄语。非常有爱的一本书。其它资料Harvard Data Science：这是H大的Data science在线课，我没有修过，但口碑很好。这门课需要费用8千刀左右，比起华盛顿大学的4千刀的Data science在线课虽贵一倍，但比斯坦福的14千刀要便宜将近一半（而且斯坦福的更偏计算机）。如果想自学，早有好心人分享了slides: （https://drive.google.com/folderview?id=0BxYkKyLxfsNVd0xicUVDS1dIS0k&usp=sharing）和homeworks and solutions: （https://github.com/cs109/content）PyData：PyData是来自各个domain的用Python做数据的人每年举行一次的聚会，期间会有各路牛人举行一些规模不大的seminar或workshop，有好心人已经把video上传到github，有兴趣的去认领吧（DataTau/datascience-anthology-pydata · GitHub）工具R/Python/MATLAB（必备）：如果是做数据分析和模型开发，以我的观察来看，使用这三种工具的最多。R生来就是一个统计学家开发的软件，所做的事也自然围绕统计学展开。MATLAB虽然算不上是个专业的数据分析工具，但因为很多人不是专业做数据的，做数据还是为了自己的domain expertise（特别是科学计算、信号处理等），而MATLAB又是个强大无比的Domain expertise工具，所以很多人也就顺带让MATLAB也承担了数据处理的工作，虽然它有时候显得效率不高。Python虽然不是做数据分析的专业软件，但作为一个面向对象的高级动态语言，其开源的生态使Python拥有无比丰富的库，Numpy, Scipy 实现了矩阵运算/科学计算，相当于实现了MATLAB的功能，Pandas又使Python能够像R一样处理dataframe，scikit-learn又实现了机器学习。SQL（必备）：虽然现在人们都说传统的关系型数据库如Oracle、MySQL越来越无法适应大数据的发展，但对于很多人来说，他们每天都有处理数据的需要，但可能一辈子都没机会接触TB级的数据。不管怎么说，不论是用关系型还是非关系型数据库，SQL语言是必须要掌握的技能，用什么数据库视具体情况而定。MongoDB（可选）：目前最受欢迎的非关系型数据库NoSQL之一，不少人认为MongoDB完全可以取代mySQL。确实MongoDB方便易用，扩展性强，Web2.0时代的必需品。Hadoop/Spark/Storm（可选）: MapRece是当前最著名也是运用最广泛的分布式计算框架，由Google建立。Hadoop/Spark/storm都是基于MapRece的框架建立起来的分布式计算系统，要说他们之间的区别就是，Hadoop用硬盘存储数据，Spark用内存存储数据，Storm只接受实时数据流而不存储数据。一言以蔽之，如果数据是离线的，如果数据比较复杂且对处理速度要求一般，就Hadoop，如果要速度，就Spark，如果数据是在线的实时的流数据，就Storm。OpenRefine（可选）：Google开发的一个易于操作的数据清洗工具，可以实现一些基本的清洗功能。Tableau（可选）：一个可交互的数据可视化工具，操作简单，开箱即用。而且图表都设计得非常漂亮。专业版1999美刀，终身使用。媒体和公关方面用得比较多。Gephi（可选）：跟Tableau类似，都是那种可交互的可视化工具，不需要编程基础，生成的图表在美学和设计上也是花了心血的。更擅长复杂网络的可视化。

展开

医疗大数据的分析和挖掘发展现状如何？未来会有什么样的应用前景

彼以利合

放达

　　如今是大数据时代，前景自然好了，据前瞻产业研究院《2016-2021年中国行业大数据市场发展前景预测与投资战略规划分析报告》显示，总的来说，医疗大数据应用主要体现在临床操作、研发、新的商业模式、付款/定价、公众健康五大领域，在这些场景中，大数据的分析和应用都将发挥巨大的作用。　　医疗大数据的应用对于临床医学研究、科学管理和医疗服务模式转型发展都具有重要意义，而大数据技术的运用前景是十分光明的。　　医院和医疗行业面临的大数据主要有医学影像、视频(教学、监控)及文献等非结构化数据。由于这些数据增长很快且结构复杂，给数据管理和利用带来较大的压力，存储与管理成本不断提高，数据利用困难、利用率低。除了数据数量和形态的迅速增加，医疗数据还需要越来越长的保留期。一旦存储系统的安全性出现问题，导致医疗数据丢失，医院会面临严重不良局面。医疗大数据的应用要保证数据的全面性、准确性、实时性和使用的便捷性，要能快速运算和快速展现，要与日常工作平台紧密结合。　　国人已经把健康大数据上升为国家战略，而面对“大数据”的挑战，医院必须考虑三大主要问题。　　(1) 数据存储是否安全可靠?因为系统一旦出现故障，首先考验的就是数据的存储、灾备和恢复能力。如果数据不能迅速恢复，而且恢复不能到断点，则将对医院的业务、患者满意度构成直接损害。　　(2) 如何提高医院运行和服务的效率?提高效率就是节省医生的时间，从而缓解医疗资源的紧张状况，在一定程度上可以帮助解决“看病难”的问题。　　(3) 如何控制大数据的成本?存储架构是否合理，不仅影响医院IT系统的成本，而且关乎医院的运营成本，医疗数据激增，使医院普遍存在着较大的存储扩容压力。如今，医院的存储设备大多是由不同厂商构成的完全异构的存储系统。这些不同的存储设备利用各自不同的软件工具来进行控制和管理，这样就增加了整个系统的复杂性，使管理成本非常高。　　未来，大数据必将影响医疗行业，未来医疗行业的大数据将会具体应用在：临床辅助决策，医疗质量监管，疾病预测模型，临床实验分析。其发展空间有：个人健康门户，慢病管理和健康管理，电子病历和临床质量监控，医学知识管理，临床路径和循证医学，远程医疗和移动医疗，医学研究数据仓库和共享平台，跨医疗机构协作平台。

展开

阿里云的发展综述

猪

坛坛罐罐

个人建议不要用阿里云啊。。。我们公司之前用的就是阿里云，服务器老是被攻击，现在换了腾讯云，好多了。

展开

神经网络研究现状

野心勃勃

桃花

光谱分析因其能够灵敏、高精度、无破坏、快速地检测物质的化学成分和相对含量而广泛应用于分析化学、生物化学与分子生物学、农业、医学等领域。目前，光谱分析技术日趋成熟，引入光谱分析理论的高光谱遥感技术应用日益广泛，尤其是在农业领域，可以有效地获取农田信息、判断作物长势、估测作物产量、提取病害信息。光谱分析技术虽然具有很强的物质波谱“透视力”，但在分析 “同谱异物” 和 “异物同谱”等方面需要与现代分析手段相结合，如小波变换、卡尔曼滤波、人工神经网络（Artificial Neural Net－work，ANN）、遗传算法（Genetic Algorithm，GA）等。在光谱分析领域，ANN多用于物质生化组分的定量分析（陈振宁等，2001；印春生等，2000），在光度分析中也有较多应用，如，于洪梅等（2002）利用ANN分析铬和锆的混合吸收光谱，并结合分光度法对二者进行测定。ANN在非线性校准与光谱数据处理等方面也有应用（Blank，1993；方利民等；2008）。而在模式识别中ANN应用最为广泛，如，Eiceman et al.（2006）利用遗传算法（是ANN的一种）对混合小波系数进行分类识别。目前，自组织特征映射（Self－organizing Feature Maps，SOFM）神经网络在高光谱影像的模式识别方面，国内外还较少有研究与应用，而结合遥感波谱维光谱分析技术的应用研究就更少。SOFM常用于遥感图像处理方面，如，Moshou et al.（2005）利用SOFM神经网络进行数据融合，使分类误差减小到1％；Doucette et al.（2001）根据SOFM设计的SORM算法，从分类后的高分辨率影像中提取道路；Toivanen et al.（2003）利用SOFM神经网络从多光谱影像中提取边缘，并指出该方法可应用于大数据量影像边缘的提取；Moshou et al.（2006）根据5137个叶片的光谱数据，利用SOFM神经网络识别小麦早期黄锈病，准确率高达99％。然而，SOFM不需要输入模式期望值（在某些分类问题中，样本的先验类别是很难获取的），其区别于BP（Back Propagation）等其他神经网络模型最重要的特点是能够自动寻找样本的内在规律和本质属性，这大大地拓宽了SOFM在模式识别和分类方面的应用。基于以上几点，本章从光谱分析的角度对高光谱遥感影像进行分析识别和信息提取，给出了在不同光谱模型下，高光谱数据的不同分解，之后利用SOFM对具有较高光谱重叠度的这些分解进行分类识别，结合光谱分析对采样点进行类别辨识，并通过对小麦条锈病的病情严重度信息提取，提出了高光谱影像波谱维光谱分析的新途径。官方服务官方网站

展开

首页

考研

考博

院校选择

专业选择

研究生动态

研究生题库

大数据技术研究综述