欢迎来到加倍考研网! 北京 上海 广州 深圳 天津
微信二维码
在线客服 40004-98986
推荐适合你的在职研究生专业及院校

大数据是什么,为什么要研究大数据

伯夷叔齐
美神
大数据最近才兴起的一个行业,是一种基于信息统计数据分析的一种方式,在这现代的信息化的时代,大数据是供不应求的,有经验之士更是少之又少,发展前景十分好。

转:大数据到底要研究什么?

不得复使
马语者
外行人一看就知道是要让所有东西都联上因特网。后来,又是云计算,说是要把计算放到云里去。云在哪里呢?反正在远处,也还可以理解。最近,在计算机软件领域,到处都在喊大数据。这有点不好理解。数据(data)是个不可数名词,怎么来大小了?我自己也一样,最近大致学习了一下,看大数据究竟要研究什么?提出来抛砖引玉吧!何谓“大”数据?70年代若干兆字节(MB)就算大量数据了,以后是千兆字节(GB)、兆兆字节(TB),而现在已经到了PB级(1PB=1024TB),而高端数据仓库已达EB级(1EB=1024PB)。反正是千倍千倍的往上翻。想想,光是全世界各地装的摄像头有多少,每时每刻都在产生数据。唱歌、通话、录音产生多少数据。多少亿人上网、发微博,多少数据!有了因特网,这些数据就都在网上流通,而不是死在那里。票子不流通就没有价值,数据也一样。数据不利用也毫无价值。所以,的确每天都产生大量的数据,需要处理。所以有大数据,而且需要处理。这一点,没有疑义。 在计算机领域,早就有数据库分支,后来发展到数据仓库,也有人叫海量数据处理。现在又提出所谓“大数据”。有了因特网以后,数据的一个重要特征是互动性和动态性,就是说任何用户既可以下载,也可以上传,也可以实时对话。例如在线商务,政府的群众情绪分析,卫生部门的流行病疫情分析,社会科学家研究社会网络如何扩散社会呼声及如何有效处理。但是,这些都属于大数据技术的应用,虽然每一个都需要一个应用程序,但不属于大数据技术本身。可这些都要求支持大量数据的计算、搜索和存储。因此,大数据分析和管理成为当今计算领域最关键性的挑战。 有人认为,大数据主要是数理统计,对大量同类型数据进行统计分析。这属于数理统计学科,不属于计算学科。也有人认为,大数据主要是数据挖掘、机器学习。这倒有点靠谱。但是,数据挖掘、机器学习是另外两个学科领域。不能把数据挖掘、机器学习包括在大数据的研究范围之内。大数据是数据库发展而来的。数据库要做的是数据的组织、存储和管理。关系数据库比较容易创建和存取,而且容易扩充。在数据库创建之后,一个新的数据种类能被添加而不需要修改所有的现有应用软件。并行数据库的SQL语言应运而生。但是,大数据来了以后,没有一个设备能存储这么大量的数据,它必须存储在许多的存储设备中。一个硬盘即使能存1TB,对于EB的数据也无济于事。而且,读写都很费时。串行地组织、管理、搜索这么大量的数据,用多么快的计算机都无能为力。因为超级计算机可以计算得很快,但与存储设备的输入输出快不了。所以,串行根本是不可取的,必须并行化。当前的大数据基本都运行于网络化的计算机群(Cluster of computers)上,每一个都有自己的处理器、存储器和硬盘。数据分布在多个计算机机群上,通常采用哈希分块,或者按范围、随机分块,或者队列,其处理一般用并行基于哈希的分而治之的算法。这里,“分布”和“并行”成了两个关键词。不可想象,能有一个计算机来管理整个计算机机群。更新、搜索数据都必须是分布式的,而且不能串行,一个一个地来做。Google开发了一个谷歌文件系统(GFS),可以在成百上千的机群里进行基于字符串的文件搜索。用户可以并行地加入数据,也可以实时地把数据加入到某一类中(MapRece)。Yahoo和其他Web公司,譬如Facebook,搞了一个谷歌大数据栈的开源软件,从而产生了现在很时髦的Hadoop平台及HDFS存储层。为了要实现在线事务处理(OLTP),容错不可少。由于上亿用户的同时使用,OLTP系统必须很快查找、更新用户资料,任务很多,要快、不能错、防攻击,而且还不能太贵。Google和Amazon都开发了他们自己的系统。今天,Hadoop和HDFS已经成为大数据分析占有统治地位的平台了。数据分析不能停留在MapRece水平,而是要更高层次的说明性语言,更容易表达、书写、找错。这样的语言大家都在搞。这样,问题就来了:我们是跟着这些大公司,跟踪和改进Hadoop,还是另辟蹊径。我们搞跟踪搞了几十年了,基本都用人家的,然后搞汉化。人家搞汉化甚至比我们还快。我们搞出来的东西常常没人家好用,市场就先入为主,被人家占领了。另外搞一个类似的东西,既抢不到市场,学术价值也不大。这时候,科学研究就见功力了。抓不住基础性问题,没有全新的想法,就很难出原始创新的成果。 归根结底,基础性问题是大数据的分布存储,并行处理。就像一个人有一个任务,需要许多人参与才能完成,而且他们互不相识,任何个人都完不成。应该怎么做?大家想想,也许能把这个问题说得更加确切一些。

在大数据或数据挖掘方面可以研究的课题有哪些

爱如初
乖孩子
数据获取等方向都有涉及、数据维护、数据挖掘偏业务的可以称之为运营分析师,偏管理的可以称之为数据决策分析师,偏金融的可以称之为注册项目数据分析师,因行业和发展方向的不同,工作方向为维护数据可以称之为数据库管理员,数据库工程师,工作方向为挖掘方向的称之为数据挖掘师等等,数据分析师在 业务

大数据的国内外研究现状及发展动态分析

白桦树
一雨
去百度文库,查看完整内容>内容来自用户:菊香秋大数据的国内外研究现状及发展动态分析大数据的概念产生的背景与意义上世纪60年代到80年代早期,企业在大型机上部署财务、银行等关键应用系统,存储介质包括磁盘、磁带、光盘等。尽管当时人们称其为大数据,但以今日的数据量来看,这些数据无疑是非常有限的。随着PC的出现和应用增多,企业内部出现了很多以公文档为主要形式的数据,包括Word、Excel文档,以及后来出现的图片、图像、影像和音频等。此时企业内部生产数据的已不仅是企业的财务人员,还包括大量的办公人员,这极大地促进了数据量的增长。互联网的兴起则促成了数据量的第三次大规模增长,在互联网的时代,几乎全民都在制造数据。而与此同时,数据的形式也极其丰富,既有社交网络、多媒体等应用所主动产生的数据,也有搜索引擎、网页浏览等被动行为过程中被记录、搜集的数据。时至今日,随着移动互联网、物联网、云计算应用的进一步丰富,数据已呈指数级的增长,企业所处理的数据已经达到PB级,而全球每年所产生的数据量更是到了惊人的ZB级。在数据的这种爆炸式增长的背景下,“大数据”的概念逐渐在科技界、学术界、产业界引起热议。在大数据时代,我们分析的数据因为“大”,摆脱了传统对随机采样的依赖,而是面对全体数据;因为所有信息都是“数”,可以不再纠结具体数据的精确度,而是坦然面对信息的混杂;信息之“大”之“杂”,让我们分析的“据”也由传统的因果关系变为相关关系。国内外研究进展国外除在大数据的

大数据的发展方向是什么?

玫瑰海
一、ETL研发二、Hadoop开发三、可视化工具开发四、信息架构开发五、数据仓库研究六、OLAP开发七、数据科学研究八、数据预测分析九、企业数据管理十、数据安全研究十一、数据分析师十二、数据挖掘工程师大数据分析12大就业方向

国内外大数据发展现状和趋势(2018)

夷吾
不坐
去百度文库,查看完整内容>内容来自用户:yangxiaofeng67行业现状当前,许多国家的政府和国际组织都认识到了大数据的重要作用,纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手,实施大数据战略,对大数据产业发展有着高度的热情。美国政府将大数据视为强化美国竞争力的关键因素之一,把大数据研究和生产计划提高到国家战略层面。在美国的先进制药行业,药物开发领域的最新前沿技术是机器学习,即算法利用数据和经验教会自己辨别哪种化合物同哪个靶点相结合,并且发现对人眼来说不可见的模式。根据前期计划,美国希望利用大数据技术实现在多个领域的突破,包括科研教学、环境保护、工程技术、国土安全、生物医药等。其中具体的研发计划涉及了美国国家科学基金会、国家卫生研究院、国防部、能源部、国防部高级研究局、地质勘探局等6个联邦部门和机构。目前,欧盟在大数据方面的活动主要涉及四方面内容:研究数据价值链战略因素;资助“大数据”和“开放数据”领域的研究和创新活动;实施开放数据政策;促进公共资助科研实验成果和数据的使用及再利用。英国在2017年议会期满前,开放有关交通运输、天气和健康方面的核心公共数据库,并在五年内投资1000万英镑建立世界上首个“开放数据研究所”;政府将与出版行业等共同尽早实现对得到公共资助产生的科研成果的免费访问,英国皇家学会也在考虑如何改进科研数据在研究团体及其他用户间的共享和披露;英国研究理事会将投资200万英镑建立一个公众可通过网络检

大数据历史是研究什么

其无私福
放荡者
答:大数据历史应该是研究古代过去真正的事实。

国内比较好的大数据 公司有哪些

维清
长少无序
“大数据”近几年来可谓蓬勃发展,它不仅是企业趋势,也是一个改变了人类生活的技术创新。大数据对行业用户的重要性也日益突出。掌握数据资产,进行智能化决策,已成为企业脱颖而出的关键。因此,越来越多的企业开始重视大数据战略布局,并重新定义自己的核心竞争力。国内做大数据的公司依旧分为两类:一类是现在已经有获取大数据能力的公司,如百度、腾讯、阿里巴巴等互联网巨头以及华为、浪潮、中兴等国内领军企业,做大数据致店一叭柒叁耳领一泗贰五零,涵盖了数据采集,数据存储,数据分析,数据可视化以及数据安全等领域;另一类则是初创的大数据公司,他们依赖于大数据工具,针对市场需求,为市场带来创新方案并推动技术发展。其中大部分的大数据应用还是需要第三方公司提供服务。越来越多的应用涉及到大数据,这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以,大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于此,对大数据进行分析的产品有哪些比较倍受青睐呢?而在这里面,最耀眼的明星当属Hadoop,Hadoop已被公认为是新一代的大数据处理平台,EMC、IBM、Informatica、Microsoft以及Oracle都纷纷投入了Hadoop的怀抱。对于大数据来说,最重要的还是对于数据的分析,从里面寻找有价值的数据帮助企业作出更好的商业决策。下面,我们就来看看以下十大企业级大数据分析利器吧。随着数据爆炸式的增长,我们正被各种数据包围着。正确利用大数据将给人们带来极大的便利,但与此同时也给传统的数据分析带来了技术的挑战,虽然我们已经进入大数据时代,但是“大数据”技术还仍处于起步阶段,进一步地开发以完善大数据分析技术仍旧是大数据领域的热点。在当前的互联网领域,大数据的应用已经十分广泛,尤其以企业为主,企业成为大数据应用的主体。大数据真能改变企业的运作方式吗?答案毋庸置疑是肯定的。随着企业开始利用大数据,我们每天都会看到大数据新的奇妙的应用,帮助人们真正从中获益。大数据的应用已广泛深入我们生活的方方面面,涵盖医疗、交通、金融、教育、体育、零售等各行各业。可视化分析大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。2. 数据挖掘算法大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计 学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如 果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。3. 预测性分析大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。4. 语义引擎非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统的去分析,提炼数据。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。5.数据质量和数据管理。 大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。大数据的技术数据采集: ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。数据存取: 关系数据库、NOSQL、SQL等。基础架构: 云存储、分布式文件存储等。数据处理: 自然语言处理(NLP,Natural Language Processing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机”理解”自然语言,所以自然语言处理又叫做自然语言理解也称为计算语言学。一方面它是语言信息处理的一个分支,另一方面它是人工智能的核心课题之一。统计分析:  假设检验、显著性检验、差异分析、相关分析、T检验、 方差分析 、 卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、 因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。数据挖掘: 分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)模型预测 :预测模型、机器学习、建模仿真。结果呈现: 云计算、标签云、关系图等。大数据的处理1. 大数据处理之一:采集大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的 数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除 此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户 来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间 进行负载均衡和分片的确是需要深入的思考和设计。2. 大数据处理之二:导入/预处理虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这 些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使 用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。3. 大数据处理之三:统计/分析统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通 的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于 MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。4. 大数据处理之四:挖掘与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数 据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于 统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并 且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。

怎么研究大数据时代的数据安全问题

和不欲出
大数据时代,需要对数据的静态条件下(即:存储)和动态条件下(即:传输)进行安全保障。不过核心还是数据本身的安全。因此数据安全会成为DT时代下的主要研究对象。——效率源数据安全中心