海量数据存储关键技术浅析【最新4篇】

网友 分享 时间:

【导言】此例“海量数据存储关键技术浅析【最新4篇】”的范文资料由阿拉题库网友为您分享整理,以供您学习参考之用,希望这篇资料对您有所帮助,喜欢就复制下载支持吧!

海量数据的爆发与挖掘【第一篇】

大数据。被人们用来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。而大数据时代则是指这一数据爆发时代的来临。科技的发展使数据正在以惊人的速度迅速膨胀,越来越多的企业通过数据来解决各种问题,数据的发展逐渐决定着企业的未来。越来越多的企业意识到数据的重要性。大数据时代带来的将是一场革命。庞大的数据资源使得各个领域开始了量化进程。无论学术界、商界还是政府,所有领域都将开始这种进程。在庞大的数据作为依据的条件下,经过统计与分析。人类的行为将变得像自然规律一般可以预测,这也正是当下各大社交媒体越来越重视数据的重要原因。

随着社交网络的崛起,很多网友对在线分享信息的热情越来越高,吃喝玩乐、心情、生活体验。无不成为了分享的对象。网友上传的照片和评论信息,对商家有很重要的价值。

大数据的四个“V”

人类自从诞生以来就在源源不断地创造着各式各样的数据。尽管数据挖掘的工作人类已经做了几十年,但是“大数据”与我们通常所说的“数据”还是有显著的不同。关于大数据的特点,行业内通常用四个V来概括:

第一个V——Volume。数据量巨大。从电脑硬盘的单位我们就可以看出现在数据的发展速度。前些年电脑配80G的硬盘就已经很大。现在电脑动辄250G、500G的硬盘。甚至IT、2T硬盘的使用者也大有人在。再看现在数据容量的单位——GB、TB、PB、EB、ZB、YB,每个单位间以024的倍数递增。据统计,人类生产的所有印刷材料的数据量是20GPB,而历史上全人类说过的所有的话的数据量大约是5EB。可以想象以ZB、YB统计的数据量将会是多么庞大。

第二个V——Variety。数据类型多样。数据类型通常分为两类:—是结构化数据。二是非结构化数据。最常见的结构化数据是以文本为主的数据。但随着社交类网络的兴起,越来越多的数据不再只是单一的以文本形式出现,来自于社交网络、物联网、电子商务等的博文信息、音频信息、视频信息,图片信息、地理信息等等,多种多样的数据类型对数据的处理能力有了更高的要求。

第三个V——Value。数据价值密度较低。数据价值密度的高低与数据总量的大小成反比,以视频监控为例,一部长达24小时的视频监控。虽然能反映当天的路况信息,但并不能反映更多的信息。但如果这个监控的信息达到一周或者一个月,那么就能从视频中分析出更多的内容,如每周的路况高峰为哪几天、某天中的哪个时段是高峰等等,这些信息只从一部视频中是无法得到的。面对海量的数据,如何将信息更加有限的提取出来。即海量数据的提纯工作是大数据时代下亟待解决的一下难题。

第四个V——Velocity。数据处理速度。这是大数据区别于传统数据挖掘最显著的特征。根据IDC的一份名为“数字宇宙”的报告。预计到2020年全球数据使用量将会达到。在如此量级的数据面前,如果没有高效的数据处理速度,那企业便会被社会所淘汰,大数据时代数据的处理效率就是企业的生命。

社交网络下的大数据

大数据时代给企业带来的最大好处就是让企业拥有了预见未来的能力。2012年5月18日Facebook股票上市,Facebook IPO后其创始人扎克伯格身价300亿美元。在5月18日之前,几乎没有人敢说自己有把握去预测Facebook上市当天股价的走势,但是Twitter却如拥有预言能力般地预测了未来股价走势。

社交媒体监测平台DataSift监测了Facebook IPO当天Twitter上的情感倾向与Facebook股价波动的关联。例如,在Facebook开盘前Twitter上的情感逐渐转向负面,25分钟之后,Faeebook的股价便开始下跌。而当Twitter上的情感转向正面时,Facebook股价在8分钟之后也开始了回弹。最终,当股市接近收盘时,Twitter上的情感转向负面,10分钟后Facebook的股价又开始下跌。最终的结论是:Twitter上每一次情感倾向的转向都会影响Facebook股价的波动,延迟情况只有几分钟到20多分钟。

这仅仅只是基于社交网络产生的大数据“预见未来”的众多案例中的一个,事实上大数据所能带来的巨大商业价值已经被人认为是将引领一场足以匹敌20世纪计算机革命的巨大变革。2012年2月,《纽约时报》撰文称,大数据正在对每个领域都造成影响,在商业、经济和其他领域中,决策行为将日益基于数据分析做出,而不是像过去更多凭借经验和直觉。而在公共卫生、经济预测等领域,大数据的预见能力已经开始崭露头角。

大数据时代,企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合。系统全面的分析让企业拥有了预测未来的能力,做出决策不再是只凭以往的经验。

大数据带给企业的另一个显而易见的好处就是成本的节约。eBay对互联网广告的投入一直很大,通过购买一些网页搜索的关键字,将潜在客户引入eBay网站。为了衡量这些关键字广告的投入和产出,eBay建立了一套完整的广告分析和优化系统。通过这个系统,可以精确计算出每一个关键字为eBay带来的投资回报。通过对广告投放的优化,自2007年以来,eBay用于产品销售的广告费用降低了99%,顶级卖家占总销售额的百分比却上升至32%。

大数据给企业带来的好处不只是广告投放费用的降低,在优化生产流程、新产品研发成本的降低、提高客户的满意度方面也起着不可估量的作用。在大数据之前,产品设计的缺陷要等到产品销售几十万台时才会曝露出来,而现在只需要几千台就能发现产品的缺陷所在,极大地提高了产品使用的安全性和用户的满意度。也给企业节约了不少的成本。

大数据催生变革

大数据时代给企业带来了不小的好处,但同时也带来了一个比较敏感的话题——个人隐私。要准确预测人们的行为,必然研究范畴要涉及手机、邮件、社会化媒体等领域,虽然很多情况下收集数据采取的是匿名方式,企业不会知道具体的用户是谁。但这也会引起一些人的不舒服。远离手机、电脑等现代化工具,那样就不会被监测了吗?其实完全不用有这样过激的想法。随着互联网的发展、物联网的搭建,人们在远离手机,电脑,互联网这些高科技的环境下很难生存。

大数据时代已经成为了一种必然趋势,我们没法改变这个事实,但我们可以认识并理解大数据时代的特点,可以让其帮助我们,让我们的生活、商务等种种方面朝着更好的方向发展。大数据在一定程度上就是要我们的生活变得更好。虽然现在在隐私或其他的一些方面有些不尽人意,但相信随着技术的发展,大数据会切切实实给企业,给我们的生活带来无尽的益处。

大数据时代的来临,也会催生一些新的职业,如在数字分析方面拿手、对于数据分析着迷的人将会在大数据时代得到条件更加优厚的工作机会。根据麦肯锡旗下研究部门麦肯锡全球学会(McKinsey Global Instimte)2011年的一份报告显示,预计美国需要14万-19万名拥有“深度分析”专长的工作者,以及150万名更加精通数据的经理人。造成数据人才供不应求的一个重要原因就是“大数据”的爆发,大数据正在得到从企业界到政府层面越来越多的重视。大数据使得企业能够大规模地进行精准化消费者行为的研究,企业今后想要保持持续创新和发展,就要主动地适应大数据时代的这种变化。

海量数据【第二篇】

对于上述问题,海量信息技术有限公司(简称海量公司)的副总裁兼首席科学家周富秋博士认为,通过采用智能计算技术,对海量信息进行筛选,从中可以得到用户真正想要的信息。对于智能计算技术,周富秋做了进一步的解释,该技术是建立在自然语言处理(Nature Language Process,NPL)基础上的,通过人工筛选的庞大语料库,按照事先设计的算法,对海量数据进行识别,从中找到对用户有用的信息和情报。

周富秋所在的海量公司是一家成立于1999年、专注于中文智能计算和信息数据挖掘技术的民营企业。该公司沿着“字符到语义、非结构化到结构化”的技术路线,经过多年的技术积累,所研发的海量中文智能分词基础件已经广泛应用于腾讯、猫扑网、Myspace等大型网站。此外,海量公司还为微软、Autonomy、Askjeeves等国外公司提供中文智能计算技术,帮助他们实现软件本土化。

周富秋将数据信息处理分为3个层次。为了更好地解释这3个不同的层次,他绘制了一个3层金字塔模型:位于底部的是数据,在其之上是筛选出来的信息,而在金字塔塔尖的就是经过技术提取的精华内容―情报。对于数据和信息的处理,周富秋认为目前主要采用了浅度智能自然语言处理技术(NPL Shallow),而通过这种方式提取出来的内容(数据和信息),主要是Google和百度等搜索引擎厂商正在从事的主要工作。而对于在数据和信息基础上进行精加工产生的精华―情报,则是海量公司正在致力去做的工作,而他们所采用的技术叫做深度智能自然语言处理技术(NPL Deep)。这种技术,周富秋认为正是海量公司的核心竞争力所在。

目前,海量公司已经开发除了基于上述技术的数据挖掘产品“海纳”。该产品可以通过智能计算技术为网络媒体、行业门户、企业情报部门提供在线网络数据挖掘服务。“海纳”可以自动对指定的网站页面进行监控,对于所发现的新增页面及时提示,并对重复信息进行归总。用户只需要单击鼠标,就可以对网页内容进行转载收录。“海纳”运用智能计算技术,替代人工完成大量信息加工工作,简化编辑工作,经过深度加工提升信息价值。海纳是一款在线产品,用户所有操作都是在客户端完成,而其所有的智能分析和自然语言处理工作均在海量公司的专用机房内完成。据产品总监沈止戈介绍,该公司目前为“海纳”投入了100台大型服务器。

对于自然语言处理来说,语料库是一切工作的基础。沈止戈透露,他们拥有国内最大规模的语料库(北京大学的语料库位居第二),而该公司有近20名语言方面的专业人士每天不停地更新语料库,保证对于新词的收录。而这样做,就保证了对于中文语句分词的机器识别准确率。

海量数据【第三篇】

当海量的数据遇到大规模数学运算,传统的数据仓库厂商常常对此束手无策。因为他们基本都源于关系型数据库,包括Oracle、IBM DB2、Teradata等等,虽然在名字、产品上有各种各样的区别,也声称有各种各样的技术,但都是从关系型数据库这种理念产生的,一脉相传都有一个共同的特点,即要把数据从存储拿到内存,然后做处理,因此这个数据的搬移过程是一个非常大的瓶颈。

尤其是对数据仓库类型来说,存储是非常海量的数据,而得到的结果非常少,就像在金矿里挖金子,每次把没用的废矿拉过来,再进行处理。但现在随着分析类功能的需求的增加,传统的数据仓库无法适应这种需求。

Netezza理念的独特之处在于将从架构着手,将分析工具尽量集合到设备中,就地进行数据分析。把分析的工具直接放进数据仓库中,能够大大加快整个处理分析的过程。

Netezza公司总裁兼首席执行官Jim Baum表示,这种分析方式将原有的一系列动作(业务需求、数据准备、数据清理、数据转换、模型开发,模型测试、模型部署以及模型执行)都集中在数据仓库中执行,这就相当于直接在矿堆上筛选金子,进行深加工和处理,这样就避免了无用的数据搬运,大大提高了处理效率。

要使Netezza这块打火石通过大规模数学运算真正将中国各行业的海量数据点燃,Jim表示公司将在广度、深度、高度和统一性四大方向发力。

以平台的统一性为例,由于数据仓库设备一般不是集中放置,但是却需要统一管理。NETEZZA新近推出了数据虚拟化产品――Data Virtualizer,可以在这个数据虚拟器里部署多个数据仓库设备进行不同的工作。数据虚拟器能够通过分析这些数据需求,然后根据本身当下的数据仓库设备使用情况,来判断分配数据分析的工作量。这样可以使我们的客户非常统一的集中管理好数据分析的需求,并且对所拥有的数据仓库设备进行管理和调配。

Netezza在中国发力的重点行业之一就是金融业,中国的金融机构面临着诸多挑战,即如何利用海量数据,在信贷和风险管理、目标营销、客户忠诚度及欺诈侦测等诸多领域做出更快更好的决策。

Jim利用本次访华机会,正式向中国市场介绍其在不久前举办的Enzee Universe用户大会上的新一代Netezza TwinFin数据仓库设备,这款即将在今年第三季度正式问世的TwinFin设备将包括具有先进分析能力的i-Class,以及最新的Netezza性能软件(NPS)。

Jim表示,“同步向中国市场介绍的新款TwinFin设备显著拓展了产品的容量和性能,肯定会受到众多中国客户的喜欢。这款软件的不仅使性能和容量得到了成倍的提高,同时也极大程度地提升了我们的工作量管理能力。我们深信,与市场上同类产品相比,TwinFin设备实现了更快、更便宜以及更深入的分析,必将会成为智能经济的重要组成部分。”

海量数据【第四篇】

当前,空间信息技术发展迅猛,以空间数据为主的空间信息挖掘和应用成为现代人类生产生活的一个重要特征。特别是遥感影像数据,由于其具有获取方便、周期短、信息量大等特点而成为空间数据的重要组成部分。然而,由于遥感数据的数据量十分庞大,特别是对于具有不同来源、不同分辨率与不同时相的数据,其存储与管理均十分困难,且由于其本身具有的稀缺性与机密性,在一定程度上限制了遥感影像数据的充分利用,因此,迫切需要对其进行有效的组织、存储、管理和共享的研究。

研究表明,为实现影像数据的网络服务,可以利用遥感影像元数据,采用流行的数据库技术对遥感影像数据进行组织与管理,并完成基于XML的影像元数据的,实现用户通过网络对遥感影像数据的查询、检索与访问,为影像数据的共享奠定了基础,同时利用本体技术的优势,建立起遥感影像信息本体。

影像数据的存储管理

1.元数据的存储管理

元数据为空间数据的存储管理与共享提供了有效的手段,通过元数据信息,用户可以在没有真实数据的情况下,获取有关数据的信息,从而为数据的共享与利用提供了可能。目前关于矢量空间数据的元数据标准已经制定,并形成了我国的地理信息国家标准,而关于遥感影像方面的元数据标准,尚处在研究之中,未形成一个普遍接受的标准。为此,国家遥感工程中心在ISO 遥感影像元数据标准以及我国即将推出的地理信息元数据标准的基础上,结合项目的实际情况,制订了遥感影像元数据草案。该草案包括7个元数据集、6个公共数据类型和15个代码表,从标识信息、数据质量信息、参照系信息、内容信息、覆盖范围、分发信息和遥感信息等方面对遥感影像数据进行了详细的表述。

2.影像数据的存储管理

由于遥感影像的数据量十分庞大,难以直接进行存储,不利于后续的处理、提取、浏览与检索,因此需要对其进行预处理,主要包括降采样、影像压缩与影像分割等内容。

影像分割是将遥感影像按照行列值分割为相同大小的数据块(tile),并以tile作为影像存储的基本单元。每个tile均以一条记录的方式进行存储,不同记录通过编号进行排列。对于不能够平分的,出现多余的行或列时,应将其单独存放。当用户对影像进行调用时,通过映射关系,只调用与用户有关的tile集合即可,从而优化了数据的存储、传输、浏览模式。

为减小影像的传输数据量和优化显示性能,需建立影像金字塔(图1),通过影像降采样方法,建立一系列不同分辨率的影像图层,每个图层分割存储,并建立相应的空间索引机制。常用的影像重采样方法有双线性差值、立方卷积等。

由于影像的数据量比较庞大,为减小影像的存储空间,还需要对影像进行压缩处理后存储。当用户调用数据时,首先对数据进行解压缩处理,然后再返回给用户。常用的图像压缩方法有JPEG、LZ77等。

3.影像数据库结构设计

遥感影像数据库主要可以分为影像元数据库和影像数据库两部分(图2)。影像元数据库用于对遥感影像元数据标准中的数据集进行存储与管理,影像数据库用于对影像数据进行存储和管理。元数据同影像数据通过ID字段进行一对一的关联,保证了元数据与影像数据的一一对应,从而实现通过元数据可以惟一地查找相应的影像数据,而通过影像数据,又可以惟一地查看该影像数据的相关信息,实现了遥感元数据与影像数据的一体化管理。

影像数据网络共享与服务

1.基于元数据的影像数据网络共享

构建遥感影像元数据的主要目的是为了能够实现影像数据的网络与共享。因此元数据的网络是影像数据的前提与基础。

目前元数据的网络大多采用XML技术。XML是一种元语言,是可以用于描述其他语言的语言。用户可以根据需要,利用XML Schema(或者DTD)自行定义标记和属性,从而可以在XML文件中描述并封装数据。XML是数据驱动的,这使得数据内容与显示相分离。XML可以在类似于Netscape Navigator或Microsoft Internet Explorer的浏览器中显示,并通过因特网在应用之间或业务之间交换,存储到数据库中或从数据库中取出。因此,XML是元数据最好的描述方式,能很好地满足元数据在网上传输、交换的需要。

用户通过网络的元数据信息,可以初步了解遥感影像数据的相关信息,然后通过元数据的导航,实现对影像数据的查询、浏览与检索(图3)。

2.基于本体技术的影像数据网络服务

本体(ontology)是从哲学的一个分支――形而上学中的本体论(Ontology)发展来的一个名词。本体论研究客观事物存在的本质,与认识论(Epistemology)相对。即本体论研究客观存在,认识论研究主观认知。而本体的含义是形成现象的根本实体,因而,本体是概念化的明确说明。最早把本体引入计算机领域的是人工智能领域。

地理信息本体与地理信息分类编码、地理信息标准术语表之间有着相似之处,本体论与分类学、术语学也存在一定的交叉。

然而,地理信息本体并不是地理信息标准术语表。地理信息本体提供了一组具有良好结构性的词汇,而且出现在本体中的词汇经过了严格选取,确保所选的词汇是本领域中最基本概念的抽象与界定。概念与概念之间的关系采用相应技术(如谓词、逻辑等)进行了完整的反映,而正是这些关系的反映使得基于本体的系统实现后能够完成语义层面的一些功能。地理信息标准术语表仅仅是地理信息领域中各种词汇的集合,相对本体而言还比较松散。

本体也不单纯是一个词汇的分类体系,即不是地理信息中的分类和编码表。本体和地理信息的分类非常相似,尤其是把本体的理论应用于地理信息分类编码时,这种相似性更为明显。总的说来,地理信息本体比分类编码表中所反映的词与词之间的关系要丰富。

通俗地说,本体一开始就致力于实现计算机可理解,所以它在表现形式上要有更为特殊,如本体是要用精确的形式语言、句法和明确定义的语义来阐述的。如何在现有基础上做这些特殊的处理,就是我们结合计算机技术所要研究的内容。

48 978032
");