海量存储技术:海量存储的关键技术是什么?

随着数字图书馆、电子商务、多媒体传输等应用的不断发展,数据从GB、TB到PB量级海量急速增长。存储产品已不再是附属于服务器的辅助设备,而成为互联网中最主要的花费所在。海量存储已成为继计算机浪潮和互联网浪潮之后的第三次浪潮,磁盘阵列与网络存储成为先锋。


磁盘阵列(RAID)研究


RAID(Redundant Array of Inexpensive/Independent Disks)是1988年由美国加州大学Berkeley分校的David Patterson等人提出。RAID在当今的海量信息存储领域中扮演着重要角色,它是一种提供增强冗余、容量和存储性能的存储方法,有着较强的可管理性、可靠性和可用性。


在实际应用中,RAID2和RAID4分别为RAID3和RAID5兼容,且后者性能更强,故很少被采用,而RAID6造价过高,现在RAID7虽已出现,但应用还不太广泛。磁盘阵列代表性成果如下图所示。


网络存储研究


所谓的网络存储就是通过网络存储设备,包括了专用数据交换设备、磁盘阵列或磁带库等存储介质以及专用的存储软件,利用原有网络或构建一个存储专用网络为用户提供统一的信息系统的信息存取和共享服务。其特点为数据大容量存储、数据有限制共享、数据挖掘和信息充分利用、数据可靠性、数据备份与安全性、数据管理的简单化和统一化。同时网络存储还具有很强的可扩展性,可以提供大数据量的信息传输率的特点。三种主要技术如下。


(1)以服务器为中心的传统的直接存储技术:DAS技术(Direct Attached Storage)。


DAS技术将通用服务器的一部分作为存储设备,该服务器同时提供数据的输入/输出及应用程序的运行。数据访问与操作系统、文件系统和服务程序是紧密相关的。目前,这种以服务器为中心的存储方式已不能适应越来越高的信息存储需求。但是,DAS产品的优势在于价格便宜,在那些数据容量不是很大和对数据安全性要求不是很高的部门还有一定的应用市场。


(2)以数据为中心的网络存储技术:NAS(Network Attached Storage)和SAN(Network Area Storage)。


NAS技术是一种特殊的利用专门的软、硬件构造的专用数据存储服务器,又有“瘦服务器”之称。它将分布的、独立的数据整合为大型集中化管理的数据中心。它将存储设备与服务器分离,单独作为一个文件服务器存在,去掉了通用服务器原有不适用的大多数计算功能,仅保留提供文件系统功能。可用于混合的UNIX/Windows NT局域网,不用购置价格昂贵的多功能服务器。相比较而言,它更适用于一个需要公共文件系统的服务器群,如电子邮件服务器组,Web服务器集群等。


(3)存储区域网(Storage Area Network,SAN)是一种将磁盘或磁带与相关服务器连接起来的高速专用网,采用可伸缩的网络拓扑结构,可以使用光纤通道连接,也可以使用IP协议将多台服务器和存储设备连接在一起。将数据存储管理集中在相对独立的存储区域网内,并可提供SAN内部任意节点之间的多路可选择数据交换。SAN独立于LAN之外,通过网关设备与LAN连接,是一个专门的网络。三个构成要素:网络互连结构、管理软件和存储系统。


SAN可以在多种存储部件之间、存储部件与交换机之间等进行通信,提高了网络利用率,被广泛应用于银行、电信等行业。另外,SAN的中心环节是光纤通道产品和技术,更适合大批量数据的快速传输、存储和备份,解决了原有存储方案的扩展能力瓶颈,适合数据量巨大、数据增长非常迅速的大型企业应用。SAN的高速及其良好的扩展性使它更适用于电子商务应用。


关键技术


磁盘阵列


磁盘阵列和网络存储作为当前实现海量信息存储的主要手段,主要包括如下关键技术。


可承受单磁盘故障的编码技术:


RAID0~RAID5都只能承受一个磁盘故障,对于海量存储系统可能无法满足需求。


可承受多磁盘故障的编码技术:


美国California大学Guillermo等通过对保存在磁盘上的所有信息全部进行编码(暗文),提出了一种能够承受多个成员磁盘故障的RAID结构。由于编码的实现过程计算复杂,无论读/写数据操作,均需要多个磁盘读写操作和解码操作,对存储系统I/O性能的影响较大。


韩国电子与通信研究所Chong-Won Park等提出了一种新的冗余编码方式来提高RAID结构容灾能力,但是存在冗余信息分布不对称的问题,虽然能承受某些特殊组合的三个成员磁盘失败,但是也可能因为某种组合的两个磁盘失败而引起数据丢失。


网络存储


网络存储关键技术包括如下几种。


(1)系统管理的研究:主要是虚拟存储研究,虚拟化存储是提高网络存储系统可管理性的核心技术之一,也是目前研究的热点。其目标为任何地方的任何用户可以访问和共享任何文件。目前有以下三种虚拟化存储技术。


基于主机的虚拟化技术:代表性产品为Redhat LVM (for Linux)和Veritas VVM (for Solaris,AIX),通过建立逻辑卷层实现虚拟化,可用于在服务器端将镜像映射到外围存储设备上建立虚拟存储设备,是最为普遍的虚拟化技术。


基于存储设备的虚拟化技术:多为硬件实现,在性能上具有优势,多家厂商的产品无法共同使用。


基于网络的虚拟化技术:支持多种网络和网络传输协议,可以将不同IT厂商、不同设备品牌、不同连接方式的磁盘阵列组成一个虚拟的存储池,映射给网络上的应用服务器使用


(2)数据共享的研究:主要是文件系统研究。共享SAN文件系统是目前在多平台环境、多用户共享、并行存取的SAN存储系统中,解决设备数据的共享机制的主要技术。


共享SAN文件系统可采用以下两种不同的实现方法。


对称共享的方法:所有的用户共享数据和元数据,同步工作由多个用户通过全局锁制实现, 如Redhat的GFS、IBM的GPFS和SGI的CXFS 等。


非对称共享的方法:元数据由一个或几个集中的服务器进行管理,用户仅仅共享数据,数据的存取通过SAN网络,而元数据的存取通过专用的数据网络,如IBM的Storage Tank、 Panasas公司的PanFS和Cluster File Systems 公司的Lustre。


海量存储发展趋势


分布式存储与P2P存储:分布式存储概念提出较早,目前再次成为热点。P2P存储可以看作分布式存储的一种,是一个用于对等网络的数据存储系统,它的目标是提供高效率的、鲁棒的和负载平衡的文件存取功能。


数据网格:为了满足人们对高性能、大容量分布存储能力的要求所提出的概念,类似于计算网格,是有机的智能单元的组合。


智能存储系统:包括主动的信息采集,主动信息分析、主动调整等。


存储服务质量QoS:应用环境越来越复杂,存储需求区别也越来越明显,这就需要为应用提供区分服务。目前的研究以基于网络存储的QoS为主。


存储容灾:通过特定的容灾机制,能够在各种灾难损害发生后,最大限度地保障计算机信息系统不间断提供正常应用服务。


原文出自【比特网】,转载请保留原文链接:http://storage.chinabyte.com/17/8545017.shtml

相关推荐

相关文章