>> 行业方案——双机热备系统软件应用解决方案
 
发布时间:2010-12-20  访问人数:4860
 
双机热备系统软件应用解决方案
行业需求分析
双机 最大限度的减少硬件损坏对数据的影响 热备 一般用于不能终止的关键业务,就是备份的时候生产机的业务也要运转。
双机热备带来的是高质量的数据安全,也带来了冗余的浪费。如果生产机在淘汰前一直不挂,备份机就平庸一辈子了。
 
从广义上讲,双机热备(双机容错)就是对于重要的服务,使用两台服务器,互相备份,共同执行同一服务。当一台服务器出现故障时,可以由另一台服务器承担服务任务,从而在不需要人工干预的情况下,自动保证系统能持续提供服务
双机热备由备用的服务器解决了在主服务器故障时服务不中断的问题。但在实际应用中,可能会出现多台服务器的情况,即服务器集群
双机热备一般情况下需要有共享的存储设备。但某些情况下也可以使用两台独立的服务器
实现双机热备,需要通过专业的集群软件或双机软件

从狭义上讲,双机热备特指基于active/standby方式的服务器热备。服务器数据包括数据库数据同时往两台或多台服务器写,或者使用一个共享的存储设备。在同一时间内只有一台服务器运行。当其中运行着的一台服务器出现故障无法启动时,另一台备份服务器会通过双机软件的诊测(一般是通过心跳诊断)将standby机器激活,保证应用在短时间内完全恢复正常使用
 
 集群(高可用)概述
A 什么是高可用(High Availability)
B 高可用是哪些业务环境的需求
C 高可用的标准
D 实现高可用的难点
E 高可用系统实现的准备
F 高可用系统准备的关键点
G 高可用实现
高可用的基本概念
高可用技术中的几个术语
在我们学习高可用概念前,先定义一些术语, 就
像’Availability’, ‘High Availability’, ‘High Available
Computing’等。
A、可用性 (Availability)
是指按照需要提供一定级别服务的系统。这个概念是体现在我们生活、工作中,在计算机领域,可用性通常看成是系统提供服务的时间段(如一天16 小时, 一周5 天)或是系统的响应时间(如:1秒钟的响应时间)。任何的服务丢失,包括计划中或计划外(意外)的,都被定义为损耗(OUTAGE)。宕机时间(Downtime)是指系统从停止服务到重新提供服务的时间(以时间单位计量,如分、小时、天等)。
B、高可用性(High Available:
High Available指定义一个系统,使之能够通过减少或对错误的控制以降低系统宕机时间来尽可能避免服务丢失。我们能够健康、快乐的生活、公司的正常运作,这些需要能够有一个安全的、可靠的环境作为保障。例如,我们希望供电系统可靠,哪怕一点点、短暂的停
电都是不可接受的,因为我们的生活已经离不开电力了,像冰箱、空调、微波炉、照明等,停电意味着生活无法正常进行。甚至当非常可靠的服务突然非正常停止,我们还是非常
希望能够马上恢复。 当供电系统不正常时,我们期望电力公司的抢修车能够以最快的速度修好。
C、高可用计算
(High Available Computing) :
在一些业务系统中,计算机的可靠性几乎同供电系统的可靠性具有一样重要性。 高可用计算(High AvailableComputing) 是被设计成只容许有极短的计划和非计划宕机时间的计算机系统。需要说明的是高可用(High Availability)也不是绝对的,不同的业务系统对高可用的需求是不一样的。 例如银行的信用卡系统、轮班制的企业(24 小时不停的流水线)和一些提供服务的网站,要求系统24 小时不停止运行; 一些金融单位(证券交易所)系统要求一周5天,每天白天或夜间交易时间内不能停机,其它时间可以停机做维护等;同时一些零售企业(商场)仅仅需要系统每天运行18小时,但是要求具有很短的响应时间来进行事物处理。
D、服务级别(Service Levels:
系统的Service Level 是指系统提供给用户的服务级别。通常,服务级别在有关专业技术文档中有相关描述,但并非十分严格。这里可以简单的理解为:服务级别是对提供服务的系统服务能力的量化。高可用环境可以提供一个服务级别的服务,使得系统的计划及计划外宕机时间不超过一个特定的时间。
E、连续可用(Continuous Availability:
“连续可用”意味着永不停止的服务,包括计划内和意外服务的终止。这是一个比高可用要求更加难于实现的环境,意味着服务不能够有任何意外发生。实际上连续可用的系统在现实中是不可能存在的。因此这个概念通常指运行的系统要求只能有极少的服务终止时间,即指非常高的可用系统。高可用不意味着就是连续可用。
F、容错 (Fault Recovery)
容错系统不是可用性级别中定义的一种,而是实现更高级别可用性的方法。容错系统是硬件冗余的概念,该系统通常使大多数部件硬件冗余,包括CPU、MEM、I/O系统及其他部件。容错系统能够保证在硬件、软件出现故障时,系统可以继续提供服务。但是容错系统不能避
免人为失误造成的服务终止。高可用系统同样不意味着容错。这样的系统像Stratus这样的厂商提供的产品就是容错机产品。
G、容灾 (Disaster Recovery)
容灾系统是可以容许灾难发生的运行系统。可以容许系统发生多点故障甚至整个系统损坏的情况下,服务不受影响。通常,容灾系统中的服务器分别运行在不同地点,通过网络线路保持数据的一致,在运行主机故障或灾难发生时,其他容灾服务器可以接管其服务。容灾系统中服务器节点可能分布在校园不同的建筑内、城市的不同区域、甚至跨越海洋,在不同的洲运行,可见这样的系统需要大量的投资和大量的维护工作。只有非常关键的业务系统会采用这种方式保证数据的安全和系统的可用。
H5nines:5minutes(五个九:五分钟):
早在1998 年,惠普针对其推出的服务器系统提出了99.999%可用性,指的是系统的宕机时间一年不会超过5分钟。这个定义使系统的可用性、可靠性具有一定的数据参考的标准,同时大大促进了集群技术的发展。不是所有的用户要求所有的设备和工具提供99.999%的
可用。不是所有的用户愿意有这样的投入。但是所有的用户都在可用性技术的发展中获益。比如你不希望家里的轿车具有赛车的引擎,但是赛车的引擎技术发展的确促进了家庭轿车引擎的进步。
分析用户的可用性需求
非正常的服务终止时间的长短会对用户造成不同的损失,或者说用户对服务停止所能承受的时间是不同的。通常取决于应用的类型,如在一秒钟内修复错误,不会对一个在线联机事务(OLTP)处理系统构成影响,但是对于一个科学计算应用运行在实时环境下,则停止哪怕一
秒都是不可忍受的。由于系统的任何一个部件都可能发生故障,因此挑战是在设计系统时能够预判哪些故障将要发生,并且能够最快的纠正将要发生的错误。选择一个解决方案用户系统可用性的要求决定方案的选择。例如:如果系统停机多个小时不会影响业务,那样你就不需要购买带有热插拔硬盘的存储系统。另外如果你不能忍受硬盘更换造成的停机,则可以选择用热插拔的磁盘阵列、并且可以通过硬盘的Mirror(镜像)达到硬件容错效果。我们关心的是基于各种操作系统环境的高可用系统,因为在PC服务器硬件环境被广泛采用的情况下,更多具有高可用要求的系统在运行,那么如何更好的满足用户的需求至关重要。
高可用是业务的需求
目前的很多业务,高可用系统是实实在在的需求,而不是华而不实的概念了。从某种意义上讲,高可用系统是对系统宕机造成数据丢失的一种保障;从另外一点看,通过它,企业可以为用户提供更好、更具竞争力的服务,增强了企业的竞争力。高可用是一种保障高可用系统在以下损害情况下,提供了系统的保障:
A 收入减少
B 客户不满意
C 丧失机会
对于商业计算,高可用方案是必需的,因为丢失系统服务意味着利润的损失。对于这样的业务,我们通常称之为关键业务(mission-critical),对于所有的关键业务,系统宕机意味着收入的减少,高可用是必要的。对于银行,如自动取款机24小时提供服务,其应用系统是典型的关键业务。对于一些像证券交易这样有着安全需求的关键业务,高可用环境保证系统在交易时间内不停机运行,在交易结束后,可以将服务器关闭。
 
方案
 
灵活的应用自定义接口(MObject),可满足所有应用的监控需求
 
* 支持各种切换策略:主备切换模式、回切模式、手动切换、任务负载均衡模式

    * 单机高可用,能够实时监测本机,并对影响用户系统运作的情况实行自动修复,令用户单机系统同
      样得到高级别保障


    * 支持平滑扩展至集群高可用
    

    * 通过强大的执行树功能,可自定义集群系统发生切换时各种资源停止及启动的执行顺序 
     
    *支持主流存储构架,如FC、ISCSI、SCSI及EXP等 
   

    *支持集群资源动态监控,第一个采用“健康系统安全评价体系”作为衡量集群可用性的方式,改变传
     统集群系统非“活”既“死”的二元化判断方法,可根据故障的严重程度,做不同级别的事件响应

    *强大的Event Analyzer技术,可管理所有的任务调度和事件触发,具有人工智能

    *专业深度监控插件,是目前唯一能对数据库系统的并发用户数、表空间使用率以及进程占用CPU百分
     比等进行可用性定义的集群系统

    *支持网格化多点镜像集群,与Lander网格化复制模块结合,可实现广域网环境的异地高可
     用容错;与Lander容灾模块结合,可实现异地应用级容灾

    *完善的集群自我监控,应用进程互锁机制,最大程度保障集群系统自身健壮,避免集群丢失
   

    *集群运行状态以直观的图形方式显示,管理员轻松应对大规模系统环境
   

    *通过Lander先进C/S构架,系统管理员可轻松实现远程管理集群资源,并可针对集群组内大量资
     源统一分配及调整
   

    *应用RSA的1024位密钥加密,确保用户核心数据万无一失

    *支持多种报警方式(Mail、Vioce、SMS);

    *支持中、英文语言界面,拥有完善的系统日志查看器,详细的系统帮助文档及手册
双机热备模式
主从方式:
简单双机集群是目前大多用户采用的高可用环境,简单的说就是两台服务器加一台磁盘阵列,通过Lander软件实现主从工作方式的双机环境。这样的环境不一定是十分严格的集群,需要考虑的问题太多,包括硬件配置、单点故障等。主从就是热备工作方式,容错软件作为不可缺少部分起到监控系统状态并在系统故障时,自动做出相应的反应,保证整个系统提供服务的不间断。


双主方式:
这个环境下,有两套不同的应用运行在集群环境中,每台服务器运行各自的应用,在其中一台出现故障时,另外服务器将接管其服务。这种配置可以大大提高设备的利用率,缺点是增加了系统的复杂度,而且对于某些特殊应用环境可能无法实施。
双主方式是真正的双机互备,要求服务器具有较强的处理能力,来满足两个应用的需求。在配置双主双机时,硬件的配置与主从双机略有不同,主要在网卡上。对等需要至少两片网卡,每个网卡对应一个应用,可以是相同或不同网段的网络地址。

Lander在双主方式下,满足的是对两个独立的应用实现高可用的需求。我们可以将多个不同应用分布在两台服务器上,使得多个应用可以在高可用环境下运行,这样可以达到多应用互相备援的目的。因为Lander可以对进程监控、对进程数量监控,对Lander来讲,本身不区分进程的类型,仅仅把进程作为监控的对象而已。


镜像方式:
在传统高可用性双机系统中需要通过共享存储来实现数据的共享提升性能,但这也增加了可用性系统的成本。镜像方式允许用户将数据保留在本地硬盘,通过镜像软件(如Replicator)、以太网络基础环境、 TCP/IP 协议,在两台主机之间实现了数据的实时镜像,不需要额外的存储投资。另外,加之Lander-DN双机高可用软件,实现纯软的高可用性系统。


双机双柜:
双机容错系统的最高境界是完全避免单点故障,而没有单点故障的系统是几乎不存在的。但是,双机环境中的存储部分的重要程度我们前面有大量描述,因此,双机双柜作为一种可选方案在某些环境下是可行的,而且具有很多的优点。

下面针对Lander环境下,一个Windows双机双柜系统,系统没有物理单点故障(存储部分)。Lander环境经过测试,在任何一种情况下都能保证系统的不间断运行。运行主机不宕机,有一个磁盘失效。此时运行主机上数据库能正常运行,运行主机也能正常运行,而备机也不受干扰。此时,整个系统环境能正常运行。当运行主机宕机,一个磁盘失效时。备机能顺利接管数据库的应用。接管后,数据库能正常运行。在此情况下,整个系统环境也能正常运行。

所以,在采用双机双柜用数据库作镜像的应用情况下,基本达到了能够保证数据库应用不会由于单点故障(单个磁盘柜或单个主机失效)而造成整个系统环境的失效。


异地双机(容灾双机):
是利用光纤存储技术或ISCSI技术的特点实现的一种双机环境。这种方式简单的说是将集群的两台服务器放置在距离较远的地方,使之具有一定的容灾功能。这种情况不是任何应用环境都可以实施的。硬件上首先需要的是SAN结构或ISCSI的存储环境,因为SAN存储结构有很好的扩展性、灵活性,同时一般采用光纤作为传输介质,光纤可以在很长的距离内传输数据,使得服务器、存储可以分别放置在距离很远的地点。

容灾和高可用是不同的需求和概念,同时是一个安全的系统应该具备的特点。在能够达到高可用的情况下,如果能在不增加投资的情况下,解决容灾问题,将一举两得。
 
双机热备方式---智能型 
智能型如下图,两台设备加一个阵列柜,更高的保证了数据的安全以及快速切换。
高可用系统在保障用户核心业务的同时,必须拥有极高的监测准确度、监测速度、降低系统停顿时间,通过采用独特的MLDC多链路数据交换协议,应用最多5层链路侦测,确保集群监测准确可靠,避免“脑裂”现象,并应用快速故障侦测及处理技术将系统切换时间缩短到以“秒”计算的范围,最大程度降低系统停机时间,提升系统可用性
双机热备方式-纯软方式
  纯软模式就是我们双机热备的另一种形式,他同过软件实现双机热备而不需要阵列柜,结构如下图
纯软解决方案关键技术和特点:
支持超大规模的计算机节点,最大可达256个;
创新的智能故障预警,提高了主机系统的可靠性;
首次提出健康系统安全评价体系,提高了业务系统的可用性;
集成镜像、同步、异步等数据容错技术,为关键业务提供多重数据保护;
“字节级”数据粒度,带宽占用极低;
独创“Data Push”技术,数据推送速度更快;
独创“Data Funnel”技术,变化的数据被保存在数据漏斗中,可对误操作回滚;
基于网格化的复制架构,可满足任意复杂的商业应用需求;
支持局域网、广域网及各种宽带网络,部署方便;
支持数据压缩、加密功能,数据在传递过程中安全高效;
支持对主流数据库系统的数据容灾;
支持远程主机系统的集群保护;
可对持续的数据变化进行备份及恢复;
纯软解决方案主要技术优势:
1.  以OO为核心,将集群的核心封装成“Execute Object”、“Monitor Object”和“Event
    Object”,架构合理,扩展性强;
2.  用Java开发集中管理平台,可实现跨平台操作;
3.  采用MLDC多链路数据交换协议,支持多达5条冗余链路,支持多达256个活动节点,确保通讯可
    靠;
4.  可应用于局域网、广域网环境,增加了CheckPoint;
5.  采用Storage Agent存储控制引擎,支持各类存储标准,如FC、ISCSI、SCSI及EXP等;
6.  采用RSA的1024位密钥加密,数据通讯安全;
7.  灵活的应用自定义接口(MObject),可满足所有应用的监控需求,可定义各种行业软件的侦测
    代理;
8.  强大的Event Analyzer技术,可管理所有的任务调度和事件触发,具有人工智能;
9.  定义了执行对象的“五阶段模型”,统一了各类资源接口,使资源包的配置近似于自然语言;
10. 采用字节级的复制粒度,带宽占用极低,可适应于广域网环境;
11. 采用“Data Push”技术,数据推送速度极快,平均迟延毫秒级;
12. 采用“Data Funnel”技术,可将数据回滚到任意时刻;
13. 网格化的复制架构,可支持1―>N,N->1,N->M;
14. 采用多线程并行传输,支持断点续传;
15. 支持多种压缩和加密方法,数据流转过程安全可靠;
纯软双机解决方案和磁盘阵列解决方案比较:

比较项
纯软双机
磁盘阵列(IPSAN)双机
维护要求
要求高,维护较复杂
要求低,维护简单
数据存储
主和备用服务器均有一份业务数据
业务数据只存储在共享存储阵列上
应用切换
切换快(与同步压力有关)
切换快<30秒
适用系统
数据增长缓慢或者服务器距离跨度大的系统
数据增长快或者要求故障切换快的应用系统
远距离支持
可适应广域网环境,实现异地双机
无法实现远距离环境
对主机性能影响
CPU占用0-30%(与同步压力有关)
CPU占用<5%
对网络的影响
带宽使用<20%
带宽使用<1%
对存储的要求
要求主备机有足够的磁盘空间,可存放业务数据和事务日志
要求有共享存储阵列,可满足业务数据存取就行
对网络的要求
主备机均要求至少1块网卡
主备机均要求至少2块网卡
对距离的要求
只要求确保TCP/IP连通,距离无限制
除TCP/IP连通通畅外,还需考虑存储设备的距离限制
总成本
除2台服务器外,其他均通过软件实现,总体成本低
需要另购存储阵列,成本较高
对主机的要求
主机性能基本一致
主机性能可不一致

 
 
支持操作系统平台
● Windows 2000 Server Edition
● Windows 2000 Advanced Server Edition
● Windows Server 2003 Standard Edition
● Windows Server 2003 Enterprise Edition
● Windows 2008 Server Edition

硬件要求
● Intel X86(32/64位)构架服务器产品
● 外部存储设备(SCSI/FC/ISCSI子系统,可选项)
● 服务器配置两个或以上全双工网卡
● 256M以上内存
● 至少一个Hub/Switch

数据库支持
● SQL Server
● DB2
● Oracle
● Sybase
● Informix等各类数据库

重要指标自定义监控支持
主机CPU监控
内存监控
网络负载监控
进程占用CPU监控
进程占用内存监控
专业应用保护模块

工作模式
主备模式,主主模式,一备多模式,多备一模式,多备多模式,多机互备模式,单机高可用

资源占用
占用系统资源极少,不增加网络负荷,且不打扰任何具体应用系统的任何操作。

侦测链路
心跳、工作网络 、存储子系统

切换时间
任务切换指令发布时间<1s ,任务转移时间<30s(取决于服务器性能)
 
方案优势
• 节省管理成本,集群中的节点统一管理,使管理变得轻松;
• 整合了环境中的应用,使之达到整体高可用;
• 方案性价比高,关键业务子系统越多、方案的平均投入越低,节省了设备的投资;
• 方案伸缩性好,集群中主机可以灵活增加、减少;
• 服务优势明显,依托本地服务平台,可得到全方位、及时的技术服务
 
法律声明 | 网站地图 | 友情链接 | 人才招聘 乐拓数据中心ISP/ICP经营许可证:沪B2-20040500 ICP备案号:沪ICP备05019942
黑龙江体彩网 吉祥棋牌