跳转至

DSMM-009 网络可用性管理规范V1.0

第一章 总则

第一条 为规范北京思度咨询科技有限公司网络基础设施及网络层数据防泄露设备的备份建设,实现网络的高可用性,从而保证数据传输过程的稳定性,制定本规范。

第二条 本规范适用于指导北京思度咨询科技有限公司的软硬件网络可用性管理工作。

第二章 职责权限

第三条 数据安全领导小组办公室

(一)负责组织制定北京思度咨询科技有限公司网络可用性的相关制度、规范以及流程;

(二)根据北京思度咨询科技有限公司不同的业务环境所提出的各种网络性能需求建立网络服务配置方案和宕机替代方案,协助保障服务中心-终端安全管理岗人员执行。

第四条 保障服务中心-终端安全管理岗,主要履行的职责包括但不限于:

(一)负责协助数据安全领导小组办公室制定网络可用性管理制度;

(二)组织开展网络可用性安全检查工作,确保北京思度咨询科技有限公司网络可用性,及时发现存在的问题,并上报数据安全领导小组办公室。

第三章 网络可用性管理指标

第五条 术语及定义

(一)可用性指系统或组件在指定的条件和时间内,维持其规定功能的能力,常以百分比标识并能综合反映设备的可靠性和可维修性。

(二)平均无故障时间(Mean Time Between Failures,MTBF),即整个网络的各组件(链路、节点)不间断无故障连续运行的平均时间。MTBF越大,表明越不容易出故障,可用性自然高。MTBF反映的是网络的可靠性(reliability)。

(三)平均修复时间(Mean Time To Repair,MTTR),即从故障发生到故障消除所需要的平均时间。MTTR越小,表示故障时间越短,可用性也就越高。出现故障后,要经过检查、识别、定位、修复和核查过程,还可能出现技术延迟和后勤延迟,MTTR不仅与设备的种类和所在位置有关,与是否使用网络管理系统及该系统的响应速度和告警能力有关,还与维修队伍的整体素质(包括体质、管理、责任心、维修支援能力等因素)有关。

(四)可用度(Availability):可用性的定量描述。

(五)不可用度(Unavailability):与可用度相对。

第六条 系统网络可用性管理指标

北京思度咨询科技有限公司系统平台网络可用性需遵循以下网络可用性指标进行建设,且应达到"具有故障自动恢复能力"的可用性。

描述

通俗叫法

可用性级别

年度宕机时间

每天宕机时间

可用

1个9

90%

36.5天

2.4小时

基本可用性

2个9

99%

87.6小时

14分钟

较高可用性

3个9

99.9%

8.76小时

86秒

具有故障自动恢复能力的可用性

4个9

99.99%

52.6分钟

8.6秒

较高可用性

5个9

99.999%

5.25分钟

0.86秒

第四章 网络可用性安全管理

第七条 保障服务中心-终端安全管理岗人员负责网络及其组件设备的日常维护以及网络故障的应急工作,全面负责可能出现的各种突发事件处置工作,并协调解决网络故障处置工作中的重大问题。

第八条 网络故障发生前,数据安全领导小组办公室协助保障服务中心-终端安全管理岗人员需预先对网络故障预警预报体系进行建设,编制网络故障防治规划。

第九条 保障服务中心-终端安全管理岗人员需加强对网络及各组件的日常监测及其日志保存工作,发现险情时,需及时向数据安全领导小组办公室报告。

第十条 保障服务中心-终端安全管理岗人员严格执行值班制度,建立健全网络故障速报制度,以保障最先发现网络故障并及时处置次突发事件和突发性网络故障信息可立即发布预警。

第十一条 网络故障发生时,保障服务中心-终端安全管理岗人员应立即启动应急预案,采取应急处置程序,判定网络故障级别,并立即向数据安全领导小组办公室报告。在网络故障处置过程中,应及时报告网络故障处置工作的进展情况,直至故障修复。

第十二条 网络故障消除后,由保障服务中心-终端安全管理岗人员向数据安全领导小组办公室宣布网络故障应急期结束,并予以公告,同时预案终止。

第五章 网络服务配置方案和宕机替代方案

第十三条 网络服务配置原则

(一)层次化:分层次设计网络结构,严格定义各层次的功能;

(二)模块化:根据区域划分拓扑结构;

(三)可扩展:根据业务发展需要,通过简单复制模块单元来拓展网络;

(四)冗余设计:提供设备和链路的冗余保护。

第十四条 提高网络可用性

(一)在网络规划设计阶段,需要细致分析业务模型,确定基础网络拓扑,对影响网络可用性的关键节点和链路必须做充分的冗余设计,并根据网络结构,在各个层次、各个节点部署合适的高可用性技术;

(二)在组件或设备选型时,除保证技术指标外,也要有足够高的可靠性指标;

(三)持续进行网络维护和优化。利用高效的网络设备管理工具持续监控、分析、预测、优化,最大限度的规避网络拥塞;

(四)在进行软硬件版本升级或新设备,新业务上线时,需要事先详细规划,制定应急预案;

(五)高度关注网络安全问题。定期对主机系统和网络系统进行安全评估,构建一个多层次的安全防御和预警系统;

(六)做好业务系统和网络系统的协调。积极分析业务模型,并适当的进行调整,可以让网络更通畅。

第十五条 建立容错机制,通过容错技术,外加冗余资源(包括硬件冗余、软件冗余和路由冗余)消除单点故障使系统在单点故障中仍能正常工作。

第十六条 提高网络可用性可采用以下技术:

(一)避错措施

避错方法包括各种硬件、软件和管理措施。

1)硬件避错方法是通过改进硬件的制造工艺和设计,防止错误的产生,包括网络中电气系统的避错、网络设备的避错、服务器的避错和网络中传输媒体的避错等;

2)软件避错方法包括形式说明、过程管理、软件测试和程序设计技术选择等,例如网络应用系统的避错和成熟可靠的网络操作系统的使用等;

3)管理避错方法要求网络运行管理要严格按照规范进行,包括制度建设、任务分配、设备标识、规范文档记录、各种软硬件日常维护和网络安全管理标准等,例如管理信息存储的避错、网络中网络结构选择的避错和日常网络管理的避错等。

(二)快速检错

实现快速检错包括故障检测和故障诊断两方面,故障检测的作用是确定故障是否存在,故障诊断的作用是确定故障的位置。一般快速检错是从故障现象出发,以网络诊断工具为手段获取诊断信息,确定网络故障点,查找问题的根源具体包括:

1)自动检错而不是人工检错可以更快提高检错的速度;

2)借助线路检测工具(如线缆测试仪、时间域反射计)可以加快线路故障的检错速度;

3)利用网络管理系统专门的管理进程不断地检测路由器的关键数据并及时给出报警可以加快路由器故障的检测速度;

4)通过工具自动监视主机流量、扫描主机端口和服务来检测主机的异常,可以加快主机故障的检测速度;

5)利用网络测试仪可以自动定位网络故障源,找出故障点并显示其网络相关信息,从而加快逻辑故障的检测速度;

6)利用网络分析工具进行快速检错,如协议分析程序Snigger,操作系统中内置的一些非常有用的软件网络测试工具等。

(三)快速排错(恢复)

排错事在网络出现故障时,逐一排除故障,恢复系统的可用性。网络故障排错的方法分为:

1)分层故障排错法:它主要根据网络分层的概念进行逐步分析的方法;

2)分块故障排错法:此方法从设备的配置文件入手,将配置文件分为管理部分、端口部分、路由协议部分、策略部分和接入部分,并对其逐一进行检查排错;

3)分段故障排错法:此方法是把网络分段,逐段排除故障;

4)替换法:替换法是检查硬件问题最常用的方法。如怀疑是网线问题时,更换一根确定完好的网线尝试。

第十七条:网络系统维护期:通过前面的避错、容错措施的建设,网络可用性大大增强,同时网络出错的概率也大大降低,此时主要是针对日常网络系统的监控、检错、排错,使用相关技术工具,不断减少平均修复时间,从而实现网络可用性的全维度把控。

第六章 附则

第十八条:本规范由数据安全领导小组办公室负责制定、解释和修改。

第十九条:对违反本规定的人员,将按照北京思度咨询科技有限公司有关规定进行处罚。

第二十条:本规范自发布之日起执行。

5

Back to top