企业如何成功的建设云数据中心

数据中心作为基础设施的核心建设,应该从运维的角度出发,定义角色,制定规范,形成体系,支撑业务。比如同是数据中心的使用,不同视角需要看到不同数据:领导视角:关注整体容量,资源利用率等;运维人员视角:关注资源开通,服务状态等;使用者视角:关注自己的应用运行状况等;基于从运维出发,经过一系列实践与总结,围绕业务、流程、技术相辅相成的建设思路,普元现在会从两个维度来帮助企业推进云数据中心建设,总结为五级规划和八大流程。

下载普元云计算白皮书

五级规划

企业规模有所不同,IT 水平也参差不齐,在云数据中心的建设路线上,应该结合企业实际情况,遵循四化的理念,按优先级、分以下五个阶段来建立、提升、完善云数据中心的能力。

五级规划
五级规划-流程

八大流程

数据中心作为企业IT 的基础,其运维流程是否合理、安全、快速至关重要,针对企业大量的、差异的运维流程,普元从服务支持和服务提供两个角度,共抽象出八项通用的运维流程,指导数据中心的分段建设。

八大流程

服务连续性管理

服务连续性管理的目标是为了提高企业的风险防范能力,以有效地响应非计划的业务破坏并降低不良影响,确保所需的IT 技术和服务设施在规定时间内恢复。主要包括:

IT 服务持续性管理

IT 服务持续性管理是指预防灾难发生,增强IT 基础架构的恢复能力和容错能力,在灾难发生后迅速恢复IT 服务正常运作的管理流程。IT 服务持续性管理的目标是通过灾难发生之后IT 基础架构和IT 服务能够在规定时间内恢复从而支持业务持续性管理。

服务持续性管理

业务持续性管理

业务连续性管理,是指对于潜在的危机和相关影响,制订响应、业务和连续性的恢复计划。业务连续性管理的目标是为了提高企业的风险防范能力,以有效地响应非计划的业务破坏并降低不良影响。业务连续性管理包括基础数据、应用系统与业务的灾难备份与恢复。服务连续性管理落到云数据中心建设时可以通过以下关键活动进行支撑。

业务持续性管理

高可用架构

高可用和容灾备份是保证服务连续性的关键技术,在热迁移策略中,通过多网监测、多点投票确认等方式,成功避免脑裂等问题。

高可用架构

灾备架构

通过实时双写,存储双活的方式,实现RPO为0的灾备架构。

灾备架构

安全管理

安全管理是为了建设可靠的安全保障体系,实现应用服务及数据调用的安全认证和安全审计,主动的异常数据操作行为的监控分析、预警机制,并提供异常问题的倒查追溯能力。为了更好的保证业务之间的隔离性和安全性,需从三个方面建立安全体系: 技术和服务设施在规定时间内恢复。主要包括:

安全管理

访问安全

访问安全基于身份认证和权限认证来完成。
身份认证是建立统一的用户信息库,为系统提供身份认证服务,只有合法用户才能对信息化系统进行访问;权限认证主要是根据用户身份对其进行权限判断,以决定该用户是否具有访问相应资源的权限。权限认证与统一认证相结合,为信息化系统提供方便、简单的、可靠的授权服务,从而对用户进行整体的、有效的访问控制,保护系统资源不被非法或越权访问,防止信息泄漏。

数据安全

数据安全是对涉密及内部信息系统进行严格的安全防护,对涉密计算机、数据、敏感业务系统采用认证、加密等技术手段进行控制。数据安全主要包括:数据完整性,数据保密性,备份和恢复。
数据完整性:通过循环冗余校验(CRC)以及消息认证码(带密钥的Hash 函数)来保证完整性。
数据保密性:通过传输协议加密以及数据加密来保证保密性。
备份和恢复:对重要信息进行备份,并对备份介质定期进行可用性测试。

操作安全

操作安全是为了防止误操作带来的风险,如删除关键数据造成系统无法正常运行。操作安全可以通过事前预防和事后补救这两方面来保证。
事前预防是通过对关键操作进行多人复核,降低单人误操作机率;
事后补救是通过操作日志来回滚误操作。

服务级别管理

企业不同部门对资源、服务以及业务的需求各不相同。为了保证核心业务可靠性,优化资源利用率,有必要对资源、服务分级管理,根据不同的业务需求,选择不同级别的资源与服务。一般来说,越核心的业务,对资源与服务的要求相应也就越高。

服务级别管理

配置管理

配置管理作为对产品及其开发过程和生命周期进行控制、规范的一系列措施,旨在保证一致性、可追溯性,使产品最大程度的与用户需求相吻合。在云数据中心的建设中,通过对配置管理流程的规范,为业务从规划到下线的全生命周期管理提供详细的依据,最终形成整个企业IT资产报告。关键活动包括基础设施管理、云资源管理(同构、异构),服务版本管理、能力变更管理等。

配置管理

故障管理

故障管理是指在系统出现异常的情况下的管理操作,在出现故障后尽快将系统恢复到正常状态,使故障对系统的影响降到最低,并对故障进行记录分析,进行持续的跟踪,保障服务质量和可用性。
数据中心建设中,故障管理的重要组成部分有监控分析、及时处理、知识库等。 故障管理

通过配置监控对象、指标、监控模板可以灵活的自定义监控内容。结合知识库对故障进行智能分析,如业务影响分析、故障根源分析。 故障管理

发布管理

发布管理是对软硬件上线相关的一系列活动进行组织和管理,包括制定计划、构建和配置、预发布、发布审核、上线等。
云数据中心的建设需要遵循DevOps理念,即开发测试运营一体化,根据应用环境模板,快速生成开发、测试和生产环境。保证多环境一致,降低上线风险。

发布管理

财务管理

企业运营为了做到精细化管理,要求运维部门对各业务系统的资源使用、服务使用进行细粒度计量和计费,尤其在能力开放后,这两点的要求会更高。计费需要结合租户协议、资源和服务的计价策略等来完成。

财务管理

变更管理

变更管理是项目管理中的重要过程之一,变更过程需要通过标准化的手段和流程有效的控制和处理,降低风险。
实施中需要支持包括配置变更(CPU/内存)、网络变更、存储变更时的业务不中断。

最终架构

基于四化的建设理念,以五级规划和八大流程为指导,形成最终安全可靠的云数据中心逻辑架构。

最终架构