Various life as a Person: June 2015

2015-06-18

고가용 클러스터

고가용 클러스터

(HA cluster : High Availavility Cluster)

클러스터의 구분

고성능 클러스터

고가용 클러스터

고가용 클러스터의 목적

MTBF (Mean Time Between Failure): 평균장애 간격

MTTR (Mean Time To Repair):평균 장애 복구 시간

가동률(신뢰도)

고가용 클러스터의 레벨

고가용 클러스터의 복제 방법

HA 이중화 자원

Active - Standby

Active - Active

클러스터의 구분

전통적 컴퓨팅에서 클러스터 (Cluster) 는 복수의 컴퓨터가 하나의 시스템(SSISingleSystemImage)처럼 동작하게하는 하나의 집합을 의미.

고성능 클러스터

"작업 부하 분산"(Load-Balancing) 클러스터라고도 하며 시스템의 성능을 향상 시키기 위해 클러스터 내의 각 노드가 병렬로 정보를 처리하도록 구성된 시스템을 의미.

고가용 클러스터

시스템의 가용성을 높이기 위한 클러스터 이며, 클러스터를 구성하는 노드에 장애가 발생한 경우, 장애 노드의 역할을 다른 노드가 이어받아(fail-over) 동작하는 시스템을 의미.

고가용 클러스터의 목적

일반적으로 IT 서비스를 제공하는 기업의 기간 시스템은 1년 365일 24시간 동안 쉬지 않고 가동되어야 하기 때문에 99.99%에 이르는 높은 가동률이 요구된다.

HA는 기업이 자사가 제공하는 서비스가 자연 재해 , 정전 혹은 관리자의 실수로 인하여 중지 하였을때 발생하는 모든 장애시에 이를 빠르게 복구하여, 사용자로 하여금 가능한 빠르게 서비스를 다시 제공 할 수 있도록 한다.

MTBF (Mean Time Between Failure): 평균장애 간격

시스템을 가동하여 장애가 발생한 시점 까지의 평균 시간을 의미

MTTR (Mean Time To Repair):평균 장애 복구 시간

시스템에 장애 발생후 복구가 완료된 시점 까지의 평균 시간을 의미

가동률(신뢰도)

가동률 = MTBF / ( MTBF + MTTR )

ex) 99.99%의 일년 정지 시간은 약 53분

고가용 클러스터의 레벨

유형	설명	RTO	RTO	장점	단점
Mirror Site	주 센터와 동일한 시스템 구성 재해시 즉시 업무 대행 가능 재해발생 시점까지 데이터 유실 없이 복구 가능 많은 구축비용 소요	실시간 (이론적)	실시간 (이론적)	데이터 정합성 높은 안정성 신속한 업무재개	높은 초기투자비용 높은 유지보수 비용 데이터의 업데이트가 많은 경우에는 N/W 비용증가
Hot Site	주 센터와 동일한 수준의 정보기술자원을 원격지에 구축 주 센터 재해시 원격지시스템을 사용 데이터는 동기/비동기 방식으로 실시간 미러링	~ 수시간	실시간 (이론적)	데이터의 정합성 높은 안정성 신속한 업무재개 데이터의 업데이트가 많은 경우에 적합	높은 초기 투자비용 높은 유지보수 비용
Warm Site	중요성이 높은 정보기술자원만 부분적으로 재해복구센터에 보유 데이터는 주기적(약 수시간~ 1일)으로 백업	수일 ~ 수주	수시간 ~ 수일	구축 및 유지비용이 Hot Site에 비해 저렴	데이터 손실발생 가능성 초기 복구수준이 부분적임 복구소요시간이 비교적 길다.
Cold Site	데이터만 원격지에 보관하고,이의 서비스를 위한 정보자원은 확보되지 않거나 장소 등 최소한으로 확보 재해시 백업 데이터를 근간으로 필요한 정보자원을 조달하여 정보시스템의 복구 개시 주 센터의 데이터는 주기적(수일~수주) 으로 원격지 백업	수주 ~ 수개월	수주 ~ 수개월	구축 및 유지비용이 가장 저렴	데이터 손실 발생 가능성 복구에 매우 긴 시간이 필요 복구 신뢰성이 낮음

RTO : 복구소요시간
RPO : 복구시점시간

고가용 클러스터의 복제 방법

방식	솔루션	장점	단점
S/W 방식	TCP/IP등 네트워크를 통한 [비]동기방식 지원	스토리지 종류에 상관 없이 지원 비동기 방식이므로 DWDM등의 고용량 회선의 불필요 구성이 용이 함, 다양한 서버 지원 Internal Disk, SCSI Disk의 데이터도 지원	약 3% 미만의 CPU 사용 (부하) 서버별 설치 필요
H/W방식	raid와 같은 하드웨어구성을 통해 복제	구성이 가장 용이함 동기 방식이므로 다운타임 최소화 서버에 부하 없음 서버의 종류에 상관없음 (*. 스토리지 종류 및 개수가 단순 한 환경에서 유리)	동종 벤더 스토리지만 지원 (IBM to IBM, EMC to EMC) - 동일 벤더 스토리지 구성 필요 고용량 DWDM 회선의 필요 고비용

HA 이중화 자원

HA 를 위하여 이중화 하는 자원(리소스)는, 기업이 서비스를 제공하기 위해 필요한 시스템의 전반적인 구성(H/W, S/W)를 의미한다.

자원 분류	자원	목적	비고
Network	네트워크 카드	서비스를 제공하는 네트워크 망에 연결된 NIC 카드의 결함여부를 감시, 이중화 하기 위하여 구성.	eth11
Network	IP주소	실제 기업의 서비스를 제공하기 위한 시스템의 IP 주소, 문제 발생시 다른 IP 주로는 fail-over하여 서비스의 연속성을 보장기 위하여 구성한다.	VIp, IPv6
Memory	Application Memory	fail-over시에도 application의 실시간 가동과 데이터의 일관성을 감지 하기 위해 구성.
Memory	OS Memory	서비스 제공중인 호스트의 장애에 대하여 , fail-over된 호스트의 os가 동일한 데이터로 정상동작 하기 위해 구성
Disk	Local Disk	어플리케이션 및 os가 사용하는 데이터의 일관성을 보장하기 위해 구성한다.
	Storage	공유 디스크에 연속된 동시 접속을 감시/ 제어 하기 위하여 구성.
	Volume	물리적/ 논리적 볼륨을 감시, 볼륨 내부에서 데이터의 일관성을 보장하기 위하여 구성
Data	Application	프로그램의 동작을 감시, 재시작및 fail-over하기 위하여 구성	web, java
Data	DB	데이터 베이스에서 사용하는 테이블 정보의 일관성을 보장하기 위하여 구성.	oracle

HA 전략

Active - Standby

Active - Active

ha용어

node : 클러스터를 구성하는 하나 이상의 프로세서를 가지는 장치를 나타내는 단위.
fail-over : 서비스 제공되는 시스템에 장애 발생시, 대기 서버로 서비스를 온라인 시켜주는 동작.
fail-back : 대기서버에서 가동되던 서비스를, 활성 서버가 복구된후 다시 활성 서버에 서비스를 넘겨주는 동작.
Raid : Redundant array of inexpensive disks 의 약어로 물리적 disk를 복제하는 디스크 들의 집합을 의미한다.

Subscribe to: Posts (Atom)