3.3. 장애 격리

마이크로서비스 아키텍처(MSA) 환경에서 장애 격리는 시스템의 안정성을 확보하는 데 핵심적인 요소입니다. MSA는 독립적으로 배포되는 여러 서비스가 협력하여 하나의 애플리케이션을 구성하기 때문에, 특정 서비스의 장애가 전체 시스템으로 확산되는 것을 방지하는 메커니즘이 필수적입니다. 서비스 간의 의존성이 높을수록 장애 전파의 위험은 커지므로, 각 서비스의 격리를 통해 시스템의 복원력을 높이는 것이 중요합니다.

MSA에서 장애 격리가 가능한 근본적인 이유는 서비스가 독립적으로 배포되고 운영되기 때문입니다. 각 서비스는 자체적인 프로세스나 컨테이너에서 실행되며, 독립적인 데이터 저장소를 가질 수 있습니다. 이러한 독립성은 특정 서비스에서 장애가 발생하더라도 다른 서비스에는 영향을 미치지 않도록 합니다. 그러나 서비스 간의 호출을 통해 상호작용하는 MSA 환경에서 단순히 서비스를 분리하는 것만으로는 장애를 완전히 격리할 수 없습니다. 네트워크 호출 실패, 서비스 지연 등의 문제로 인해 장애가 전파될 수 있기 때문입니다. 따라서, 장애 격리를 위한 추가적인 패턴과 전략을 적용해야 합니다.

장애 격리 구현을 위한 핵심 메커니즘

MSA 환경에서 장애 격리는 단순 기술 적용이 아닌 분산 시스템의 실패 모델을 사전에 수용하는 설계 철학입니다. 다음은 서비스 간 장애 전파를 차단하고 시스템 복원력을 확보하는 핵심 전략입니다.

1. 서킷 브레이커 패턴 (Circuit Breaker Pattern ): 실패의 사전 차단 및 자동 복구

서킷 브레이커 패턴은 외부 서비스 호출 시 발생하는 장애를 자동으로 감지하고 처리하여 시스템의 안정성을 유지하는 데 사용됩니다. 마치 은 전기 회로의 차단기(breaker)와 유사한 원리를 따르며, 서비스 호출이 실패하면 일정 시간 동안 해당 서비스에 대한 호출을 차단하여 시스템이 연쇄적인 실패에 노출되는 것을 방지합니다. 서킷 브레이커는 다음과 같은 세 가지 상태를 가집니다.

Closed (정상): 서비스 호출이 정상적으로 이루어지는 상태입니다.
Open (차단): 서비스 호출 실패 시, 일정 시간 동안 서비스 호출이 차단된 상태입니다. 이 상태에서는 호출이 즉시 실패 응답을 반환합니다.
Half-Open (반개방): 차단 기간이 만료된 후, 서비스 호출을 한 번 시도하여 복구 여부를 확인하는 상태입니다. 호출 성공 시 Closed 상태로, 실패 시 Open 상태로 되돌아갑니다.

이 패턴은 서비스 간의 의존성으로 인한 장애 전파를 효과적으로 차단하고, 특정 서비스의 장애가 시스템 전체에 미치는 영향을 최소화하여 시스템 안정성을 향상시킵니다.

2. 폴백 전략 (fallback) : 부분 장애 상황에서의 비즈니스 연속성 보장

폴백 전략은 서비스 장애 시에도 시스템이 지속적으로 작동할 수 있도록 지원하는 메커니즘입니다. 외부 서비스 호출 실패 시, 미리 준비된 대안적인 방법으로 사용자에게 기능을 제공합니다. 비록 완벽한 기능은 아닐지라도, 장애 상황에서도 시스템 가용성을 유지하고 사용자 경험을 저하시키지 않는 데 중요한 역할을 합니다. 폴백 전략은 다음과 같은 방법을 포함합니다.

캐시 활용: 서비스 호출 실패 시, 캐시된 데이터를 활용하여 일부 정보를 제공합니다. 데이터 최신성이 중요한 경우에 적합하지 않지만, 자주 변경되지 않는 정보나 빠른 응답 속도가 중요한 경우에는 유용합니다.
기본값 제공: 서비스 실패 시, 미리 설정된 기본값을 사용하여 기능을 제공합니다. 예를 들어, 사용자 프로필 정보 획득에 실패한 경우 기본 프로필 사진이나 이름을 표시할 수 있습니다.
간소화된 기능 제공: 서비스 장애 시, 핵심 기능만 제공하는 간소화된 기능을 제공합니다. 예를 들어, 결제 서비스 장애 시 장바구니 기능은 유지하되, 결제 기능은 일시적으로 비활성화할 수 있습니다.

폴백 전략은 시스템이 장애 상황에서도 최소한의 기능을 유지하여 사용자 경험을 보호하고, 시스템 전반의 안정성을 높이는 데 필수적입니다.

3. 벌크헤드 패턴 (Bulkhead Pattern): 자원 격리를 통한 장애 전파 차단

벌크헤드 패턴은 선박의 격벽처럼 시스템의 각 부분을 격리하여, 한 부분의 장애가 다른 부분으로 확산되는 것을 방지하는 패턴입니다. MSA에서는 서비스 인스턴스, 스레드 풀, 데이터베이스 연결 풀 등을 격리하여 적용할 수 있습니다. 예를 들어, 특정 서비스의 인스턴스 풀을 분리하여 장애 발생 시 다른 서비스에 영향을 주지 않도록 할 수 있습니다. 데이터베이스 연결 풀 분리 또한 특정 서비스의 과도한 부하가 다른 서비스의 데이터베이스 접근을 방해하지 않도록 보호합니다.

장점: 장애 전파를 최소화하고 시스템 전체의 가용성을 향상시킵니다.
적용: 서비스 인스턴스 풀 분리, 스레드 풀 분리, 데이터베이스 연결 풀 분리
고려 사항: 리소스 관리 오버헤드, 초기 설계 시 분리 수준 결정

4. 타임아웃과 재시도 (Timeouts and Retries): 분산 트랜잭션의 시간 제어

서비스 호출 시 적절한 타임아웃 값을 설정하고 실패 시 재시도 메커니즘을 적용하는 것은 MSA 환경에서 장애 격리의 기본입니다. 네트워크 지연이나 일시적인 서비스 장애로 인해 호출이 실패할 수 있으므로, 타임아웃을 설정하여 무한 대기를 방지하고 재시도를 통해 일시적인 문제를 극복할 수 있습니다. 다만, 재시도는 시스템에 과부하를 유발할 수 있으므로, 적절한 재시도 횟수와 간격을 설정해야 합니다.

타임아웃: 서비스 호출 시 최대 대기 시간을 설정하고, 응답이 없을 경우 실패 처리합니다.
재시도: 실패한 서비스 호출을 일정 횟수 또는 간격으로 재시도합니다.
고려 사항: 재시도 횟수와 간격 설정, 멱등성 보장 (동일한 요청을 여러 번 보내더라도 결과가 같아야 함)

5. 백오프 (Backoff)

재시도 정책과 함께 사용되는 백오프는 재시도 간격을 점진적으로 늘려가는 방식입니다. 서비스 장애가 지속되는 상황에서 너무 자주 재시도하면 시스템에 과부하가 발생할 수 있습니다. 백오프는 지수 백오프, 랜덤 백오프 등 다양한 방식으로 구현할 수 있으며, 장애 복구 시간을 확보하고 시스템 부하를 줄이는 데 도움을 줍니다.

지수 백오프: 재시도 간격을 지수적으로 증가시킵니다.
랜덤 백오프: 재시도 간격에 랜덤한 값을 추가하여 여러 클라이언트가 동시에 재시도하는 것을 방지합니다.
고려 사항: 백오프 알고리즘 선택, 초기 간격 설정

6. 데드라인 전파 (Deadline Propagation): 분산 트랜잭션의 시간 제어

MSA 환경에서 서비스 호출 체인은 깊어질 수 있습니다. 데드라인 전파는 최상위 서비스에서 설정된 데드라인을 하위 서비스로 전달하여, 특정 서비스 호출이 너무 오래 걸릴 경우 연쇄적인 장애를 방지하는 데 도움을 줍니다. 각 서비스는 자신의 데드라인을 인지하고, 이를 초과하면 실패 처리하여 시스템 전체의 응답 시간을 보장할 수 있습니다.

원리: 최상위 서비스에서 설정된 데드라인을 하위 서비스로 전달합니다.
효과: 서비스 호출 체인에서 과도한 지연을 방지하고 응답 시간을 보장합니다.
고려 사항: 데드라인 전파 방식, 데드라인 설정

이러한 메커니즘들을 통해 MSA 환경에서 발생할 수 있는 다양한 장애 상황에 효과적으로 대응하고, 시스템의 안정성과 복원력을 높일 수 있습니다.

이 책에서는 이러한 장애 격리 메커니즘을 구현하는 데 필요한 기술적인 세부 사항과 다양한 시나리오에서 어떻게 적용할 수 있는지에 대해 심층적으로 다룰 것입니다. 독자들은 실제 MSA 환경에서 장애를 효과적으로 격리하고 안정적인 시스템을 구축하는 데 필요한 지식과 기술을 습득할 수 있을 것입니다.

- 장애 격리 구현을 위한 핵심 메커니즘

MSAP.ai eBooks

이제 나도 MSA 전문가: 개념부터 실무까지