2.4.3. 비동기 메시징 (Kafka, RabbitMQ)

마이크로서비스 아키텍처의 핵심, 비동기 메시징 시스템

MSA의 핵심은 각 서비스가 자율적으로 동작하면서도 전체 시스템의 기능을 제공하는 데 있습니다. 이러한 서비스들은 서로 협력해야 하는데, 이때 동기적인 호출 방식은 서비스 간의 결합도를 높이고 시스템의 확장성과 안정성을 저해할 수 있습니다. 바로 이러한 이유 때문에, MSA에서 비동기 메시징 시스템은 핵심적인 역할을 수행합니다.

비동기 메시징 시스템이란?

비동기 메시징 시스템은 서비스를 발행자(Publisher)와 구독자(Subscriber)로 분리하고, 메시지 브로커라는 중간 매개체를 통해 메시지를 전달하는 방식입니다. 발행자는 메시지 브로커에 메시지를 발행하고, 메시지 브로커는 메시지를 저장하고 구독자에게 전달합니다. 구독자는 메시지 브로커로부터 메시지를 받아 처리합니다. 발행자와 구독자는 직접적으로 통신하지 않으며, 메시지 브로커를 통해 비동기적으로 통신합니다. 이러한 방식은 서비스 간의 결합도를 낮추고 시스템의 유연성을 높여줍니다.

MSA에서 비동기 메시징 시스템이 필요한 이유

비동기 메시징 시스템은 메시지 브로커(Message Broker)를 통해 생산자(Producer)와 소비자(Consumer)를 분리합니다. 생산자는 메시지를 브로커에 발행(Publish)하고, 소비자는 브로커로부터 메시지를 구독(Subscribe)하여 처리합니다. 이 과정에서 메시지 큐(Queue) 또는 토픽(Topic)은 중간 버퍼 역할을 하며, 통신의 타이밍과 부하를 분리합니다.

MSA에서 비동기 메시징 시스템이 필수적인 이유는 다음과 같습니다:

서비스 간 결합도 최소화: 동기적인 호출 방식은 한 서비스가 다른 서비스의 응답을 기다려야 하므로, 서비스 간의 의존성이 높아집니다. 반면, 비동기 메시징 시스템은 메시지를 발행하고 구독하는 방식으로 서비스를 느슨하게 결합합니다. 메시지를 발행하는 서비스는 메시지가 전달되는 것만 보장하고 응답을 기다릴 필요가 없으며, 메시지를 구독하는 서비스는 필요에 따라 메시지를 처리합니다. 이러한 느슨한 결합은 서비스의 독립적인 개발, 배포, 확장을 용이하게 합니다.

확장성 향상: 비동기 메시징 시스템은 서비스가 메시지를 처리하는 속도에 따라 자동으로 확장될 수 있도록 해줍니다. 특정 서비스의 부하가 증가하면 해당 서비스의 구독자 수를 늘려 메시지 처리 속도를 높일 수 있습니다. 또한, 메시지 브로커는 메시지를 저장하고 관리하므로, 서비스가 일시적으로 중단되더라도 메시지를 유실하지 않고 복구할 수 있습니다.

장애 격리(Fault Isolation): 비동기 메시징 시스템은 메시지 큐를 사용하여 서비스가 일시적으로 다운되더라도 메시지를 보관합니다. 따라서 서비스 장애가 발생해도 시스템 전체가 중단되는 것을 방지할 수 있습니다. 또한, 장애 발생 시 재시도, 데드 레터 큐(DLQ) 등을 관리하여 메시지 전달을 보장하므로 장애 전파를 차단합니다.

이벤트 기반 아키텍처(Event-Driven Architecture) 지원: 복잡한 시스템에서는 여러 서비스가 동시에 상호 작용해야 합니다. 비동기 메시징 시스템은 이러한 복잡한 상호 작용을 효율적으로 관리하고 각 서비스가 자신의 역할에 집중할 수 있도록 도와줍니다.

MSA 에서 Kafka 역할과 구축 사례

Kafka는 MSA 환경에서 발생하는 복잡한 데이터 흐름을 관리하고 실시간 데이터 처리를 지원하는 데 중요한 역할을 합니다. 높은 처리량, 확장성, 실시간 스트리밍 기능, 데이터 저장 및 복구 기능 등은 Kafka를 MSA의 핵심 구성 요소로 만들었습니다.

MSA에서 Kafka가 중요한 이유

- 높은 처리량과 확장성: MSA 환경에서는 수많은 서비스들이 동시에 데이터를 생성하고 처리합니다. 이러한 환경에서 Kafka는 분산 아키텍처, 파티셔닝, 데이터 복제 등의 기능을 통해 높은 처리량과 확장성을 제공합니다. 각 서비스는 독립적으로 데이터를 생성하고 Kafka 토픽에 발행하며, 다른 서비스들은 필요에 따라 해당 토픽에서 데이터를 소비합니다. 이러한 구조는 서비스 간의 의존성을 줄이고 전체 시스템의 안정성과 성능을 높입니다.

- 실시간 데이터 스트리밍: MSA는 실시간 데이터 처리를 요구하는 경우가 많습니다. 예를 들어, 사용자 활동 분석, 실시간 추천, 사기 감지 등은 모두 실시간으로 데이터를 처리해야 합니다. Kafka는 이러한 실시간 데이터 스트리밍에 최적화되어 있습니다. Kafka는 메시지를 순서대로 처리하고, 메시지를 디스크에 저장하여 데이터 유실을 방지하며, 여러 소비자 그룹이 동일한 데이터를 동시에 처리할 수 있도록 지원합니다.

- 이벤트 기반 아키텍처의 핵심 요소: MSA는 종종 이벤트 기반 아키텍처(EDA)와 결합됩니다. 이벤트 기반 아키텍처에서는 서비스 간의 상호 작용이 이벤트 형태로 이루어지며, 각 서비스는 특정 이벤트를 구독하고 해당 이벤트가 발생하면 반응합니다. Kafka는 이벤트 메시지를 저장하고 관리하는 데 적합하며, 이벤트 브로커로서 중요한 역할을 수행합니다. 서비스는 Kafka 토픽에 이벤트를 발행하고, 필요한 서비스들은 해당 토픽을 구독하여 이벤트를 처리합니다. 이러한 구조는 서비스 간의 느슨한 결합을 유지하고 시스템의 유연성을 향상시킵니다.

- 데이터 저장소 및 재처리: Kafka는 메시지를 디스크에 저장하므로 데이터를 영구적으로 보관할 수 있습니다. 따라서 서비스가 일시적으로 중단되거나 오류가 발생하더라도 메시지를 유실하지 않고 재처리할 수 있습니다. 또한, Kafka에 저장된 데이터를 활용하여 데이터 분석, 감사, 추적 등의 다양한 용도로 활용할 수 있습니다. 이러한 기능은 MSA 환경에서 데이터의 안정성과 신뢰성을 보장하는 데 중요한 역할을 합니다.

MSA를 설계하고 개발할 때 Kafka를 고려하는 것은 시스템의 성능과 확장성을 향상시키는 데 매우 중요한 요소가 될 것입니다.

넷플릭스, 링크드인, 우버와 같은 기업들은 Kafka를 성공적으로 적용하여 서비스 품질을 개선하고 비즈니스 성장을 달성했습니다.

넷플릭스 (Netflix): 넷플릭스는 Kafka를 실시간 스트리밍 데이터 파이프라인의 핵심 요소로 사용합니다. 사용자의 스트리밍 활동, 장치 정보, 성능 지표 등의 데이터를 Kafka로 수집하고 실시간으로 처리합니다. 이러한 데이터를 바탕으로 사용자 경험을 개선하고 콘텐츠 추천 시스템을 고도화합니다. 넷플릭스는 Kafka의 높은 처리량과 확장성을 활용하여 수많은 사용자의 스트리밍 활동 데이터를 실시간으로 처리할 수 있었습니다.

- 대규모 스트리밍 데이터 처리 요구: 넷플릭스는 대규모 스트리밍 데이터를 실시간으로 처리해야 했으며, Kafka는 이러한 요구사항을 충족시켰습니다.

- 유연한 아키텍처: Kafka는 다양한 데이터 소스와 시스템에 통합될 수 있으며, 넷플릭스는 이를 통해 유연한 데이터 파이프라인을 구축할 수 있었습니다.

- 확장성: Kafka는 넷플릭스의 성장과 함께 확장될 수 있었으며, 지속적으로 증가하는 데이터 처리 요구사항을 충족시켰습니다.

링크드인 (LinkedIn): 링크드인은 Kafka를 실시간 이벤트 스트리밍 플랫폼으로 사용하여 다양한 서비스 간의 데이터를 공유합니다. 사용자 활동 데이터, 게시물 데이터, 검색 데이터 등을 Kafka로 수집하고 처리하여 사용자에게 맞춤형 콘텐츠와 서비스를 제공합니다. 또한, 링크드인은 Kafka를 기반으로 데이터 분석 및 머신러닝 시스템을 구축하여 비즈니스 인사이트를 도출하고 있습니다.

- 다양한 서비스 간의 데이터 공유: 링크드인은 Kafka를 통해 다양한 서비스 간에 데이터를 효율적으로 공유하고 통합할 수 있었습니다.

- 실시간 데이터 분석: Kafka의 실시간 처리 능력을 활용하여 링크드인은 사용자 데이터를 실시간으로 분석하고 서비스 개선에 활용할 수 있었습니다.

- 유연한 확장성: 링크드인은 지속적으로 성장하는 사용자 기반에 맞춰 Kafka를 확장하여 데이터 처리량을 늘릴 수 있었습니다.

우버 (Uber): 우버는 Kafka를 실시간 데이터 파이프라인으로 사용하여 운전자와 승객의 위치 정보, 주문 정보, 결제 정보 등을 실시간으로 처리합니다. Kafka는 우버의 핵심 서비스인 매칭, 실시간 지도, 결제 등 다양한 시스템에 데이터를 제공하여 원활한 서비스 운영을 지원합니다. 또한, 우버는 Kafka를 사용하여 실시간으로 데이터 분석을 수행하고 서비스 품질을 개선합니다.

- 실시간 위치 정보 처리: 우버는 실시간 위치 정보를 처리해야 했으며, Kafka는 이러한 요구사항을 충족시켰습니다.

- 분산 시스템과의 통합: Kafka는 우버의 다양한 분산 시스템과 통합되어 실시간 데이터 흐름을 원활하게 만들었습니다.

- 높은 신뢰성: Kafka는 데이터 유실 없이 안정적으로 데이터를 전달하여 우버의 서비스 신뢰성을 높였습니다.

MSA 에서 RabbitMQ 역할과 구축 사례

RabbitMQ는 MSA 환경에서 다양한 메시징 패턴을 지원하고 메시지 전달의 안정성을 보장하여 서비스 간의 원활한 상호작용을 가능하게 하는 중요한 역할을 합니다. 스프링 클라우드, 다양한 백오피스 시스템, 복잡한 이벤트 기반 시스템 등 다양한 환경에서 RabbitMQ는 시스템의 유연성과 안정성을 높이는 데 크게 기여하고 있습니다.

MSA에서 RabbitMQ가 중요한 이유

- 다양한 메시징 패턴 지원: RabbitMQ는 Pub/Sub(Publish/Subscribe), Point-to-Point(Queue), Request/Response 등 다양한 메시징 패턴을 지원합니다. 이러한 유연성은 MSA 환경에서 다양한 통신 요구사항을 충족시킬 수 있게 해줍니다. 예를 들어, 특정 이벤트 발생을 여러 서비스에 알릴 때는 Pub/Sub 패턴을 사용하고, 특정 서비스에 작업을 요청하고 응답을 받을 때는 Request/Response 패턴을 사용할 수 있습니다. 이러한 유연성은 각 서비스의 요구사항에 맞는 최적의 통신 방식을 선택할 수 있도록 해줍니다.

- 메시지 라우팅 기능: RabbitMQ는 메시지 라우팅 기능을 제공하여 메시지를 특정 구독자에게 전달할 수 있습니다. 이는 복잡한 MSA 환경에서 매우 중요한 기능입니다. 예를 들어, 주문 시스템에서 생성된 주문 이벤트를 특정 지역의 창고 서비스에만 전달하거나, 특정 유형의 결제 이벤트만 결제 서비스로 라우팅할 수 있습니다. 이러한 라우팅 기능은 시스템의 복잡성을 줄이고 효율적인 메시지 전달을 가능하게 합니다.

- 메시지 전달 보장: RabbitMQ는 메시지 전달을 보장하는 다양한 옵션을 제공합니다. 메시지 지속성, 메시지 확인(acknowledgement), 재전송 메커니즘 등을 통해 메시지 유실을 최소화하고 시스템의 안정성을 높입니다. MSA 환경에서는 다양한 서비스들이 비동기적으로 통신하므로, 메시지 전달의 안정성은 매우 중요합니다. RabbitMQ는 이러한 메시지 전달의 신뢰성을 보장하여 서비스 간의 원활한 협업을 가능하게 합니다.

- 간편한 설정과 사용: RabbitMQ는 비교적 간단한 설정과 사용법을 제공하여 개발자가 쉽게 익히고 사용할 수 있습니다. 이는 MSA 환경에서 각 서비스가 독립적으로 개발되고 배포되어야 하는 상황에서 매우 중요한 장점입니다. 개발자는 RabbitMQ를 쉽게 통합하여 서비스를 구현할 수 있으며, 복잡한 메시징 로직을 RabbitMQ에 위임하여 개발 생산성을 높일 수 있습니다.

RabbitMQ는 이러한 MSA 환경에서 다양한 메시징 패턴을 지원하고 메시지 전달의 안정성을 보장하여 서비스 간의 원활한 상호작용을 가능하게 하는 중요한 역할을 수행합니다. 특히, 복잡한 비즈니스 로직과 다양한 통신 요구사항을 가진 MSA 환경에서 RabbitMQ의 유연성과 안정성은 시스템의 전체적인 성공에 크게 기여합니다.

스프링 (Spring) 클라우드 기반의 MSA: 스프링 클라우드는 RabbitMQ를 통합하여 MSA 환경에서 서비스 간의 통신을 간소화하고 안정성을 높입니다. 스프링 클라우드 스트림, 스프링 클라우드 메시징 등의 기능을 통해 RabbitMQ를 사용하여 다양한 메시징 패턴을 쉽게 구현할 수 있습니다. 예를 들어, 스프링 클라우드 스트림은 RabbitMQ를 기반으로 메시지 처리를 위한 추상화 레이어를 제공하여 개발자가 메시지 브로커에 대한 지식 없이도 쉽게 메시징 시스템을 구축할 수 있도록 합니다.

- MSA를 위한 간편한 통합: 스프링 클라우드는 RabbitMQ와의 통합을 간소화하여 개발자들이 쉽게 메시징 시스템을 구축할 수 있도록 합니다.

- 다양한 메시징 패턴 지원: 스프링 클라우드는 RabbitMQ의 다양한 메시징 패턴을 지원하여 MSA 환경에서 다양한 통신 요구사항을 충족시킬 수 있도록 합니다.

- 개발 생산성 향상: 스프링 클라우드와 RabbitMQ의 조합은 메시징 로직을 추상화하여 개발자가 비즈니스 로직에 집중할 수 있도록 지원하여 개발 생산성을 높입니다.

MSA 환경에서 Kafka vs RabbitMQ 비교

마이크로서비스 아키텍처(MSA) 환경에서 메시징 시스템 선택은 시스템의 성능, 확장성, 안정성, 그리고 개발 및 운영 복잡성에 직접적인 영향을 미칩니다. Kafka와 RabbitMQ는 대표적인 비동기 메시징 시스템이지만, 각각의 특징과 강점이 다르므로 MSA의 구체적인 요구사항을 고려하여 적절한 시스템을 선택해야 합니다. 기존 비교표에 MSA 환경에서 반드시 고려해야 할 사항들을 추가하여 더욱 심층적인 비교를 제공하고자 합니다.

장애 허용성(Fault Tolerance) 및 복구 메커니즘
- 서비스 장애 시 데이터 유실 방지와 신속한 복구는 시스템 신뢰성의 핵심입니다.
- Kafka: 이벤트 소싱/재생 기능으로 상태 복구에 유리 (예: 주문 서비스 트랜잭션 롤백)
- RabbitMQ: 실시간 메시지 전달 보장에 초점 (예: 결제 완료 알림).

기준	Kafka	RabbitMQ
장애 복구	파티션 복제(Replication)를 통해 리더 장애 시 자동 페일오버. 데이터 유실 없이 고가용성 보장.	미러링된 큐(Mirrored Queues)로 장애 시 큐 복제본 활성화. 단, 클러스터 구성이 복잡하며 성능 저하 가능성 있음.
메시지 재처리	오프셋(Offset) 기반 컨트롤로 정확한 재처리 가능. 장기 저장된 데이터로 재생(Replay) 지원.	소비 확인(ACK) 메커니즘으로 전달 보장. 단, 메시지 보존 기간이 짧아 재처리 범위 제한적.

데이터 일관성과 트랜잭션 지원
- 분산 서비스 간 데이터 일관성은 Saga 패턴 구현의 기반입니다.
- Kafka: 이벤트 기반의 비동기 일관성 유지 (예: 재고 감소 → 주문 완료 이벤트 연쇄)
- RabbitMQ: 단일 큐 내 작업의 순차적 처리에 적합 (예: 사용자 포인트 적립 순서 보장)

기준	Kafka	RabbitMQ
트랜잭션 지원	Exactly-Once Semantics(EOS) 지원 (v0.11 이상). 다중 파티션 트랜잭션 가능.	기본적 트랜잭션 미지원. Publisher Confirms와 Consumer ACK로 유사 구현 가능.
일관성 모델	강한 순서 보장(파티션 내) + 최종 일관성.	큐 단위 순서 보장. 다중 큐 간 순서 불확실.

프로토콜 및 생태계 통합
- 다양한 서비스의 통합을 위해 프로토콜 호환성과 도구 지원이 필수적입니다.
- Kafka: 데이터 레이크, 빅데이터 분석과의 연동에 강점 (예: Clickstream 데이터 수집 → 실시간 대시보드)
- RabbitMQ: 레거시 시스템과의 통합에 유리 (예: AMQP 기반 메인프레임 연동)

기준	Kafka	RabbitMQ
프로토콜	자체 바이너리 프로토콜 (TCP 기반). HTTP/REST 프록시(Confluent)로 확장 가능.	AMQP 0.9.1 표준 지원. MQTT, STOMP 플러그인으로 확장.
생태계	Kafka Connect(데이터 파이프라인), Kafka Streams(스트림 처리).	관리 UI, 플러그인(예: Shovel, Federation)으로 유연한 운영.

운영 복잡성과 모니터링
- 다수의 서비스가 메시징 시스템에 의존할 경우, 운영 오버헤드는 전체 시스템 안정성을 좌우합니다.
- Kafka: 대규모 트래픽 처리에 최적화되나, 전문 DevOps 리소스 필요.
- RabbitMQ: 중소규모 환경에서 빠른 구성 가능.

기준	Kafka	RabbitMQ
모니터링	JMX 메트릭 + Prometheus/Grafana 연동. Burrow로 컨슈머 랙 감지.	관리 UI 제공. Prometheus 플러그인으로 큐 상태 추적 가능.
운영 비용	ZooKeeper 의존성으로 클러스터 관리 복잡. 파티션 리밸런싱 시 Downtime 주의.	클러스터 구성 간소화 가능. 단, 미러링된 큐 관리 시 성능 모니터링 필수.

확장 전략과 리소스 효율성
- 서비스 증가에 따른 트래픽 변동성을 수용하려면 탄력적 확장이 필수입니다.
- Kafka: 이벤트 스트리밍 기반의 대용량 처리 (예: IoT 디바이스 데이터 수집)
- RabbitMQ: 실시간 작업 분배에 특화 (예: 주문 처리 병렬화)

기준	Kafka	RabbitMQ
수평 확장	파티션 추가로 처리량 선형 확장 가능. 단, 파티션 수 변경 시 재조정 필요.	큐 단위 샤딩으로 확장. 클러스터 간 Federation 플러그인 사용.
리소스 사용	디스크 I/O 집중. SSD 권장. 메모리 캐시 활용 효율적.	메모리 기반 동작. 대량 메시지 적재 시 GC 영향 주의.

Kafka는 데이터 중심의 이벤트 드리븐 아키텍처에 필수적입니다. 대량의 스트리밍 데이터와 재처리 기능이 필요할 때, 또는 이벤트 소싱을 활용한 시스템 복구가 중요한 경우 선택합니다.
RabbitMQ는 실시간 작업 조정과 복잡한 라우팅이 요구될 때 유리합니다. 우선순위 큐, RPC over Messaging, 레거시 시스템 통합 등 즉각적인 메시지 전달이 핵심인 시나리오에 적합합니다.

MSA에서 메시징 시스템은 단순 통신 채널이 아닌 분산 트랜잭션의 중추입니다. 아키텍트는 데이터 보존 정책, 일관성 수준, 운영 리소스 등을 종합적으로 평가해 선택해야 합니다.

결론

MSA에서 비동기 메시징 시스템은 서비스 간 결합도를 낮추고 시스템의 확장성과 안정성을 높이는 데 필수적입니다. Kafka와 RabbitMQ는 대표적인 비동기 메시징 시스템으로, 각각의 특징과 장단점을 이해하고 시스템의 요구사항에 맞게 적절한 메시징 시스템을 선택해야 합니다. Kafka는 높은 처리량과 실시간 데이터 처리에 적합하며, RabbitMQ는 다양한 메시징 패턴과 메시지 라우팅을 지원합니다. 본 장에서 설명한 내용을 바탕으로 MSA를 위한 비동기 메시징 시스템을 설계하고 구현하는 데 도움이 되기를 바랍니다.

마이크로서비스 아키텍처의 핵심, 비동기 메시징 시스템
결론

MSAP.ai eBooks

이제 나도 MSA 전문가: 개념부터 실무까지