Blog
OpenAI 쿠버네티스로 AI 인프라 구축 사례 발표
OpenAI의 쿠버네티스를 활용한 AI 인프라 구축 사례를 소개합니다. 확장성과 효율성을 극대화하는 최신 AI 인프라 전략을 확인하세요.
2025년 01월 31일
Building the Infrastructure that Powers the Future of AI (YouTube)
이 비디오는 2017년 4월 6일에 발표된 ‘Building the Infrastructure that Powers the Future of AI’라는 제목의 키노트 발표입니다.
주요 내용은 오픈AI가 Kubernetes를 활용하여 인공지능 연구를 위한 인프라를 구축하는 과정을 다루고 있으며, 클라우드 네이티브 생태계의 발전과 AI 기술의 통합에 대한 통찰을 제공합니다.
연구실에서 딥러닝을 활용한 인프라 구축이 스타트업과 어떻게 다른지를 논의하며 대규모 배치 작업과 연구 프로토타입 탑재의 중요성을 강조합니다.
안정적인 AI 실험 재현을 위해 세밀한 구성 관리가 필요하며, Kubernetes의 API를 통해 복잡성을 간소화하고 사용자가 쉽게 실험을 실행할 수 있도록 합니다.
마지막으로, Kubernetes의 유용성과 향후 발전 가능성에 대한 기대감을 표현하며, 인공지능 기술의 민주화를 위한 헌신을 재확인하는 내용이 담겨 있습니다.
비디오 링크는 YouTube에서 확인할 수 있으며, 관련된 자료와 발표 내용은 KubeCon 공식 웹사이트에서도 찾아볼 수 있습니다.
OpenAI의 정체성과 목표
![OpenAI의 정체성과 목표 OpenAI의 정체성과 목표](https://www.msap.ai/wp-content/uploads/2025/01/blog-openai-k8s-case-01.webp)
- OpenAI는 비영리 인공지능 연구 기관으로, 주로 기초 연구와 딥러닝에 집중한다.
- 연구 프로젝트의 예로 로봇공학과 비디오 게임 학습이 포함된다.
- 비영리 기관으로서 AI 기술의 민주화를 사명으로 삼고 있으며, 오픈 소스 소프트웨어에 깊은 관심을 가진다.
- 오픈 소스 커뮤니티에서 기술을 받아들이고, 기여하는 것을 중시한다.
연구실을 위한 인프라 구축의 차별성
![연구실을 위한 인프라 구축의 차별성 연구실을 위한 인프라 구축의 차별성](https://www.msap.ai/wp-content/uploads/2025/01/blog-openai-k8s-case-02.webp)
- 연구실의 인프라는 대규모 배치 작업으로, 작업 시간이 몇 시간에서 몇 주까지 걸리는 경우가 많으며, 때로는 수만 개의 복사본을 실행하기도 한다.
- 이러한 인프라는 특정 리소스 요구사항을 충족해야 하며, GPU 클러스터와 같은 특수 하드웨어를 구성해야 한다.
- 연구에서의 프로토타입 단계가 상대적으로 긴 시간을 차지하며, 따라서 유지보수보다 새로운 아이디어의 실험을 중시한다.
- 실험의 일관성을 유지하기 위해 인프라는 유연하고 쉽게 재구성 가능해야 하며, 이는 연구자들이 복잡함 없이 실험을 수행할 수 있도록 돕기 위함이다.
- 작은 팀으로 인해 운영 복잡성을 최소화하고, 시스템이 기본적으로 작동하도록 하는 것이 목표이다.
AI 연구에서 있어서 Kubernetes를 통한 인프라 구축의 중요성
![AI 연구에서 있어서 Kubernetes를 통한 인프라 구축의 중요성 AI 연구에서 있어서 Kubernetes를 통한 인프라 구축의 중요성](https://www.msap.ai/wp-content/uploads/2025/01/blog-openai-k8s-case-03.webp)
- Kubernetes는 다양한 클라우드 제공업체와 물리적 하드웨어를 포함한 클러스터에서 인프라를 잘 관리할 수 있도록 도와준다. 여기서는 4,000개의 노드까지 확장하여 큰 결함 없이 작업을 수행했다.
- 인프라를 내부 제품으로 취급하는 것이 핵심이며, 이로 인해 사용자에게 일관되고 이해하기 쉬운 UI를 제공해야 한다.
- Kubernetes API는 인프라 팀이 최종 사용자인 연구자들에게 제공하는 주요 서비스 레이어로 기능하고, 이를 통해 다양한 실험 구성 요소를 통합할 수 있다.
- 새로운 연구 아이디어는 처음에 단일 파드로 시작하지만, 더 복잡한 문제를 해결하기 위해 고속의 트레이닝과 여러 실험을 진행해야 하는 필요성이 커진다.
- 특히, 아이디어의 가능성을 확인했을 경우 여러 복사본과 함께 다양한 실험을 실행하는 과정이 중요해진다. 이는 결과적으로 효율적인 병렬화를 필요로 한다.
실험 확장을 위한 Kubernetes 활용 사례
![실험 확장을 위한 Kubernetes 활용 사례 실험 확장을 위한 Kubernetes 활용 사례](https://www.msap.ai/wp-content/uploads/2025/01/blog-openai-k8s-case-04.webp)
- 오픈AI는 Universe 플랫폼을 통해 1,000개 이상의 비디오 게임에서 AI 에이전트를 훈련시키며 다양한 게임을 선택하여 데이터를 활용하고 있다.
- 처음에는 단순한 컨테이너 설정으로 시작하지만, 복잡한 게임에서는 에이전트가 학습하는 데 오랜 시간이 걸려 병렬 훈련으로 전환해야 할 필요성이 있다.
- TensorFlow 파라미터 서버를 통해 여러 에이전트가 개별적으로 게임을 진행하며 훈련을 확대할 수 있는 구조를 마련하였다.
- 그러나 복잡한 게임은 CPU 성능 문제를 야기하게 되어, 이를 해결하기 위해 별도의 호스트에서 실행하게 하고 각 에이전트가 네트워크를 통해 상호작용하도록 변경했다.
- 연구자들은 성공적인 알고리즘을 찾기 위해 급격한 확장이 필요하며, 이로 인해 클러스터의 크기를 동적으로 조정해야 하는 상황이 발생한다.
오토스케일링 구현 및 필요성
![오토스케일링 구현 및 필요성 오토스케일링 구현 및 필요성](https://www.msap.ai/wp-content/uploads/2025/01/blog-openai-k8s-case-05.webp)
- 오토스케일러는 클러스터의 상태 정보를 수집하여 현재의 노드와 스케줄링 대기 중인 포드를 분석한다. 이 과정은 Kubernetes API를 활용하여 이루어진다.
- 새로운 노드를 프로비저닝할 때, 현재 클러스터에서 부족한 자원 요구 사항에 맞춰 AWS 및 Azure 프로비저닝 API를 사용하여 적절한 리소스를 추가한다.
- 불필요한 자원 소모를 줄이기 위해 자동 확장 그룹과 달리, 클러스터에 참여할 머신과 참여하지 않을 머신을 완전히 제어할 수 있다.
- 예를 들어, 비용 절감을 위해 기본적으로 모든 리소스를 스팟 인스턴스에 할당할 수 있으며, 사용자가 선택적으로 제외할 수 있는 정책을 손쉽게 구현할 수 있다.
Kubernetes의 유용성과 OpenAI에서의 적용
![Kubernetes의 유용성과 OpenAI에서의 적용 Kubernetes의 유용성과 OpenAI에서의 적용](https://www.msap.ai/wp-content/uploads/2025/01/blog-openai-k8s-case-06.webp)
- Kubernetes API는 사용자 맞춤형 로직을 통해 제공된 기본 요소와 상호작용할 수 있도록 설계되어 있어, 연구자들에게 유연성을 제공한다.
- 초기 설정 시 완벽하지 않았으나, Kubernetes는 복잡한 인프라를 간소화하여 운영 경험이 부족한 사용자에게 유리한 환경을 제공한다.
- 또, Kubernetes는 연구자들과 인프라 팀 모두에게 깔끔한 API를 제공하여, 필요에 따라 클러스터를 확장하고 사용자 맞춤화할 수 있는 가능성을 열어둔다.
- OpenAI는 Kubernetes에 대한 투자를 계속하며, 향후 1.6 버전과 그 이후의 발전을 기대하고 있다.
마무리
- AI 기술의 발전은 인프라의 발전에 크게 의존합니다. AI의 성능을 극대화하기 위해서는 강력하고 효율적인 인프라가 필요합니다.
- AI 인프라 구축에 있어서 Kubernetes 는 AI 연구자들을 위한 긴급한 확장성과 일괄작업의 편이성을 제공해 줍니다.