Azure OpenAI 배포 유형과 지역 가이드

Deployment Types와 Region별 지원 사항

Azure OpenAI의 배포 유형(Deployment Types)과 지역(Regions)별로 지원되는 배포 유형을 정리한다.

AI
Cloud
Azure
저자

Kwangmin Kim

공개

2025년 12월 16일

1 문제 상황: 응답 시간의 불안정성

1.1 관찰된 현상

Azure OpenAI에서 gpt-5-mini와 gpt-5-nano 모델 사용 시 시간대별로 응답 시간이 크게 변동했다:

  • gpt-5-mini: 9초 → 21.78초 (피크 시 +142%)
  • gpt-5-nano: 13.5초 → 16.5초 (피크 시 +22%)

1.2 근본 원인: Global Standard의 한계

Global Standard는 전 세계 공유 리소스를 사용하여 다음 문제가 발생한다:

  1. 전용 용량 없음: TPM/RPM 한도만 있고 전용 처리 용량 없음
  2. 부하 의존적: 전 세계 사용량에 따라 성능 변동
  3. 피크 타임 큐잉: 사용량 많은 시간대 대기 발생
  4. 지역별 차이: 실제 처리는 미국 East US에서 수행

측정 데이터:
- 변동계수: 30-50% (일반적으로 15-30%가 정상)
- 최악 사례: 142% 증가 (심각한 불안정성)
- 시간대별 패턴:
- 새벽 2시: 5-10초 (오프피크)
- 오전 10시: 10-18초 (아시아 피크)
- 오후 3시: 12-25초 (글로벌 피크)

저녁 9시 (아시아 오프피크):
- Mini: 8-12초
- Nano: 9-14초

이러한 패턴에서 알 수 있는 것은:
1. SLA가 없어 응답시간을 보장할 수 없다
2. 사용자 경험의 일관성이 없다
3. 같은 작업도 시간대에 따라 2-3배 차이가 난다

2 Azure OpenAI 배포 유형 (Deployment Types)

  • 위와 같은 현상이 발생한 것은 모델에 대한 GPU computing 자원 분배 방식과 지역별 지원 서비스와 통신속도가 차이가 나기 때문이다.
  • Azure OpenAI는 데이터 처리 위치와 성능 특성에 따라 다양한 배포 유형을 제공한다.

2.1 데이터 처리 위치별 분류

위치별로 배포 유형이 분류된다.

2.1.1 Global Deployments (전역 배포)

  • 데이터가 Azure의 전역 인프라 어디에서나 처리될 수 있다
  • 동적으로 최적의 데이터센터로 트래픽을 라우팅한다
  • 대신, 전세계에서 자원을 나눠쓰기 때문에 여유분의 GPU를 할당받는데 지연시간이 길어질 수 있다.
  • 이 배포 유형을 선택하면 비일관적인 처리속도가 관찰된다.

2.1.2 Data Zone Deployments (데이터 존 배포)

  • 데이터가 Microsoft가 정의한 특정 데이터 존 내에서만 처리된다
  • 예: 미국 리전 → 미국 내에서만 처리, EU 리전 → EU 내에서만 처리
  • 데이터 거주 요구사항이 있는 경우 적합하다

2.2 배포 유형 목록

  • SKU (Stock Keeping Unit)
    • 원래는 재고 관리 단위를 의미
    • 그러나, Azure와 같은 클라우드 서비스에서는 서비스 계층이나 제품 유형을 식별하는 코드로 사용
    • 예: GlobalStandard, DataZoneStandard, ProvisionedManaged 등

2.2.1 Global Standard

  • SKU: GlobalStandard
  • 과금 방식: 종량제 (Pay-per-call)
  • 특징:
    • 가장 높은 기본 할당량 제공
    • 전역 인프라 활용으로 자동 부하 분산
    • 대량 일관 트래픽 시 지연 변동 가능성 있음

2.2.2 Global Provisioned

  • SKU: GlobalProvisionedManaged
  • 과금 방식: 예약 처리량 단위 (PTU) 구매
  • 특징:
    • 전용 모델 처리 용량 확보
    • 높고 예측 가능한 처리량 제공
    • 전역 인프라 활용

2.2.3 Global Batch

  • SKU: GlobalBatch
  • 과금 방식: Global Standard 대비 50% 할인
  • 특징:
    • 비실시간 대량 처리용
    • 24시간 이내 처리 완료 목표
    • 별도의 대기열 할당량 사용

2.2.4 Data Zone Standard

  • SKU: DataZoneStandard
  • 과금 방식: 종량제
  • 특징:
    • 지정된 데이터 존 내에서만 처리
    • Regional 배포보다 높은 기본 할당량
    • 데이터 거주 요구사항 충족

2.2.5 Data Zone Provisioned

  • SKU: DataZoneProvisionedManaged
  • 과금 방식: PTU 구매
  • 특징:
    • 데이터 존 내 전용 처리 용량
    • 높고 예측 가능한 처리량
    • 데이터 거주 요구사항 충족

2.2.6 Data Zone Batch

  • SKU: DataZoneBatch
  • 과금 방식: 할인 요금
  • 특징:
    • 데이터 존 내 비실시간 배치 처리
    • Global Batch와 동일한 기능
    • 데이터 거주 요구사항 충족

2.2.7 Standard (Regional)

  • SKU: Standard
  • 과금 방식: 종량제
  • 특징:
    • 특정 Azure 지역에 고정
    • 낮은~중간 수준 트래픽에 최적화
    • 처리량 제한 가능

2.2.8 Regional Provisioned

  • SKU: ProvisionedManaged
  • 과금 방식: PTU 구매
  • 특징:
    • 특정 지역 내 전용 처리 용량
    • PTU 단위로 처리량 보장
    • 모델별로 필요한 PTU 상이

2.2.9 Developer (Fine-tuned 모델용)

  • SKU: DeveloperTier
  • 과금 방식: 저렴한 평가용 요금
  • 특징:
    • 커스텀 모델 평가 전용
    • 데이터 거주 보장 없음
    • SLA 없음

3 Azure 지역 (Regions)

중요: 모든 지역에서 모든 배포 유형을 지원하는 것은 아니다. 지역마다 사용 가능한 배포 유형이 다르다.

3.1 주요 지역별 특징

3.1.1 아시아-태평양

  • Korea Central (서울) - 한국 사용자 최저 네트워크 지연, Data Zone Standard 미지원
  • Japan East (도쿄) - 한국과 가장 가까운 해외 리전, Data Zone Standard 미지원
  • Japan West (오사카) - 일본 서부 백업 리전
  • Southeast Asia (싱가포르) - 동남아시아 주요 허브
  • Australia East (시드니) - 아시아-태평양 유일 Data Zone Standard 지원 지역
  • East Asia (홍콩) - 중국 인접 지역, 아시아 비즈니스 허브

3.1.2 북미

  • East US (버지니아) - Azure 최대 규모 허브, 최신 기능 우선 출시
  • East US 2 (버지니아) - Data Zone Standard 지원, 높은 가용성
  • West US (캘리포니아) - 미국 서부 주요 허브
  • West US 2 (워싱턴) - 시애틀 인근, 높은 안정성
  • West US 3 (애리조나) - Data Zone Standard 지원, 비교적 신규 리전
  • Central US (아이오와) - 미국 중부 허브
  • Canada Central (토론토) - 캐나다 주요 허브, 데이터 거주 규정 준수
  • Canada East (퀘벡) - 캐나다 동부 백업 리전

3.1.3 유럽

  • North Europe (아일랜드) - Data Zone Standard 지원, 유럽 주요 허브
  • West Europe (네덜란드) - Data Zone Standard 지원, 높은 네트워크 연결성
  • UK South (런던) - Data Zone Standard 지원, 영국 주요 허브
  • France Central (파리) - 프랑스 데이터 거주 규정 준수
  • Sweden Central (스톡홀름) - Data Zone Standard 지원, 친환경 데이터센터
  • Switzerland North (취리히) - 스위스 데이터 보호 규정 준수

3.1.4 기타

  • Brazil South (상파울루) - 남미 유일 리전, 브라질 데이터 거주 규정 준수
  • South Africa North (요하네스버그) - 아프리카 주요 허브
  • UAE North (두바이) - 중동 주요 허브, 아랍 지역 데이터 거주 준수

4 Data Zone Standard 지원 지역 (2025년 기준)

지원 지역:
- East US 2
- West US 3
- North Europe
- West Europe
- Sweden Central
- UK South
- Australia East

미지원 지역:
- Korea Central ❌
- Japan East ❌
- Southeast Asia ❌
- Canada Central/East ❌
- Brazil South ❌

4.1 한국 사용자를 위한 권장 사항

Korea Central (서울):
- Global Standard ✅
- Global Provisioned ✅
- Global Batch ✅
- Regional Standard ✅
- Data Zone Standard ❌ (미지원)

Australia East (시드니):
- 아시아-태평양에서 Data Zone Standard를 지원하는 유일한 지역
- 한국에서 물리적 거리: 약 7,000km
- 네트워크 지연: 100-130ms

Japan East (도쿄):
- Global Standard ✅
- Global Provisioned ✅
- Regional Standard ✅
- Data Zone Standard ❌ (미지원)

4.2 배포 유형 선택 가이드

Global Standard를 선택하는 경우:
- 개발 및 테스트 환경
- 사용량이 적고 불규칙한 경우
- 즉시 시작이 필요한 경우

Data Zone Standard를 선택하는 경우:
- 프로덕션 환경
- 일관된 성능이 필요한 경우
- 데이터 거주 요구사항이 있는 경우
- 중간 규모 트래픽

Provisioned를 선택하는 경우:
- 대규모 프로덕션 환경
- 매우 높은 처리량 필요
- 낮은 지연 변동성 필수
- 예측 가능한 비용 선호

Batch를 선택하는 경우:
- 비실시간 대량 처리
- 비용 최적화가 최우선
- 24시간 처리 시간 허용 가능

5 참고 자료

Subscribe

Enjoy this blog? Get notified of new posts by email: