02 · Channels & Spatial Audio — 모노부터 Atmos까지
이 문서가 답하는 질문: 소리는 몇 갈래로 들어오고, 그 갈래는 청자에게 어떻게 매핑되는가? 선행 지식:
01-sampling-and-quantization.md
한 줄 답
채널은 마이크의 개수가 아니라 스피커의 위치를 가리키는 라벨이다. Mono(1) → Stereo(2) → 5.1(6) → 7.1(8) → Atmos(객체 + 베드)로 확장되며, 어떤 라벨이 어디로 가는지 정한 표준이 WAVEFORMATEXTENSIBLE channel mask와 ITU-R BS.775다.
Why — 왜 채널을 쪼개는가
귀가 두 개라서 인간은 양이 단서(binaural cues) 로 음원의 방향을 추정한다:
- ITD(Interaural Time Difference): 좌우 귀 도달 시간차 (수평면 정위)
- ILD(Interaural Level Difference): 좌우 귀 음량차 (수평면 정위)
- Pinna filtering(HRTF): 귓바퀴에 의한 주파수 필터링 (전후·상하 정위)
스테레오는 ITD/ILD를 재현해 좌우를 만든다. 5.1은 후방 스피커로 전후를 만든다. Atmos는 천장 스피커 + 객체 메타데이터로 재생 환경에 따라 동적으로 매핑한다.
핵심: 채널 수가 늘어날수록 청자의 위치 자유도가 늘어난다. 모노는 모노로 들리고, 스테레오는 두 스피커 사이 일정 위치(스위트 스팟)에서만 정상이며, Atmos는 임의의 스피커 배치를 허용한다.
How — 라벨링과 매핑
1) Channel layout 표준
대부분의 컨테이너(MP4/MKV/Ogg)는 채널 마스크를 비트필드로 저장한다. WAVEFORMATEXTENSIBLE 기준 (Microsoft/USB Audio):
| Bit | Label | 약어 | 위치 |
|---|---|---|---|
| 0 | Front Left | FL / L | 전방 좌 |
| 1 | Front Right | FR / R | 전방 우 |
| 2 | Front Center | FC / C | 전방 중앙 |
| 3 | Low Frequency | LFE | 서브우퍼 (저음 전용) |
| 4 | Back Left | BL / Ls | 후방 좌 |
| 5 | Back Right | BR / Rs | 후방 우 |
| 6 | Front Center Left | FLC | 전방 좌중 |
| 7 | Front Center Right | FRC | 전방 우중 |
| 8 | Back Center | BC | 후방 중앙 |
| 9 | Side Left | SL / Lsr | 측방 좌 |
| 10 | Side Right | SR / Rsr | 측방 우 |
| 11~ | Top Front/Back/Side | TFL/TFR/TBL/TBR/TSL/TSR | 천장 (Atmos·9.1.6) |
LFE 채널의 “.1” — Low Frequency Effects는 20~120 Hz 대역만 담는다. 풀 대역 채널 1개로 카운트하지 않고 “.1”로 따로 표기한다.
2) ITU-R BS.775 — 5.1 표준 배치
- L/R: 청자 정면 ±30°
- C: 정중앙 (대사·보컬 전담)
- LFE: 위치 무관 (저주파는 정위가 안 됨)
- Ls/Rs: 후방 ±110° (실제 110~120°, 룸에 따라 가변)
3) Dolby Atmos — 객체 기반 오디오의 패러다임 전환
5.1/7.1은 채널 = 스피커의 1:1 매핑이다. Atmos는 두 층으로 분리한다:
- Bed channels: 7.1.2 같은 고정 채널 (배경음악·앰비언스)
- Audio objects: 3D 좌표(x, y, z) + 메타데이터를 가진 최대 128개 동적 음원
→ 같은 마스터가 재생 환경에 따라 다르게 렌더링 된다. 헤드폰에서는 binaural, 홈시어터에서는 7.1.4, 영화관에서는 64채널까지.
What — 구체 사양 / 컨테이너 표기
채널 표기 규약
| 표기 | 의미 | 채널 수 |
|---|---|---|
1.0 | mono | 1 |
2.0 | stereo | 2 |
2.1 | stereo + LFE | 3 |
5.1 | front 3 + LFE + back 2 | 6 |
7.1 | 5.1 + side 2 | 8 |
5.1.2 | 5.1 + 천장 2 (Atmos enabled) | 8 |
7.1.4 | 7.1 + 천장 4 | 12 |
9.1.6 | 9.1 + 천장 6 (Atmos 표준 홈) | 16 |
22.2 | NHK 슈퍼 하이비전 | 24 |
”.X.Y” 표기: X는 메인 풀대역, Y는 천장(height) 채널.
ffmpeg channel layout 식별자
ffmpeg -layouts
# mono, stereo, 2.1, 3.0, 4.0, quad, 4.1, 5.0, 5.1, 6.0, 6.1, 7.0, 7.1, ...5.1 ffmpeg 기본은 FL+FR+FC+LFE+BL+BR (back), 5.1(side)는 FL+FR+FC+LFE+SL+SR. 컨테이너에서 수입할 때 둘이 섞이면 후방이 측방으로 쏠려 들린다.
다운믹스 (Downmix) 공식
Atmos 7.1.4 → stereo 또는 5.1 → stereo 변환 시 표준 계수 (ITU-R BS.775-3):
5.1 → stereo (LoRo, Lt/Rt):
- Center를 -3dB로 좌우에 분산
- Surround도 -3dB 분산
- LFE는 다운믹스에서 제거 (소형 스피커 보호)
Lt/Rt (Pro Logic II 호환):
→ Surround를 위상 반전으로 인코딩 → Pro Logic II 디코더가 재추출 가능.
ffmpeg 다운믹스 명령
# 5.1 → stereo (단순 LoRo)
ffmpeg -i input_5_1.wav \
-af "pan=stereo|FL=FL+0.707*FC+0.707*BL|FR=FR+0.707*FC+0.707*BR" \
output_stereo.wav
# 5.1 → stereo (자동, 기본 LoRo)
ffmpeg -i input_5_1.wav -ac 2 output_stereo.aac
# 채널 레이아웃 강제 지정
ffmpeg -i raw.pcm -ac 6 -channel_layout 5.1 output.wav압축 시 채널 결합 (Joint Stereo / Parametric)
스테레오 압축에서 두 채널이 상관관계가 강할 때(보컬 정중앙, 대부분의 팝송) 다음 변환이 효율적이다:
- Mid/Side encoding (M/S): , → S를 더 강하게 압축
- Intensity Stereo: 고주파만 mono로, 저주파만 stereo (MP3, AAC-LC)
- Parametric Stereo (PS): stereo를 mono + 공간 파라미터로 (AAC-HE v2)
Mid/Side는 무손실 FLAC에서도 쓰인다 (블록 단위로 stereo decorrelation 선택).
What-if — 잘못 다루면 어떻게 깨지는가
1. 채널 매핑 misorder
채널 마스크 없이 raw PCM 6채널을 받으면 디코더가 임의로 매핑할 수 있다. SMPTE 표준 순서 (L R C LFE Ls Rs)와 Film 표준 순서 (L C R Ls Rs LFE)가 다른 게 흔한 함정.
증상: 영화 대사가 후방 스피커에서 들리거나, 베이스가 왼쪽으로 쏠림. 해결: 컨테이너에 channel layout 메타데이터 명시, ffprobe로 검증.
ffprobe -v error -show_streams -select_streams a:0 input.mkv \
| grep -E "channels|channel_layout"2. LFE를 다운믹스에 포함
LFE를 stereo 다운믹스에 0dB로 더하면 작은 스피커가 클리핑되거나 코덱 인코딩에서 비트가 낭비된다. DTS/Dolby 표준은 다운믹스 시 LFE를 -10dB 또는 완전 제거.
3. 5.1을 Atmos 인코더에 그대로 통과
Atmos는 객체 메타데이터를 요구한다. 채널 베이스 5.1을 Atmos 컨테이너(EC-3 with JOC)에 넣어도 객체가 없으면 그냥 5.1 EC-3와 같다 — 마케팅상 “Atmos”여도 공간감 차이가 없다.
4. 모노 소스를 stereo로 단순 복제
모노를 [L, L]로 복제하면 정중앙 정위는 유지되지만 위상 단서가 사라져 머릿속에서 들리는 in-head localization이 발생한다. 차라리 decorrelation filter(짧은 IR로 약간의 차이 추가)를 쓰는 게 자연스럽다.
5. Atmos를 stereo로 다운믹스할 때 객체 무시
Atmos 렌더러 없이 객체 트랙을 떼버리면 객체 음원(예: 머리 위 헬리콥터 소리)이 통째로 사라진다. 반드시 Atmos renderer를 거쳐 객체를 베드로 펼친 다음 다운믹스해야 한다.
Insight — 흥미로운 이야기
“5.1은 영화관에서 시작했다”
1976년 Dolby Stereo는 35mm 필름의 광학 사운드트랙에 4채널(L,C,R,S)을 매트릭스 인코딩으로 욱여넣었다. 1992년 Dolby Digital이 등장하며 진짜 분리된 5.1이 가능해졌고, DVD(1995)가 가정에 가져왔다. “5.1”이라는 숫자가 영화관 → 가정 → 스트리밍으로 30년에 걸쳐 표준이 되어가는 과정.
“22.2는 왜 NHK가 만들었는가”
NHK Super Hi-Vision(8K)의 오디오 표준은 22.2 (24채널 — 상층 9 + 중층 10 + 하층 3 + LFE 2). 이건 마케팅이 아니라 음악 콘서트홀의 음향을 재현하려는 학문적 시도다 (NHK 과학기술연구소). 일반 가정에는 영원히 안 올 표준이지만, Atmos의 렌더링 타깃 중 가장 정밀한 형태.
“Apple은 왜 Atmos에 올인했는가”
2021년 Apple Music이 Spatial Audio (Atmos)를 무료 추가 발표 → 음원 업계가 일제히 Atmos 마스터링으로 이동. 이유: AirPods Pro의 head-tracking으로 binaural Atmos가 헤드폰에서 정상 재생됨 → 소비자가 처음으로 Atmos를 일상에서 듣게 됨. 다채널 오디오는 항상 “스피커가 없으니까 안 들린다”의 함정이었는데, 헤드폰 + binaural이 그걸 깼다.
“객체 기반 오디오 ≠ 3D 오디오”
Ambisonics(Sennheiser AMBEO 등)는 공간 자체를 SH 기저함수로 인코딩한다. Atmos는 음원을 객체 단위로 메타데이터화한다. 둘 다 “공간 오디오”라 불리지만 수학적 모델이 완전히 다르다 — Ambisonics는 360 영상에 자주 쓰이고, Atmos는 영화·음악에 쓰인다.
한 단락 요약 + Mermaid
채널은 라벨이고, 라벨이 어디로 가는지 정한 표준이 ITU-R BS.775(5.1) / WAVEFORMATEXTENSIBLE(channel mask)이다. Stereo는 ITD/ILD로 좌우를 만들고, 5.1은 후방 스피커로 전후를 만들고, Atmos는 객체 메타데이터로 재생 환경에 따라 동적 렌더링한다. 다운믹스 공식(C·Ls = -3dB) 과 LFE 처리(-10dB 또는 제거) 가 채널 수 변환의 핵심.