02 · Channels & Spatial Audio — 모노부터 Atmos까지

이 문서가 답하는 질문: 소리는 몇 갈래로 들어오고, 그 갈래는 청자에게 어떻게 매핑되는가? 선행 지식: 01-sampling-and-quantization.md

한 줄 답

채널은 마이크의 개수가 아니라 스피커의 위치를 가리키는 라벨이다. Mono(1) → Stereo(2) → 5.1(6) → 7.1(8) → Atmos(객체 + 베드)로 확장되며, 어떤 라벨이 어디로 가는지 정한 표준이 WAVEFORMATEXTENSIBLE channel mask와 ITU-R BS.775다.

Why — 왜 채널을 쪼개는가

귀가 두 개라서 인간은 양이 단서(binaural cues) 로 음원의 방향을 추정한다:

ITD(Interaural Time Difference): 좌우 귀 도달 시간차 (수평면 정위)
ILD(Interaural Level Difference): 좌우 귀 음량차 (수평면 정위)
Pinna filtering(HRTF): 귓바퀴에 의한 주파수 필터링 (전후·상하 정위)

스테레오는 ITD/ILD를 재현해 좌우를 만든다. 5.1은 후방 스피커로 전후를 만든다. Atmos는 천장 스피커 + 객체 메타데이터로 재생 환경에 따라 동적으로 매핑한다.

핵심: 채널 수가 늘어날수록 청자의 위치 자유도가 늘어난다. 모노는 모노로 들리고, 스테레오는 두 스피커 사이 일정 위치(스위트 스팟)에서만 정상이며, Atmos는 임의의 스피커 배치를 허용한다.

How — 라벨링과 매핑

1) Channel layout 표준

대부분의 컨테이너(MP4/MKV/Ogg)는 채널 마스크를 비트필드로 저장한다. WAVEFORMATEXTENSIBLE 기준 (Microsoft/USB Audio):

Bit	Label	약어	위치
0	Front Left	FL / L	전방 좌
1	Front Right	FR / R	전방 우
2	Front Center	FC / C	전방 중앙
3	Low Frequency	LFE	서브우퍼 (저음 전용)
4	Back Left	BL / Ls	후방 좌
5	Back Right	BR / Rs	후방 우
6	Front Center Left	FLC	전방 좌중
7	Front Center Right	FRC	전방 우중
8	Back Center	BC	후방 중앙
9	Side Left	SL / Lsr	측방 좌
10	Side Right	SR / Rsr	측방 우
11~	Top Front/Back/Side	TFL/TFR/TBL/TBR/TSL/TSR	천장 (Atmos·9.1.6)

LFE 채널의 “.1” — Low Frequency Effects는 20~120 Hz 대역만 담는다. 풀 대역 채널 1개로 카운트하지 않고 “.1”로 따로 표기한다.

2) ITU-R BS.775 — 5.1 표준 배치

L/R: 청자 정면 ±30°
C: 정중앙 (대사·보컬 전담)
LFE: 위치 무관 (저주파는 정위가 안 됨)
Ls/Rs: 후방 ±110° (실제 110~120°, 룸에 따라 가변)

3) Dolby Atmos — 객체 기반 오디오의 패러다임 전환

5.1/7.1은 채널 = 스피커의 1:1 매핑이다. Atmos는 두 층으로 분리한다:

Bed channels: 7.1.2 같은 고정 채널 (배경음악·앰비언스)
Audio objects: 3D 좌표(x, y, z) + 메타데이터를 가진 최대 128개 동적 음원

→ 같은 마스터가 재생 환경에 따라 다르게 렌더링 된다. 헤드폰에서는 binaural, 홈시어터에서는 7.1.4, 영화관에서는 64채널까지.

What — 구체 사양 / 컨테이너 표기

채널 표기 규약

표기	의미	채널 수
`1.0`	mono	1
`2.0`	stereo	2
`2.1`	stereo + LFE	3
`5.1`	front 3 + LFE + back 2	6
`7.1`	5.1 + side 2	8
`5.1.2`	5.1 + 천장 2 (Atmos enabled)	8
`7.1.4`	7.1 + 천장 4	12
`9.1.6`	9.1 + 천장 6 (Atmos 표준 홈)	16
`22.2`	NHK 슈퍼 하이비전	24

”.X.Y” 표기: X는 메인 풀대역, Y는 천장(height) 채널.

ffmpeg channel layout 식별자

ffmpeg -layouts
# mono, stereo, 2.1, 3.0, 4.0, quad, 4.1, 5.0, 5.1, 6.0, 6.1, 7.0, 7.1, ...

5.1 ffmpeg 기본은 FL+FR+FC+LFE+BL+BR (back), 5.1(side)는 FL+FR+FC+LFE+SL+SR. 컨테이너에서 수입할 때 둘이 섞이면 후방이 측방으로 쏠려 들린다.

다운믹스 (Downmix) 공식

Atmos 7.1.4 → stereo 또는 5.1 → stereo 변환 시 표준 계수 (ITU-R BS.775-3):

5.1 → stereo (LoRo, Lt/Rt):

$L_o = L + 0.707 \cdot C + 0.707 \cdot L_s$ $R_o = R + 0.707 \cdot C + 0.707 \cdot R_s$

Center를 -3dB로 좌우에 분산
Surround도 -3dB 분산
LFE는 다운믹스에서 제거 (소형 스피커 보호)

Lt/Rt (Pro Logic II 호환):

$L_t = L + 0.707 \cdot C - 0.707 \cdot (L_s + R_s)$ $R_t = R + 0.707 \cdot C + 0.707 \cdot (L_s + R_s)$

→ Surround를 위상 반전으로 인코딩 → Pro Logic II 디코더가 재추출 가능.

ffmpeg 다운믹스 명령

# 5.1 → stereo (단순 LoRo)
ffmpeg -i input_5_1.wav \
  -af "pan=stereo|FL=FL+0.707*FC+0.707*BL|FR=FR+0.707*FC+0.707*BR" \
  output_stereo.wav
 
# 5.1 → stereo (자동, 기본 LoRo)
ffmpeg -i input_5_1.wav -ac 2 output_stereo.aac
 
# 채널 레이아웃 강제 지정
ffmpeg -i raw.pcm -ac 6 -channel_layout 5.1 output.wav

압축 시 채널 결합 (Joint Stereo / Parametric)

스테레오 압축에서 두 채널이 상관관계가 강할 때(보컬 정중앙, 대부분의 팝송) 다음 변환이 효율적이다:

Mid/Side encoding (M/S): $M = (L+R)/2$ , $S = (L-R)/2$ → S를 더 강하게 압축
Intensity Stereo: 고주파만 mono로, 저주파만 stereo (MP3, AAC-LC)
Parametric Stereo (PS): stereo를 mono + 공간 파라미터로 (AAC-HE v2)

Mid/Side는 무손실 FLAC에서도 쓰인다 (블록 단위로 stereo decorrelation 선택).

What-if — 잘못 다루면 어떻게 깨지는가

1. 채널 매핑 misorder

채널 마스크 없이 raw PCM 6채널을 받으면 디코더가 임의로 매핑할 수 있다. SMPTE 표준 순서 (L R C LFE Ls Rs)와 Film 표준 순서 (L C R Ls Rs LFE)가 다른 게 흔한 함정.

증상: 영화 대사가 후방 스피커에서 들리거나, 베이스가 왼쪽으로 쏠림. 해결: 컨테이너에 channel layout 메타데이터 명시, ffprobe로 검증.

ffprobe -v error -show_streams -select_streams a:0 input.mkv \
  | grep -E "channels|channel_layout"

2. LFE를 다운믹스에 포함

LFE를 stereo 다운믹스에 0dB로 더하면 작은 스피커가 클리핑되거나 코덱 인코딩에서 비트가 낭비된다. DTS/Dolby 표준은 다운믹스 시 LFE를 -10dB 또는 완전 제거.

3. 5.1을 Atmos 인코더에 그대로 통과

Atmos는 객체 메타데이터를 요구한다. 채널 베이스 5.1을 Atmos 컨테이너(EC-3 with JOC)에 넣어도 객체가 없으면 그냥 5.1 EC-3와 같다 — 마케팅상 “Atmos”여도 공간감 차이가 없다.

4. 모노 소스를 stereo로 단순 복제

모노를 [L, L]로 복제하면 정중앙 정위는 유지되지만 위상 단서가 사라져 머릿속에서 들리는 in-head localization이 발생한다. 차라리 decorrelation filter(짧은 IR로 약간의 차이 추가)를 쓰는 게 자연스럽다.

5. Atmos를 stereo로 다운믹스할 때 객체 무시

Atmos 렌더러 없이 객체 트랙을 떼버리면 객체 음원(예: 머리 위 헬리콥터 소리)이 통째로 사라진다. 반드시 Atmos renderer를 거쳐 객체를 베드로 펼친 다음 다운믹스해야 한다.

Insight — 흥미로운 이야기

“5.1은 영화관에서 시작했다”

1976년 Dolby Stereo는 35mm 필름의 광학 사운드트랙에 4채널(L,C,R,S)을 매트릭스 인코딩으로 욱여넣었다. 1992년 Dolby Digital이 등장하며 진짜 분리된 5.1이 가능해졌고, DVD(1995)가 가정에 가져왔다. “5.1”이라는 숫자가 영화관 → 가정 → 스트리밍으로 30년에 걸쳐 표준이 되어가는 과정.

“22.2는 왜 NHK가 만들었는가”

NHK Super Hi-Vision(8K)의 오디오 표준은 22.2 (24채널 — 상층 9 + 중층 10 + 하층 3 + LFE 2). 이건 마케팅이 아니라 음악 콘서트홀의 음향을 재현하려는 학문적 시도다 (NHK 과학기술연구소). 일반 가정에는 영원히 안 올 표준이지만, Atmos의 렌더링 타깃 중 가장 정밀한 형태.

“Apple은 왜 Atmos에 올인했는가”

2021년 Apple Music이 Spatial Audio (Atmos)를 무료 추가 발표 → 음원 업계가 일제히 Atmos 마스터링으로 이동. 이유: AirPods Pro의 head-tracking으로 binaural Atmos가 헤드폰에서 정상 재생됨 → 소비자가 처음으로 Atmos를 일상에서 듣게 됨. 다채널 오디오는 항상 “스피커가 없으니까 안 들린다”의 함정이었는데, 헤드폰 + binaural이 그걸 깼다.

“객체 기반 오디오 ≠ 3D 오디오”

Ambisonics(Sennheiser AMBEO 등)는 공간 자체를 SH 기저함수로 인코딩한다. Atmos는 음원을 객체 단위로 메타데이터화한다. 둘 다 “공간 오디오”라 불리지만 수학적 모델이 완전히 다르다 — Ambisonics는 360 영상에 자주 쓰이고, Atmos는 영화·음악에 쓰인다.

한 단락 요약 + Mermaid

채널은 라벨이고, 라벨이 어디로 가는지 정한 표준이 ITU-R BS.775(5.1) / WAVEFORMATEXTENSIBLE(channel mask)이다. Stereo는 ITD/ILD로 좌우를 만들고, 5.1은 후방 스피커로 전후를 만들고, Atmos는 객체 메타데이터로 재생 환경에 따라 동적 렌더링한다. 다운믹스 공식(C·Ls = -3dB) 과 LFE 처리(-10dB 또는 제거) 가 채널 수 변환의 핵심.

01 · Sampling & Quantization — 연속 신호를 이산값으로 03 · Audio Codecs Overview — 어떤 코덱을 왜 쓰는가