04 · Media — Audio

이 챕터가 답하는 질문: 소리는 어떻게 디지털이 되는가? 그리고 우리가 듣는 음량(loudness)은 어떻게 측정·보정되는가? 작성: 2026-05-10 / 스타일: Minto + /explain (7-블록)

한 문장 답 (Pyramid Top)

오디오 파일은 연속적인 공기 진동(아날로그) 을 ① 샘플링 ② 양자화 ③ 채널 매핑 ④ 코덱 압축 ⑤ 음량 정규화 다섯 단계로 디지털화한 것이고, 이 챕터는 그 다섯 단계 + 웨이브폼/스트리밍까지 7개 문서로 분해한다.

Why — 왜 오디오는 비디오보다 작아 보이는데 까다로운가

비디오는 “프레임이 30개 흘러간다”로 직관적이지만, 오디오는 귀가 매우 예민해서 작은 결함도 들킨다.

비디오 한 프레임에 픽셀 결함이 있어도 1/30초 후 사라지지만, 오디오 1ms의 클릭은 명백히 들린다.
비디오의 8bit/10bit 차이는 그라데이션에서만 드러나지만, 오디오 16bit/24bit는 다이내믹 레인지(96dB vs 144dB) 자체가 다르다.
비디오 음량은 평균 밝기로 비유되지만, 오디오 음량은 사람이 인지하는 라우드니스라는 별도 지각 모델이 필요하다 → LUFS.

“비디오는 시간이 비어있는 픽셀의 나열이지만, 오디오는 시간 자체가 정보다.”

How — 7개 문서가 이 질문을 어떻게 분해하는가

문서	핵심 질문	키워드
`01-sampling-and-quantization.md`	연속 신호를 어떻게 이산값으로 자르는가?	Nyquist, 44.1/48/96kHz, 16/24bit, dither
`02-channels-and-spatial.md`	소리는 몇 갈래로 들어오고 어떻게 합쳐지는가?	mono/stereo/5.1/7.1, Atmos 객체 오디오, 다운믹스
`03-codecs-overview.md`	어떤 코덱을 쓰는가? 왜 AAC가 사실상 표준인가?	AAC, MP3, Opus, FLAC, ALAC, Vorbis, 라이선스
`04-loudness-ebur128.md`	”큰 소리”는 어떻게 정량화하는가?	LUFS, EBU R128, ITU-R BS.1770, true peak
`05-waveform-and-peaks.md`	파형을 어떻게 가볍게 시각화하는가?	.dat, peaks.js, audiowaveform, downsampling
`06-streaming-audio.md`	오디오만 따로 스트리밍하는 표준은?	HLS audio-only, podcast MP3, Spotify Ogg

문서 간 의존성:

What — 챕터 요약 한 화면

표준치 빠른 참조

영역	값	비고
샘플레이트	44.1 kHz (CD) / 48 kHz (영상) / 96 kHz (마스터)	Nyquist 22.05 kHz까지 표현
비트심도	16 bit (배포) / 24 bit (제작) / 32f (믹싱)	16bit = 96dB SNR
채널 레이아웃	mono / stereo / 5.1 (L,R,C,LFE,Ls,Rs) / 7.1 / Atmos	5.1 = `front 3 + LFE + back 2`
AAC 비트레이트	64 / 96 / 128 / 192 / 256 / 320 kbps	128kbps stereo가 streaming 표준
LUFS 타깃	Spotify -14 / YouTube -14 / Apple Podcasts -16 / 방송 R128 -23	정규화 기준
True Peak	-1 dBTP (스트리밍) / -2 dBTP (라디오)	인터샘플 오버슈트 방지
웨이브폼	8-bit `.dat` (Peaks.js v2)	16bit 대비 절반

코덱 한 화면

코덱	손실/무손실	라이선스	컨테이너	주 사용처
AAC	손실	MPEG-LA (포함료)	MP4/M4A/ADTS	YouTube, Apple, HLS
MP3	손실	만료(2017~)	MP3	팟캐스트, 레거시
Opus	손실	무료	Ogg/WebM	WebRTC, YouTube, Spotify
FLAC	무손실	무료	FLAC/Ogg	음원 마스터, 하이파이
ALAC	무손실	Apache 2.0	M4A	Apple Music
Vorbis	손실	무료	Ogg	(deprecated, → Opus)

What-if — 잘못 다루면 어떻게 깨지는가

함정	증상	대응
샘플레이트 미스매치	44.1 → 48 변환 시 위상 왜곡	의도적 리샘플링 (`-ar 48000`) 명시
클리핑 vs True Peak	디지털 -0.5dB여도 D/A 변환 후 +0.3dB 오버슈트	마스터 단계에서 -1dBTP 리미터
LUFS 목표치 혼동	라디오용(-23)을 스트리밍에 그대로 → 너무 작게 들림	플랫폼별 타깃 LUFS 별도 적용
5.1을 stereo로 다운믹스 무시	모바일에서 센터 보컬이 사라짐	`pan` 필터로 명시적 다운믹스
무손실로 인코딩 사슬	FLAC→AAC→AAC 두 번 → 첫 변환의 손실이 누적	마스터는 항상 PCM/FLAC에서 한 번만

Insight — 흥미로운 이야기

“44.1kHz는 왜 그 어정쩡한 숫자인가”

44,100 Hz는 1980년대 Sony가 PCM 디지털 오디오를 VHS/U-matic 비디오테이프에 기록하기 위해 만든 수다. NTSC: 30fps × 490 active lines × 3 samples = 44,100. PAL: 25fps × 588 lines × 3 samples = 44,100. CD가 이 값을 그대로 채택했고, 40년이 지나도 우리는 비디오테이프의 흔적을 듣고 있다.

“AAC가 이긴 이유”

MP3의 후계자 자리는 여러 후보가 다퉜다 (AAC, Vorbis, WMA, ATRAC). AAC가 이긴 이유는 음질(64kbps 기준 MP3 128kbps 동급) 도 있지만, Apple이 iTunes Store(2003)와 iPhone(2007)을 AAC 단독으로 묶어버렸기 때문이다. 표준은 라이선스 + 거대 플랫폼이 만든다 — 비디오의 H.264와 같은 패턴.

“Opus는 코덱계의 Rust”

Opus(2012)는 Skype의 SILK + Xiph의 CELT를 합친 royalty-free 코덱이다. 6kbps(전화)부터 510kbps(스튜디오)까지 한 코덱으로 커버하고, 6ms 지연으로 WebRTC를 가능하게 했다. 후발주자인데도 기술적으로 모든 것을 이긴다. 그러나 iOS Safari는 2024년까지도 HLS에서 Opus를 거부한다 — 이게 표준 채택의 현실.

한 단락 요약

오디오는 시간 도메인 신호라 비디오보다 더 정밀한 양자화·라우드니스 모델이 필요하다. 이 챕터는 샘플링/양자화 → 채널 → 코덱 → 라우드니스 → 웨이브폼 → 스트리밍의 6단계로 분해해 각 단계에서 왜 그 표준치가 되었는지와 틀리면 어떻게 들리는지를 짚는다. 핵심 산출물: AAC 128kbps stereo @ -14 LUFS / -1dBTP — 이 한 줄을 이해하면 절반은 끝났다.

12 · 인코딩 파이프라인 (ffmpeg · MediaConvert · CRF/CBR/VBR)01 · Sampling & Quantization — 연속 신호를 이산값으로