04 · Media — Audio
이 챕터가 답하는 질문: 소리는 어떻게 디지털이 되는가? 그리고 우리가 듣는 음량(loudness)은 어떻게 측정·보정되는가? 작성: 2026-05-10 / 스타일: Minto +
/explain(7-블록)
한 문장 답 (Pyramid Top)
오디오 파일은 연속적인 공기 진동(아날로그) 을
① 샘플링 ② 양자화 ③ 채널 매핑 ④ 코덱 압축 ⑤ 음량 정규화다섯 단계로 디지털화한 것이고, 이 챕터는 그 다섯 단계 + 웨이브폼/스트리밍까지 7개 문서로 분해한다.
Why — 왜 오디오는 비디오보다 작아 보이는데 까다로운가
비디오는 “프레임이 30개 흘러간다”로 직관적이지만, 오디오는 귀가 매우 예민해서 작은 결함도 들킨다.
- 비디오 한 프레임에 픽셀 결함이 있어도 1/30초 후 사라지지만, 오디오 1ms의 클릭은 명백히 들린다.
- 비디오의 8bit/10bit 차이는 그라데이션에서만 드러나지만, 오디오 16bit/24bit는 다이내믹 레인지(96dB vs 144dB) 자체가 다르다.
- 비디오 음량은 평균 밝기로 비유되지만, 오디오 음량은 사람이 인지하는 라우드니스라는 별도 지각 모델이 필요하다 → LUFS.
“비디오는 시간이 비어있는 픽셀의 나열이지만, 오디오는 시간 자체가 정보다.”
How — 7개 문서가 이 질문을 어떻게 분해하는가
| 문서 | 핵심 질문 | 키워드 |
|---|---|---|
01-sampling-and-quantization.md | 연속 신호를 어떻게 이산값으로 자르는가? | Nyquist, 44.1/48/96kHz, 16/24bit, dither |
02-channels-and-spatial.md | 소리는 몇 갈래로 들어오고 어떻게 합쳐지는가? | mono/stereo/5.1/7.1, Atmos 객체 오디오, 다운믹스 |
03-codecs-overview.md | 어떤 코덱을 쓰는가? 왜 AAC가 사실상 표준인가? | AAC, MP3, Opus, FLAC, ALAC, Vorbis, 라이선스 |
04-loudness-ebur128.md | ”큰 소리”는 어떻게 정량화하는가? | LUFS, EBU R128, ITU-R BS.1770, true peak |
05-waveform-and-peaks.md | 파형을 어떻게 가볍게 시각화하는가? | .dat, peaks.js, audiowaveform, downsampling |
06-streaming-audio.md | 오디오만 따로 스트리밍하는 표준은? | HLS audio-only, podcast MP3, Spotify Ogg |
문서 간 의존성:
What — 챕터 요약 한 화면
표준치 빠른 참조
| 영역 | 값 | 비고 |
|---|---|---|
| 샘플레이트 | 44.1 kHz (CD) / 48 kHz (영상) / 96 kHz (마스터) | Nyquist 22.05 kHz까지 표현 |
| 비트심도 | 16 bit (배포) / 24 bit (제작) / 32f (믹싱) | 16bit = 96dB SNR |
| 채널 레이아웃 | mono / stereo / 5.1 (L,R,C,LFE,Ls,Rs) / 7.1 / Atmos | 5.1 = front 3 + LFE + back 2 |
| AAC 비트레이트 | 64 / 96 / 128 / 192 / 256 / 320 kbps | 128kbps stereo가 streaming 표준 |
| LUFS 타깃 | Spotify -14 / YouTube -14 / Apple Podcasts -16 / 방송 R128 -23 | 정규화 기준 |
| True Peak | -1 dBTP (스트리밍) / -2 dBTP (라디오) | 인터샘플 오버슈트 방지 |
| 웨이브폼 | 8-bit .dat (Peaks.js v2) | 16bit 대비 절반 |
코덱 한 화면
| 코덱 | 손실/무손실 | 라이선스 | 컨테이너 | 주 사용처 |
|---|---|---|---|---|
| AAC | 손실 | MPEG-LA (포함료) | MP4/M4A/ADTS | YouTube, Apple, HLS |
| MP3 | 손실 | 만료(2017~) | MP3 | 팟캐스트, 레거시 |
| Opus | 손실 | 무료 | Ogg/WebM | WebRTC, YouTube, Spotify |
| FLAC | 무손실 | 무료 | FLAC/Ogg | 음원 마스터, 하이파이 |
| ALAC | 무손실 | Apache 2.0 | M4A | Apple Music |
| Vorbis | 손실 | 무료 | Ogg | (deprecated, → Opus) |
What-if — 잘못 다루면 어떻게 깨지는가
| 함정 | 증상 | 대응 |
|---|---|---|
| 샘플레이트 미스매치 | 44.1 → 48 변환 시 위상 왜곡 | 의도적 리샘플링 (-ar 48000) 명시 |
| 클리핑 vs True Peak | 디지털 -0.5dB여도 D/A 변환 후 +0.3dB 오버슈트 | 마스터 단계에서 -1dBTP 리미터 |
| LUFS 목표치 혼동 | 라디오용(-23)을 스트리밍에 그대로 → 너무 작게 들림 | 플랫폼별 타깃 LUFS 별도 적용 |
| 5.1을 stereo로 다운믹스 무시 | 모바일에서 센터 보컬이 사라짐 | pan 필터로 명시적 다운믹스 |
| 무손실로 인코딩 사슬 | FLAC→AAC→AAC 두 번 → 첫 변환의 손실이 누적 | 마스터는 항상 PCM/FLAC에서 한 번만 |
Insight — 흥미로운 이야기
“44.1kHz는 왜 그 어정쩡한 숫자인가”
44,100 Hz는 1980년대 Sony가 PCM 디지털 오디오를 VHS/U-matic 비디오테이프에 기록하기 위해 만든 수다. NTSC: 30fps × 490 active lines × 3 samples = 44,100. PAL: 25fps × 588 lines × 3 samples = 44,100. CD가 이 값을 그대로 채택했고, 40년이 지나도 우리는 비디오테이프의 흔적을 듣고 있다.
“AAC가 이긴 이유”
MP3의 후계자 자리는 여러 후보가 다퉜다 (AAC, Vorbis, WMA, ATRAC). AAC가 이긴 이유는 음질(64kbps 기준 MP3 128kbps 동급) 도 있지만, Apple이 iTunes Store(2003)와 iPhone(2007)을 AAC 단독으로 묶어버렸기 때문이다. 표준은 라이선스 + 거대 플랫폼이 만든다 — 비디오의 H.264와 같은 패턴.
“Opus는 코덱계의 Rust”
Opus(2012)는 Skype의 SILK + Xiph의 CELT를 합친 royalty-free 코덱이다. 6kbps(전화)부터 510kbps(스튜디오)까지 한 코덱으로 커버하고, 6ms 지연으로 WebRTC를 가능하게 했다. 후발주자인데도 기술적으로 모든 것을 이긴다. 그러나 iOS Safari는 2024년까지도 HLS에서 Opus를 거부한다 — 이게 표준 채택의 현실.
한 단락 요약
오디오는 시간 도메인 신호라 비디오보다 더 정밀한 양자화·라우드니스 모델이 필요하다. 이 챕터는
샘플링/양자화 → 채널 → 코덱 → 라우드니스 → 웨이브폼 → 스트리밍의 6단계로 분해해 각 단계에서 왜 그 표준치가 되었는지와 틀리면 어떻게 들리는지를 짚는다. 핵심 산출물: AAC 128kbps stereo @ -14 LUFS / -1dBTP — 이 한 줄을 이해하면 절반은 끝났다.