📁 File4. 오디오📖 개요

04 · Media — Audio

이 챕터가 답하는 질문: 소리는 어떻게 디지털이 되는가? 그리고 우리가 듣는 음량(loudness)은 어떻게 측정·보정되는가? 작성: 2026-05-10 / 스타일: Minto + /explain (7-블록)


한 문장 답 (Pyramid Top)

오디오 파일은 연속적인 공기 진동(아날로그)① 샘플링 ② 양자화 ③ 채널 매핑 ④ 코덱 압축 ⑤ 음량 정규화 다섯 단계로 디지털화한 것이고, 이 챕터는 그 다섯 단계 + 웨이브폼/스트리밍까지 7개 문서로 분해한다.


Why — 왜 오디오는 비디오보다 작아 보이는데 까다로운가

비디오는 “프레임이 30개 흘러간다”로 직관적이지만, 오디오는 귀가 매우 예민해서 작은 결함도 들킨다.

  • 비디오 한 프레임에 픽셀 결함이 있어도 1/30초 후 사라지지만, 오디오 1ms의 클릭은 명백히 들린다.
  • 비디오의 8bit/10bit 차이는 그라데이션에서만 드러나지만, 오디오 16bit/24bit는 다이내믹 레인지(96dB vs 144dB) 자체가 다르다.
  • 비디오 음량은 평균 밝기로 비유되지만, 오디오 음량은 사람이 인지하는 라우드니스라는 별도 지각 모델이 필요하다 → LUFS.

“비디오는 시간이 비어있는 픽셀의 나열이지만, 오디오는 시간 자체가 정보다.”


How — 7개 문서가 이 질문을 어떻게 분해하는가

문서핵심 질문키워드
01-sampling-and-quantization.md연속 신호를 어떻게 이산값으로 자르는가?Nyquist, 44.1/48/96kHz, 16/24bit, dither
02-channels-and-spatial.md소리는 몇 갈래로 들어오고 어떻게 합쳐지는가?mono/stereo/5.1/7.1, Atmos 객체 오디오, 다운믹스
03-codecs-overview.md어떤 코덱을 쓰는가? 왜 AAC가 사실상 표준인가?AAC, MP3, Opus, FLAC, ALAC, Vorbis, 라이선스
04-loudness-ebur128.md”큰 소리”는 어떻게 정량화하는가?LUFS, EBU R128, ITU-R BS.1770, true peak
05-waveform-and-peaks.md파형을 어떻게 가볍게 시각화하는가?.dat, peaks.js, audiowaveform, downsampling
06-streaming-audio.md오디오만 따로 스트리밍하는 표준은?HLS audio-only, podcast MP3, Spotify Ogg

문서 간 의존성:


What — 챕터 요약 한 화면

표준치 빠른 참조

영역비고
샘플레이트44.1 kHz (CD) / 48 kHz (영상) / 96 kHz (마스터)Nyquist 22.05 kHz까지 표현
비트심도16 bit (배포) / 24 bit (제작) / 32f (믹싱)16bit = 96dB SNR
채널 레이아웃mono / stereo / 5.1 (L,R,C,LFE,Ls,Rs) / 7.1 / Atmos5.1 = front 3 + LFE + back 2
AAC 비트레이트64 / 96 / 128 / 192 / 256 / 320 kbps128kbps stereo가 streaming 표준
LUFS 타깃Spotify -14 / YouTube -14 / Apple Podcasts -16 / 방송 R128 -23정규화 기준
True Peak-1 dBTP (스트리밍) / -2 dBTP (라디오)인터샘플 오버슈트 방지
웨이브폼8-bit .dat (Peaks.js v2)16bit 대비 절반

코덱 한 화면

코덱손실/무손실라이선스컨테이너주 사용처
AAC손실MPEG-LA (포함료)MP4/M4A/ADTSYouTube, Apple, HLS
MP3손실만료(2017~)MP3팟캐스트, 레거시
Opus손실무료Ogg/WebMWebRTC, YouTube, Spotify
FLAC무손실무료FLAC/Ogg음원 마스터, 하이파이
ALAC무손실Apache 2.0M4AApple Music
Vorbis손실무료Ogg(deprecated, → Opus)

What-if — 잘못 다루면 어떻게 깨지는가

함정증상대응
샘플레이트 미스매치44.1 → 48 변환 시 위상 왜곡의도적 리샘플링 (-ar 48000) 명시
클리핑 vs True Peak디지털 -0.5dB여도 D/A 변환 후 +0.3dB 오버슈트마스터 단계에서 -1dBTP 리미터
LUFS 목표치 혼동라디오용(-23)을 스트리밍에 그대로 → 너무 작게 들림플랫폼별 타깃 LUFS 별도 적용
5.1을 stereo로 다운믹스 무시모바일에서 센터 보컬이 사라짐pan 필터로 명시적 다운믹스
무손실로 인코딩 사슬FLAC→AAC→AAC 두 번 → 첫 변환의 손실이 누적마스터는 항상 PCM/FLAC에서 한 번만

Insight — 흥미로운 이야기

“44.1kHz는 왜 그 어정쩡한 숫자인가”

44,100 Hz는 1980년대 Sony가 PCM 디지털 오디오를 VHS/U-matic 비디오테이프에 기록하기 위해 만든 수다. NTSC: 30fps × 490 active lines × 3 samples = 44,100. PAL: 25fps × 588 lines × 3 samples = 44,100. CD가 이 값을 그대로 채택했고, 40년이 지나도 우리는 비디오테이프의 흔적을 듣고 있다.

“AAC가 이긴 이유”

MP3의 후계자 자리는 여러 후보가 다퉜다 (AAC, Vorbis, WMA, ATRAC). AAC가 이긴 이유는 음질(64kbps 기준 MP3 128kbps 동급) 도 있지만, Apple이 iTunes Store(2003)와 iPhone(2007)을 AAC 단독으로 묶어버렸기 때문이다. 표준은 라이선스 + 거대 플랫폼이 만든다 — 비디오의 H.264와 같은 패턴.

“Opus는 코덱계의 Rust”

Opus(2012)는 Skype의 SILK + Xiph의 CELT를 합친 royalty-free 코덱이다. 6kbps(전화)부터 510kbps(스튜디오)까지 한 코덱으로 커버하고, 6ms 지연으로 WebRTC를 가능하게 했다. 후발주자인데도 기술적으로 모든 것을 이긴다. 그러나 iOS Safari는 2024년까지도 HLS에서 Opus를 거부한다 — 이게 표준 채택의 현실.


한 단락 요약

오디오는 시간 도메인 신호라 비디오보다 더 정밀한 양자화·라우드니스 모델이 필요하다. 이 챕터는 샘플링/양자화 → 채널 → 코덱 → 라우드니스 → 웨이브폼 → 스트리밍의 6단계로 분해해 각 단계에서 왜 그 표준치가 되었는지틀리면 어떻게 들리는지를 짚는다. 핵심 산출물: AAC 128kbps stereo @ -14 LUFS / -1dBTP — 이 한 줄을 이해하면 절반은 끝났다.