音频基础知识(一)

2023-09-20 22:51 由空慧居士发表于 #其他

1. 采样率

定义了每秒从连续信号中提取并组成离散信号的采样个数，它用赫兹（Hz）来表示。采样频率的倒数是采样周期或者叫作采样时间，它是采样之间的时间间隔。通俗的讲采样频率是指计算

机每秒钟采集多少个声音样本，是描述声音文件的音质、音调，衡量声卡、声音文件的质量标准。在当今的主流采集卡上，采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级，

22.05KHz只能达到FM广播的声音品质，44.1KHz则是理论上的CD音质界限，48KHz则更加精确一些。对于高于48KHz的采样频率人耳已无法辨别出来了，所以在电脑上没有多少使用

2. 声道

声道指的是音频信号的独立传输通道。它决定了音频信号在播放或录制过程中的空间定位和声音分离效果。每个声道可以独立携带不同的音频信息，从而创造出立体声或多声道音效。

在单声道音频中，只有一个声道用于传输音频信号。这种情况下，音频信号被视为单一声源，无法提供左右或前后声音的分离效果。

而立体声音频则包含两个声道：左声道和右声道。左声道和右声道分别携带不同的音频信息，通过立体声扬声器或耳机进行播放时，可以为听者提供立体感和空间定位效果。例如，音乐中的各种乐器和声音可以从不同的方向传递给听者，增强听觉体验。

此外，还存在多声道音频，通常用于电影、游戏和音频制作领域。多声道音频可以包含多个声道，例如5.1声道、7.1声道等。这些声道可以提供更加逼真和沉浸式的音频体验。在5.1声道音频中，包括前置左、前置中、前置右、后置左、后置右和低音炮等声道，通过合理的声音定位和分配，可以营造出更加真实的环绕声效果。

总结起来，声道是指音频信号的独立传输通道，它决定了音频在播放或录制过程中的空间定位和声音分离效果。单声道音频只有一个声道，立体声音频包括左声道和右声道，而多声道音频则包含多个声道，用于提供更加逼真和沉浸式的音频体验。

3. 音频三要素

音调：音调是指音频信号的频率或音高。它决定了音频的音高是高音还是低音。音调是由声波的频率决定的，频率越高，音调越高；频率越低，音调越低。例如，钢琴上的高音键发出的声音频率高，而低音键发出的声音频率低。音调是区分音频的基本特征之一。
音量：音量是指音频信号的强度或音频的响度。它决定了音频的音量大小。音量是由声波的振幅决定的，振幅越大，音量越大；振幅越小，音量越小。音量可以通过调节音频信号的增益来控制。音量是音频的主观特性，可以用来表示音频的响度、强弱或音量大小。
音色：音色是指音频信号的质地或音频的特征色彩。它决定了音频的音质是清澈、沙哑、柔和还是尖锐等。音色是由声波的频率分量和振幅分量的相对强度和谐波结构所决定的。不同乐器演奏相同音高的音符时，由于其独特的振动特性，会产生不同的音色。音色是音频的个性特征，可以用来区分不同的声音来源。

4. 采样数

音频的采样数是指在一段音频信号中所采集的样本数量。它表示了音频信号在时间上的离散化程度。

在数字音频中，模拟音频信号首先被采样器以一定的采样率进行采样，每次采样会记录下模拟信号在该时刻的幅度值，并将其转换为数字形式进行处理和存储。采样数是指在一段固定时长内进行的采样次数。

采样数与采样率之间存在如下关系：采样数 = 采样率 × 时长。例如，如果音频的采样率为 44.1 kHz，时长为 10 秒，则采样数为 44100 × 10 = 441,000。

采样数决定了音频的时间分辨率。较大的采样数意味着更多的样本被采集，音频信号的波形将更加精细地被描述。这有助于保留音频的细节和动态范围，并提供更准确的音频还原。相反，较小的采样数则可能导致信息的丢失和音频质量的下降。

5. 采样位数

采样位数，即每个采样占用多少位。在数字音频中，连续的模拟音频信号被离散化为一系列离散的采样值。采样位数表示了对每个采样值进行量化的精度。

常见的采样位数有 8 位、16 位、24 位和 32 位。较低的采样位数意味着较少的量化级别，音频信号的动态范围和分辨率较低。较高的采样位数提供更多的量化级别，音频信号的动态范围和分辨率较高。

例如，对于 8 位采样位数，有 2^8 = 256 个量化级别可用于表示音频信号。这意味着音频信号的幅度范围被分成了 256 个离散的级别。而对于 16 位采样位数，有 2^16 = 65,536 个量化级别可用于表示音频信号，提供了更高的动态范围和分辨率。

采样位数的选择对音频质量和准确性有重要影响。较低的采样位数可能导致量化误差引入音频信号，导致噪声和失真。较高的采样位数可以更准确地表示音频信号，提供更低的噪声水平和更好的动态范围。

6. 常见的音频编码

1）OPUS（有损声音编码格式）：Opus集成了两种声音编码的技术：以语音编码为导向的SILK和低延迟的CELT。Opus可以无缝调节高低比特率。在编码器内部它在较低比特率时使用线性预测编码在高比特率时候使用变换编码（在高低比特率交界处也使用两者结合的编码方式）。Opus具有非常低的算法延迟（默认为22.5 ms），非常适合用于低延迟语音通话的编码，像是网上上的即时声音流、即时同步声音旁白等等，此外Opus也可以透过降低编码码率，达成更低的算法延迟，最低可以到5 ms。在多个听觉盲测中，Opus都比MP3、AAC、HE-AAC等常见格式，有更低的延迟和更好的声音压缩率。Opus可以处理各种音频应用，包括IP语音、视频会议、游戏内聊天、流音乐、甚至远程现场音乐表演。它可以从低比特率窄带语音扩展到非常高清音质的立体声音乐。

（2）AAC(流媒体音频格式)：AAC （Advanced Audio Coding）一种专为声音数据设计的文件压缩格式，与Mp3不同，它采用了全新的算法进行编码，更加高效，具有更高的“性价比”。利用AAC格式，可使人感觉声音质量没有明显降低的前提下，更加小巧。

(3）PCM（脉冲编码调制）：PCM 是一种无损音频编码方法，它将模拟音频信号转换为数字音频信号。PCM 将音频信号进行采样和量化，然后将每个采样值表示为固定位数的二进制数。PCM 编码保留了音频信号的原始精度，但需要较大的存储空间。