1：声音三要素 - 音调、响度、音色

现实生活中，我们听到的声音都是时间连续的，我们称为这种信号叫模拟信号。模拟信号需要进行数字化以后才能在计算机中使用。

目前我们在计算机上进行音频播放都需要依赖于音频文件。那么音频文件如何生成的呢？

音频文件的生成过程是将声音信息采样、量化和编码产生的数字信号的过程，我们人耳所能听到的声音频率范围为（20Hz~20KHz），因此音频文件格式的最大带宽是20KHZ。

根据奈奎斯特的理论，音频文件的采样率一般在40~50KHZ之间。

奈奎斯特采样定律，又称香农采样定律，即：为了不失真地恢复模拟信号，采样频率应该大于等于模拟信号频谱中最高频率的2倍。

涉及到声音的三个基础且重要的特征：音调、响度和音色，也称为声音的三要素。

2：声音的采集与量化

用图可以很好的说明：

声音有三要素一样，音频数字信号也有几个需要我们关注的基础属性，分别是采样率、采样位深和声道数。这些属性是影响音频数字信号质量的关键指标（我们常说的音质），也称为音频数字信号的质量三要素

音频采样率，指的是单位时间内（1s）对声音信号的采样次数（参考数字化过程-采样）。常说的 44.1KHz 采样率，也即 1 秒采集了 44100 个样本。

具体采样率满足场景如下：

采样位深，指的是在音频采集量化过程中，每个采样点幅度值的取值精度，一般使用bit作为单位。比如，当采样位深为 8bit，则每个采样点的幅度值可以用 2^8=256 个量化值表示；采样位深为 16bit 时，则每个采样点的幅度值可以用 2^16=65536 个量化值表示

相对于采样率和位深，声道数，我们比较熟悉。我们常说的单声道、双声道，其实就是在描述一个音频信号的声道数（分别对应于声道数 1 和 2）。