LEAF：可学习的音频特征提取模块

tfwechat · April 12, 2021, 10:49pm

文 / Neil Zeghidour，Google Research 研究员

过去几年，在开发音频理解的机器学习 (ML) 模型上取得长足进步。利用从数据学习参数的能力，该领域已逐步从复杂的手工系统转向当今的深度神经分类器，用于识别语音、理解音乐或对动物声音（如鸟叫）进行分类。然而，不同于可从原始像素学习的计算机视觉模型，用于音频分类的深度神经网络很少训练自原始音频波形。取而代之的是，它们依赖于 mel 滤波器组形式的预处理数据，这些经过手工设计的 mel 比例谱图可复制人类听觉响应的某些特征。

虽然为 ML 任务建模 mel 滤波器组历来都很成功，但是它会受到固定特征偏差的限制：尽管通常使用固定 mel 比例和对数压缩效果很好，我们仍然无法保证当下它们可以给任务提供最好的表现。即使匹配人类感知为语音识别或音乐理解等应用领域提供了良好的归纳偏差，这些偏差也有可能对模仿人耳并不重要的领域不利，例如识别鲸鱼的叫声。因此，为了达到最佳性能，mel 滤波器组应根据具体任务进行定制。这会是一个繁琐的过程，需要在领域知识专家的指导下反复尝试。结果，标准 mel 滤波器组虽然在实践中并非最佳选项，仍被用于大多数音频分类任务。此外，尽管研究人员已经提出 ML 系统应对这些问题，如时域滤波器组，SincNet 和 Wavegram，但它们的性能还无法与传统 mel 滤波器组相媲美。

在 ICLR 2021 的 “LEAF, A Fully Learnable Frontend for Audio Classification” 中，我们提出了一种为音频理解任务制作可学习谱图的替代方法。LEarnable Audio Frontend (LEAF) 是一个神经网络，可以被初始化为类 mel 滤波器组并与任何音频分类器联合训练以适应任务，同时只在完整模型中添加少量参数。在语音、音乐和鸟鸣等广泛的音频信号和分类任务中，我们发现LEAF 谱图都比固定 mel 滤波器组和先前的可学习系统具有更高的分类性能。我们已经在 TensorFlow 2 中实现了代码，并通过 GitHub 仓库向社区发布。

Mel 滤波器组：模仿人类对声音的感知

在 mel 滤波器组的传统创建方法中，第一步是通过加窗捕获声音的时变性，即将信号切割成固定持续时间的短段。然后，将加窗的片段通过固定频率滤波器组进行滤波，复制人类对音高的对数敏感度。因为我们对低频的变化比高频更敏感，所以 mel 滤波器组更重视声音的低频范围。最后，音频信号被压缩，模仿耳朵对响度的对数敏感度 - 声音需要将其功率加倍才能让人感觉到 3 分贝的提升。

LEAF 大致沿用了传统的 mel 滤波器组生成方法，但由已学习的对应项取代了每一个固定运算（即筛选层、加窗层和压缩函数）。LEAF 的输出是一个类似于 mel 滤波器组的时频表示（频谱图），但完全可以学习。因此，举例来说，当 mel 滤波器组对音高使用固定的音阶时，LEAF 会学习最适合对应任务的音阶。任何可以使用 mel 滤波器组作为输入特征进行训练的模型也都可以在 LEAF 谱图上训练。

mel 滤波器组与 LEAF 谱图的计算示意图对比

LEAF 可以随机初始化，也可以采用一种近似 mel 滤波器组的方式初始化，这也被证明是一个更好的起点。然后，可以使用任何分类器训练 LEAF 以适应对应的任务。

左：mel 滤波器组，一个人在说“wow”；右：LEAF 经过语音指令数据集训练后，对同一样本的输出

固定特征的高效参数替代方案

如果用可训练系统替换不涉及可学习参数的固定特征，一个潜在缺点是它可能会显著增加需要优化的参数数量。为了避免这个问题，LEAF 使用 Gabor 卷积层，每个滤波器只有两个参数，而不是标准卷积层典型的约 400 个参数。这样一来，即使搭配小型分类器，比如 EfficientNetB0，LEAF 模型也只占总参数的 0.01%。

上图：音频事件分类训练后的无约束卷积滤波器；下图：LEAF 滤波器在同一任务训练后的收敛

性能

我们将 LEAF 应用于识别语音命令、说话人识别、声学场景识别、识别乐器和寻找鸟鸣等各种音频分类任务。平均而言，LEAF 的表现优于 mel 滤波器组和先前的可学习前端，例如时域滤波器组、SincNet 和 Wavegram。特别是 LEAF 在不同任务上达到了 76.9% 的平均准确率，而 mel 滤波器组的准确率为 73.9%。此外，我们还证明 LEAF 可以在多任务环境下进行训练，这样，单个 LEAF 参数化即可良好运用于所有任务。最后，当与大型音频分类器相结合时，LEAF 在具有挑战性的 AudioSet 基准上达到最先进性能，d-prime 得分为 2.74。

LEAF、mel 滤波器组和先前的可学习谱图在 AudioSet 评估集上的 d-prime 得分（越高越好）

结论

从语音痴呆诊断到水下麦克风座头鲸叫声的检测，音频理解任务的范围正在不断扩大。使 mel 滤波器组适应新任务可能需要大量手动调整和试验。在这种情况下，LEAF 为这些固定特征提供了直接替代方案，任务只需最少的特定调整，即可通过训练适应对应的任务。因此，我们相信 LEAF 可以加快新的音频理解任务模型的开发。

致谢

我们要感谢合著者 Olivier Teboul、Félix de Chaumont-Quitry 和 Marco Tagliasacchi。还要感谢 Dick Lyon、Vincent Lostanlen、Matt Harvey 和 Alex Park 的实用讨论，感谢 Julie Thomas 协助设计了这篇文章的图表。

原文：LEAF: A Learnable Frontend for Audio Classification
中文：谷歌开发者公众号