RTC常用音频算法概述

发布时间:Jan. 28, 2023, 2:33 p.m.编辑:李佳生阅读(1165)

截屏2023-01-29 14.11.41.png

分类算法简介
基础AGC调整音频整体响度,防止语音忽大、忽小、过大、过小,一般在上行链路处理,但也有在DAC前增加AGC环节,防止对端AGC不鲁棒或多路信号不一致导致的音量不稳定问题。
AEC

回声消除,去除mic采集信号中,下行播放的部分,防止产生回声到对端,让对端听到自己的声音,目前研究分为传统、AI方法

比较好的原理简介文章: 深入浅出 WebRTC AEC(声学回声消除)

ANR主动降噪,去除除语音外的其他背景噪声,使通话更加清晰,目前研究分为传统、AI方法,传统更加通用鲁棒,AI方法针对特定、突发声音(键盘、bubble等)相对传统降噪优势明显。
DRC动态范围控制

Encode

Decode

编解码,使音频信号以尽可能低的码率,传输更高的质量,目前AI编解码居多
场景识别VAD人声检测,GMM、RNN、Pitch-based
Howling Detect啸叫检测,防止啸叫持续
Music Detect音乐检测,可以用来进行音质调整等
音效处理Spatial SoundHRTF、VBAP、Ambisonics
Sound Shaping

风格调音(EQ)、变声(机器人、男女)、混响(Reverb)、特殊音效(echo)、AI

Resampler重采样,使多采样率系统正常工作
Limiter限幅器,防止信号幅度过大
Declipper去削波,减少大信号削波的影响
Mixer混音,多路信号混音为单路信号
loudnorm音量均衡,使各个信号成分响度接近
Ducking闪避算法,减弱语音场景下非语音的音量
de-esser嘶音消除器,处理mic高频成分,防止刺耳声
Dereverberation/Deconvolution去混响
麦克风FBF固定波束设计
DOADirection of arrival
ABF自适应波束设计
PF
后滤波
SSL&SST声源定位&跟踪
Speech Recognization语音识别,常用的有关键词识别、语音唤醒等
声源分离Beamforming波束成型
blind source seperation/blind deconvolution盲源分离
其他Music Score音乐打分

Pitch Track

基频检测,作为其他算法的分析工具、互动娱乐
Stretch变速不变调: 时域压扩(TSM)、波形相似叠加(WSOLA)
Onset Detection节拍检测
Mic Selection选麦算法,在下行信号路数非常多的情况下,不可能全部进行处理,需要按照一定规则选出最重要的信号进行处理播放

关键字音频 音频算法

上一篇:梅尔谱&倒谱&MFCCs

下一篇:IIR&FIR