李佳生的个人博客

RTC常用音频算法概述

发布时间：Jan. 28, 2023, 2:33 p.m.编辑：李佳生阅读（1966）

截屏2023-01-29 14.11.41.png

分类	算法	简介
基础	AGC	调整音频整体响度，防止语音忽大、忽小、过大、过小，一般在上行链路处理，但也有在DAC前增加AGC环节，防止对端AGC不鲁棒或多路信号不一致导致的音量不稳定问题。
	AEC	回声消除，去除mic采集信号中，下行播放的部分，防止产生回声到对端，让对端听到自己的声音，目前研究分为传统、AI方法比较好的原理简介文章: 深入浅出 WebRTC AEC（声学回声消除）
	ANR	主动降噪，去除除语音外的其他背景噪声，使通话更加清晰，目前研究分为传统、AI方法，传统更加通用鲁棒，AI方法针对特定、突发声音(键盘、bubble等)相对传统降噪优势明显。
	DRC	动态范围控制
	Encode Decode	编解码，使音频信号以尽可能低的码率，传输更高的质量，目前AI编解码居多
场景识别	VAD	人声检测，GMM、RNN、Pitch-based
	Howling Detect	啸叫检测，防止啸叫持续
	Music Detect	音乐检测，可以用来进行音质调整等
音效处理	Spatial Sound	HRTF、VBAP、Ambisonics
	Sound Shaping	风格调音(EQ)、变声(机器人、男女)、混响(Reverb)、特殊音效(echo)、AI
	Resampler	重采样，使多采样率系统正常工作
	Limiter	限幅器，防止信号幅度过大
	Declipper	去削波，减少大信号削波的影响
	Mixer	混音，多路信号混音为单路信号
	loudnorm	音量均衡，使各个信号成分响度接近
	Ducking	闪避算法，减弱语音场景下非语音的音量
	de-esser	嘶音消除器，处理mic高频成分，防止刺耳声
	Dereverberation/Deconvolution	去混响
麦克风	FBF	固定波束设计
	DOA	Direction of arrival
	ABF	自适应波束设计
	PF	后滤波
	SSL&SST	声源定位&跟踪
	Speech Recognization	语音识别，常用的有关键词识别、语音唤醒等
声源分离	Beamforming	波束成型
声源分离	blind source seperation/blind deconvolution	盲源分离
其他	Music Score	音乐打分
	Pitch Track	基频检测，作为其他算法的分析工具、互动娱乐
	Stretch	变速不变调: 时域压扩(TSM)、波形相似叠加(WSOLA)
	Onset Detection	节拍检测
	Mic Selection	选麦算法，在下行信号路数非常多的情况下，不可能全部进行处理，需要按照一定规则选出最重要的信号进行处理播放

关键字：音频音频算法

上一篇：梅尔谱&倒谱&MFCCs

下一篇：IIR&FIR