声纹识别通识篇 人工智能应用技术之智能语音技术

智能语音技术是以“语音”为研究对象,对语音语义进行识别、理解以及生成,使机器具备自然语言处理能力,并且利用其核心技术赋予机器“听觉”、“理解能力”以及“语言能力” 。
智能语音“三步曲”
智能语音技术涉及多类型学科,其核心技术包括语音识别(ASR)、声纹识别(VPR)、自然语言处理(NLP)、语音合成(TTS)、语音去噪等关键技术 。
智能语音技术
【声纹识别通识篇 人工智能应用技术之智能语音技术】声纹识别
声纹与指纹相似,每个人在说话过程中所蕴含的语音特征和发音习惯几乎是独一无二的,基于这些特征(参数)所建立的语音模型称为声纹 。
声纹识别( ,VPR)是根据待识别语音的声纹特征识别该段语音所对应的说话人的过程 。
声纹识别技术常常用于说话人辨认( )和说话人确认( ) 。
说话人辨认( )是判断某段语音是若干人中的哪一个所说的,是“多选一”问题 。
说话人确认( )是确认某段语音是否是指定的某个人所说的,是“一对一判别”问题 。
说话人辨认和说话人确认
声纹识别发展历程
第一阶段
人工分析阶段(从17世纪60年代开始) , 以语音作为身份认证的手段,至到1945年 , Bell实验室首次提出“声纹”的概念 。
第二阶段
基于专家知识与模板匹配阶段(从20世纪60年代~80年代),1969年首次提出用倒谱技术进行声纹特征识别,并取得较好的效果 , 同时Bell实验室提出基于模板匹配和统计方差分析的说话人识别 。
第三阶段
基于混合高斯的识别模型阶段(从20世纪90年代~21世纪初) , GMM简单、灵活、有效、较好的鲁棒性,迅速成为主流技术,将说话人识别研究带入一个新的阶段 。
第四阶段
基于深度学习与端到端学习阶段(从21世纪初~至今),基于深度学习和端到端的相关方法应用到说话人识别中微弱信号检测人工智能,取得了不俗的成效,并逐渐工程化和实用化阶段推进 。
声纹识别流程
声纹识别和语音识别在原理上相同 , 都是通过对采集到的语音信号进行分析和处理,提取相应的特征或建立相应的模型,然后据此做出判断 。但二者提取的特征和建立的模型是不同的 。
声纹识别建立的是每个人的个性特征 , 而语音识别则是侧重于对话者所表述的内容进行识别 。
声纹识别主要分为两个阶段,一个是注册语音阶段,另一个是测试语音阶段 。
声纹识别流程
对说话人预留充足的语音;
对不同说话人提取声学特征;
根据每个说话人的语音特征训练得到对应的说话人模型;
将全体说话人模型集合在一起组成系统说话人声纹模型库 。
对识别语音进行相同的特征提取过程;
将语音特征与说话人模型库进行比对,得到对应说话人模型的相似性打分;
根据识别打分判别得到识别语音的说话人身份 。
由此,可以看出声纹识别主要就是“特征”、“模型”、“比对”三大核心 。
特征
MFCC/PLP/FBank等短时频谱特征、D- 、Deep 、 、 等 。
模型
GMM-UBM、JFA联合因子分析、GMM-UBM i-、-UBM i-、DNN i-、End-to-End等 。
比对
SVM、(CDS)、LDA、PLDA等 。
声纹识别结果
声纹识别作为生物识别技术的一种,同样应用覆盖场景很多 , 如公共安全、金融、社保、电话银行、智能门禁等领域都有广泛的应用前景 。您是否对语音识别感兴趣呢?欢迎一起交流探讨 。
最后,引用《礼记·大学》的一段话:“古之欲明明德于天下者 , 先治其国;欲治其国者,先齐其家;欲齐其家者,先修其身;欲修其身者,先正其心;欲正其心者,先诚其意;欲诚其意者,先致其知微弱信号检测人工智能 , 致知在格物 。物格而后知至,知至而后意诚,意诚而后心正 , 心正而后身修,身修而后家齐,家齐而后国治 , 国治而后天下平 。” 。
本文到此结束,希望对大家有所帮助 。