标题    全文    标题或全文  |   精确查询    模糊查询
标题:
全文:
期刊名称:
全部
作者:
作者单位:
关键词:
期刊年份:
全部
期号:
学科分类:
全部
搜索 清空
基于深度嵌入向量的说话人分割研究
《刑事技术》
2023年
5
466-472
许铭洋;王华朋;闫道申;杨海涛;楚宪腾
中国刑事警察学院公安信息技术与情报学院,沈阳 110854
为提高多说话人混合语音分割的准确度,本文提出了采用广义端到端损失函数训练说话人深度嵌入向量提取模型用于多说话人分割.该方法首先训练基于长短时记忆的深度神经网络作为深度嵌入向量提取器;其次,在音频文件中截取每个说话人的参考语音段并训练其嵌入向量;最后,比较音频文件的连续嵌入与每个说话人嵌入之间的余弦相似度得分,实现说话人分割.该方法采用先识别后分割的原理,在能够预知说话人数量的场景中有较好的分割效果,可以为多说话人自动识别系统自动分割目标说话人语音,提高工作效率.
说话人分割        长短时记忆        广义端到端        音频嵌入        余弦相似度
speaker diarization        LSTM        GE2E        audio embedding        cosine similarity
保存检索条件
X
添加标签:

给这组订阅条件设置标签名称,可以更加方便您管理和查看。

保存条件:
微信“扫一扫”
法信App“扫一扫”
操作提示
对不起,您尚未登录,不能进行此操作!
关联法条X