• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

使用通用回归神经网络改进语音反转

Improved speech inversion using general regression neural network.

作者信息

Najnin Shamima, Banerjee Bonny

机构信息

Institute for Intelligent Systems, and Department of Electrical and Computer Engineering, 3815 Central Avenue, The University of Memphis, Memphis, Tennessee 38152, USA

出版信息

J Acoust Soc Am. 2015 Sep;138(3):EL229-35. doi: 10.1121/1.4929626.

DOI:10.1121/1.4929626
PMID:26428818
Abstract

The problem of nonlinear acoustic to articulatory inversion mapping is investigated in the feature space using two models, the deep belief network (DBN) which is the state-of-the-art, and the general regression neural network (GRNN). The task is to estimate a set of articulatory features for improved speech recognition. Experiments with MOCHA-TIMIT and MNGU0 databases reveal that, for speech inversion, GRNN yields a lower root-mean-square error and a higher correlation than DBN. It is also shown that conjunction of acoustic and GRNN-estimated articulatory features yields state-of-the-art accuracy in broad class phonetic classification and phoneme recognition using less computational power.

摘要

在特征空间中,使用两种模型——最先进的深度信念网络(DBN)和广义回归神经网络(GRNN),研究了非线性声学到发音反演映射的问题。任务是估计一组发音特征以改进语音识别。使用MOCHA-TIMIT和MNGU0数据库进行的实验表明,对于语音反演,GRNN比DBN产生更低的均方根误差和更高的相关性。研究还表明,将声学特征与GRNN估计的发音特征相结合,在宽类语音分类和音素识别中,使用更少的计算能力就能产生最先进的准确率。

相似文献

1
Improved speech inversion using general regression neural network.使用通用回归神经网络改进语音反转
J Acoust Soc Am. 2015 Sep;138(3):EL229-35. doi: 10.1121/1.4929626.
2
An episodic memory-based solution for the acoustic-to-articulatory inversion problem.基于情景记忆的声学-发音反转问题解决方案。
J Acoust Soc Am. 2013 May;133(5):2921-30. doi: 10.1121/1.4798665.
3
Automatic speech recognition using articulatory features from subject-independent acoustic-to-articulatory inversion.基于与主体无关的声学-发音反转的发音特征的自动语音识别。
J Acoust Soc Am. 2011 Oct;130(4):EL251-7. doi: 10.1121/1.3634122.
4
Multistream articulatory feature-based models for visual speech recognition.用于视觉语音识别的基于多流发音特征的模型。
IEEE Trans Pattern Anal Mach Intell. 2009 Sep;31(9):1700-7. doi: 10.1109/TPAMI.2008.303.
5
A neural network model of the articulatory-acoustic forward mapping trained on recordings of articulatory parameters.一个基于发音参数记录训练的发音-声学正向映射神经网络模型。
J Acoust Soc Am. 2004 Oct;116(4 Pt 1):2354-64. doi: 10.1121/1.1715112.
6
Voice source characterization using pitch synchronous discrete cosine transform for speaker identification.使用基音同步离散余弦变换进行语音源特征提取以用于说话人识别。
J Acoust Soc Am. 2015 Jun;137(6):EL469-75. doi: 10.1121/1.4921679.
7
Speech production knowledge in automatic speech recognition.自动语音识别中的语音生成知识。
J Acoust Soc Am. 2007 Feb;121(2):723-42. doi: 10.1121/1.2404622.
8
Automatic pronunciation error detection in non-native speech: the case of vowel errors in Dutch.非母语者语音中的自动发音错误检测:以荷兰语中的元音错误为例。
J Acoust Soc Am. 2013 Aug;134(2):1336-47. doi: 10.1121/1.4813304.
9
Neural networks for improved text-independent speaker identification.
IEEE Eng Med Biol Mag. 2002 Mar-Apr;21(2):53-8. doi: 10.1109/memb.2002.1000186.
10
Speaker-independent consonant classification in continuous speech with distinctive features and neural networks.
J Acoust Soc Am. 1993 Dec;94(6):3091-103. doi: 10.1121/1.407243.