• 文献检索
  • 文档翻译
  • 深度研究
  • 学术资讯
  • Suppr Zotero 插件Zotero 插件
  • 邀请有礼
  • 套餐&价格
  • 历史记录
应用&插件
Suppr Zotero 插件Zotero 插件浏览器插件Mac 客户端Windows 客户端微信小程序
定价
高级版会员购买积分包购买API积分包
服务
文献检索文档翻译深度研究API 文档MCP 服务
关于我们
关于 Suppr公司介绍联系我们用户协议隐私条款
关注我们

Suppr 超能文献

核心技术专利:CN118964589B侵权必究
粤ICP备2023148730 号-1Suppr @ 2026

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验

针对语音多流识别中的流融合优化。

Toward optimizing stream fusion in multistream recognition of speech.

机构信息

Department of Neurological Surgery, University of California, San Francisco, California 94122, USA.

出版信息

J Acoust Soc Am. 2011 Jul;130(1):EL14-8. doi: 10.1121/1.3595744.

DOI:10.1121/1.3595744
PMID:21786862
Abstract

A multistream phoneme recognition framework is proposed based on forming streams from different spectrotemporal modulations of speech. Phoneme posterior probabilities were estimated from each stream separately and combined at the output level. A statistical model of the final estimated posterior probabilities is used to characterize the system performance. During the operation, the best fusion architecture is chosen automatically to maximize the similarity of output statistics to clean condition. Results on phoneme recognition from noisy speech indicate the effectiveness of the proposed method.

摘要

提出了一种基于从语音的不同时频调制形成流的多流音素识别框架。从每个流分别估计音素后验概率,并在输出级别进行组合。最终估计后验概率的统计模型用于描述系统性能。在操作过程中,自动选择最佳融合架构,以最大化输出统计与清洁条件的相似性。来自噪声语音的音素识别结果表明了所提出方法的有效性。

相似文献

1
Toward optimizing stream fusion in multistream recognition of speech.针对语音多流识别中的流融合优化。
J Acoust Soc Am. 2011 Jul;130(1):EL14-8. doi: 10.1121/1.3595744.
2
Temporal envelope compensation for robust phoneme recognition using modulation spectrum.基于调制谱的鲁棒音素识别的时间包络补偿。
J Acoust Soc Am. 2010 Dec;128(6):3769-80. doi: 10.1121/1.3504658.
3
Effect of speech-intrinsic variations on human and automatic recognition of spoken phonemes.语音固有变化对人类和自动语音音位识别的影响。
J Acoust Soc Am. 2011 Jan;129(1):388-403. doi: 10.1121/1.3514525.
4
Noise-robust speech recognition through auditory feature detection and spike sequence decoding.通过听觉特征检测和尖峰序列解码实现抗噪语音识别。
Neural Comput. 2014 Mar;26(3):523-56. doi: 10.1162/NECO_a_00557. Epub 2013 Dec 9.
5
Temporal resolution analysis in frequency domain linear prediction.时域分辨率分析在频域线性预测中的应用。
J Acoust Soc Am. 2012 Nov;132(5):EL436-42. doi: 10.1121/1.4758826.
6
Robust audio-visual speech recognition under noisy audio-video conditions.在嘈杂的音视频条件下进行稳健的视听语音识别。
IEEE Trans Cybern. 2014 Feb;44(2):175-84. doi: 10.1109/TCYB.2013.2250954.
7
Accuracy of formant measurement for synthesized vowels using the reassigned spectrogram and comparison with linear prediction.利用重排语谱图和线性预测对合成元音的共振峰测量的准确性进行比较。
J Acoust Soc Am. 2010 Apr;127(4):2114-7. doi: 10.1121/1.3308476.
8
Impulse-noise suppression in speech using the stationary wavelet transform.利用平稳小波变换抑制语音中的脉冲噪声。
J Acoust Soc Am. 2013 Feb;133(2):866-79. doi: 10.1121/1.4773264.
9
A classification based approach to speech segregation.基于分类的语音分离方法。
J Acoust Soc Am. 2012 Nov;132(5):3475-83. doi: 10.1121/1.4754541.
10
Dynamic formant tracking of noisy speech using temporal analysis on outputs from a nonlinear cochlear model.基于非线性耳蜗模型输出的时间分析对噪声语音进行动态共振峰跟踪
IEEE Trans Biomed Eng. 1993 May;40(5):456-67. doi: 10.1109/10.243416.

引用本文的文献

1
A Multistream Feature Framework Based on Bandpass Modulation Filtering for Robust Speech Recognition.一种基于带通调制滤波的多流特征框架用于鲁棒语音识别。
IEEE Trans Audio Speech Lang Process. 2013 Feb;21(2):416-426. doi: 10.1109/TASL.2012.2219526. Epub 2012 Sep 18.
2
Decreased ability in the segregation of dynamically changing vowel-analog streams: a factor in the age-related cocktail-party deficit?动态变化的类元音流分离能力下降:与年龄相关的鸡尾酒会效应缺失的一个因素?
Front Neurosci. 2014 Jun 12;8:144. doi: 10.3389/fnins.2014.00144. eCollection 2014.