宝塔服务器面板,一键全能部署及管理,送你10850元礼包,点我领取

学习英语核心高价值翻译内容,请关注瑞英源软件,谢谢。

背景

kaldi语音识别输出与语言特征密切相关,细节优化很多。这篇文章与此有关,所以翻译出来是为了学习,感谢kaldi开源项目团队。

00-1010我想我没有任何可用的脚本方案。你可能想训练一个没有单词位置依赖的系统可以选择prepare_lang.sh来做到这一点),然后为了解码,你会准备一个单词和音素一一对应的字典,在这个字典上你可以构建LM。但是,一个微妙的点是不允许重复沉默,这会在网格中造成很多无用的混乱。这可以通过将LM与一个特殊的小型FST相结合来实现。

对了,丹,有趣的是你提到了沉默标记重复。前段时间我做了一些涉及音素识别的实验,看到了这种多个大多数情况下是两个)SILs连续出现的现象,但是没有调查是什么原因导致的。我没有使用网格,而是使用了“更快”的解码器。是因为SIL输出标签在确定过程中以某种方式被推回,由于静音音素的环形拓扑,相应的弧线被遍历了几次?你提到的特殊FST是什么?

嗨,亮山,你怎么在字典和LM里表达沉默?只是把它当成字典里的一个词,用静音标记在文本上训练语言模型?当字典中没有可选的sil转换,并且LM中没有将沉默视为一个词时,处理沉默的一种方法是使用下面文章中的“随机沉默”模型。但是这会导致输出中出现多个静音标记,所以我觉得Dan是在做别的事情。“集成语音识别传感器的广义构造”,载于Proc。ICASSP,第761764页,2004年。

嗨,Paul,我在长音频对齐的背景下进行了这些实验,其中音素元组被用来模拟转录和音频之间的黑白差异也就是说,类似于http://citseerx . ist . PSU edu/view doc/summary中描述的内容?doi=10.1.1.154.5104).我尝试过几种略有不同的图形配置,但据我所知,我的图形配置中的连续SIL标记将静默建模为可选的SIL:在抄本中每两个单词之间的每个状态中SIL自循环字典中没有可选的静默,并且静默不是表示插入和替换的音素二进制垃圾模型的一部分)。所以我想知道,考虑到与自循环相关的惩罚IIRC对应1/10或1/20的沉默插入概率),为什么搜索“更喜欢”进入SIL音素模型一次,然后退出,再返回。

谢谢你的参考——我不能老老实实地说我理解那篇论文的所有内容,因为它似乎需要阅读关于各种算法的其他内容,但我认为我理解了关于静默建模的部分。

在多静音——上,有时它更喜欢重复静音,这样可以回到第一个静音状态,否则无法达到其他状态。一般来说,如果可能的话,最好禁止这样做,因为这会导致晶格中无用的混乱。

其实明山——我觉得还有一个问题。安静莲花算法旨在为每个输出符号序列提供路径,这些路径在最佳波束内是可能的。如果静音在图中显示为输出符号,则具有一个或两个静音的路径具有不同的符号序列,如果它们都在光束中,晶格将包含它们。在IBM的silent lotus算法中,我们专门处理沉默来避免这种情况,但Kaldi方法通常不会将沉默作为输出符号,因此它会为任何单词序列选择最佳的“沉默路径”。对于音素语言模型,将其设置为输出符号但不允许重复可能更方便。不管怎样,这个问题都应该解决。

看看egs/timit/s5,或许能满足你的需求。

泽维尔——不知道你在问什么。但无论如何,不管是什么剧本方案,对你的目的来说可能都足够了。沉默更多的是一种优化。