学习英语核心高价值翻译内容，请关注瑞英源软件，谢谢。

背景

kaldi 语音识别输出与语言特征密切相关，细节优化很多。这篇文章与此有关，所以翻译出来是为了学习，感谢kaldi开源项目团队。

00-1010我想我没有任何可用的脚本方案。你可能想训练一个没有单词位置依赖的系统可以选择prepare_lang.sh来做到这一点)，然后为了解码，你会准备一个单词和音素一一对应的字典，在这个字典上你可以构建LM。但是，一个微妙的点是不允许重复沉默，这会在网格中造成很多无用的混乱。这可以通过将LM与一个特殊的小型FST相结合来实现。

对了，丹，有趣的是你提到了沉默标记重复。前段时间我做了一些涉及音素识别的实验，看到了这种多个大多数情况下是两个)SILs连续出现的现象，但是没有调查是什么原因导致的。我没有使用网格，而是使用了“更快”的解码器。是因为SIL输出标签在确定过程中以某种方式被推回，由于静音音素的环形拓扑，相应的弧线被遍历了几次？你提到的特殊FST是什么？

嗨，亮山，你怎么在字典和LM里表达沉默？只是把它当成字典里的一个词，用静音标记在文本上训练语言模型？当字典中没有可选的sil转换，并且LM中没有将沉默视为一个词时，处理沉默的一种方法是使用下面文章中的“随机沉默”模型。但是这会导致输出中出现多个静音标记，所以我觉得Dan是在做别的事情。“集成语音识别传感器的广义构造”，载于Proc。ICASSP，第761764页，2004年。

嗨，Paul，我在长音频对齐的背景下进行了这些实验，其中音素元组被用来模拟转录和音频之间的黑白差异也就是说，类似于http://citseerx . ist . PSU edu/view doc/summary中描述的内容？doi=10.1.1.154.5104).我尝试过几种略有不同的图形配置，但据我所知，我的图形配置中的连续SIL标记将静默建模为可选的SIL:在抄本中每两个单词之间的每个状态中SIL自循环字典中没有可选的静默，并且静默不是表示插入和替换的音素二进制垃圾模型的一部分)。所以我想知道，考虑到与自循环相关的惩罚IIRC对应1/10或1/20的沉默插入概率)，为什么搜索“更喜欢”进入SIL音素模型一次，然后退出，再返回。

谢谢你的参考——我不能老老实实地说我理解那篇论文的所有内容，因为它似乎需要阅读关于各种算法的其他内容，但我认为我理解了关于静默建模的部分。

在多静音——上，有时它更喜欢重复静音，这样可以回到第一个静音状态，否则无法达到其他状态。一般来说，如果可能的话，最好禁止这样做，因为这会导致晶格中无用的混乱。

其实明山——我觉得还有一个问题。安静莲花算法旨在为每个输出符号序列提供路径，这些路径在最佳波束内是可能的。如果静音在图中显示为输出符号，则具有一个或两个静音的路径具有不同的符号序列，如果它们都在光束中，晶格将包含它们。在IBM的silent lotus算法中，我们专门处理沉默来避免这种情况，但Kaldi方法通常不会将沉默作为输出符号，因此它会为任何单词序列选择最佳的“沉默路径”。对于音素语言模型，将其设置为输出符号但不允许重复可能更方便。不管怎样，这个问题都应该解决。

看看egs/timit/s5，或许能满足你的需求。

泽维尔——不知道你在问什么。但无论如何，不管是什么剧本方案，对你的目的来说可能都足够了。沉默更多的是一种优化。

kaldi语音识别案例图解语音识别

背景

Published by

风君子

近期文章

标签

书签