摘要:针对关键词中的集外词检索任务,本文提出采用音素、音节、词片三种子词单元进行多流信息的联合检索算法, 其中对基于音素的STD(Spoken Term Detection)系统使用基于n元语言模型-加权有限状态机的完全匹配检索降低漏警,对基于音节、词片的STD系统使用模糊匹配检索降低虚警, 最后采用线性逻辑回归(Linear Logistic Regression, LLR)的算法将三个子系统的结果进行融合。在NIST STD 2006语音检索评测的英语电话会话语音测试集上的实验结果表明,相对于最好的单流系统,多流信息融合获得了12%的实际词项权重值(Actual Term Weighted Value, ATWV)相对提升。