Advances in Intelligent Systems and Computing 论文集阅读小记

2022年10月18日

Speech and Language Processing for Human-Machine Communications Proceedings of CSI 2015 Editors S. S. Agrawal • Amita Dev，Ritika Wason • Poonam Bansal ISSN 2194-5357 ISSN 2194-5365 (electronic) Advances in Intelligent Systems and Computing Volume 664 ISBN 978-981-10-6625-2 ISBN 978-981-10-6626-9 (eBook) https://doi.org/10.1007/978-981-10-6626-9 Library of Congress Control Number: 2017956742 © Springer Nature Singapore Pte Ltd. 2018

论文集一共收录了23篇，向量建模、语音编码器、术语过滤、涉及情感识别、盲文识别和语音阅读、地图信息检索、手写字符分割、图像红外增强，还有两篇语音识别的综述。

第一次看这个领域的论文集，主观感受有两点：一是，这领域资源的共享属性也太强了吧，几乎都有授权的电子书版本，比其他领域知识传播的渠道要便捷得多。二是，人工智能领域论文的行文非常随意，比起其他学科的层出不穷的狗屁分析要求，能把问题说清楚就好，点到为止，不来废话。

因为是论文，不是专著，研究的问题非常聚焦，没太多基础知识铺垫，开门见山，信息密度很高，我看着也爽利，迅速抓到核心点。即便不能每一个字节都看懂，但是从技术创新角度获取核心技术点还是很容易的。研究的领域都比较有意思，很多明显不是直接面向应用层面的，比如一些特殊语言场景的自然语言处理，Bodo Language，Telugu ，Hindi Speech，Indian Sign Language，还有Punjabi，Gujarati盲文，简直是印度方言研究大会。但是可以明显感觉到在这些课题上，研究人员还是比较用心的。国内为什么不多挣点方言识别的论文发发呢，是不喜欢吗？印象最深的两篇，一篇是由文档级别或者段落级别到句子级别的拆分。一篇是盲文图像识别（后面还有一篇Gujarati盲文转语音的），小语种的研究在声学模型方面更多一点，当然语言学和研究建立的相关语料库也非常重要。

重点看的是Hidden Markov Model for Speech Recognition System—A Pilot Study and a Naive Approach for Speech-To-Text Model这篇，没法，我检到的专利文献里面引用这篇的太多了，之前都是扫了一眼，今天终于看见原文了。是语音识别领域，用了sphinx toolkit，在Hidden Markov Model和高斯分布的帮助下研究了声学语音模型。比起LSTM，HMM最近在文献里不怎么常见。 HMM处理的数据要有时序信息，状态值，观测值都比较关键，状态值是隐变量。识别系统一般先要做front-end processing，完成ADC转换，然后才做声学特征提取，降低数据率，得保证有一定的鲁棒性，并且特征要容易区分。这篇里面，切片怎么提，特征提取用MFCC。后面用HMM-高斯模型推导出来单音映射，计算训练数据的平均值和方差，再把但因转录映射到预设语音字典上。对于多音，转写之后需要使用上下文相关的模型结构进行重新估计。这篇目前只提及了英语处理。没法，语音字典是英文的。

后面有其他有意思的论文集，就继续看，比专著快乐一些。