Advances in Intelligent Systems and Computing 论文集阅读小记

Speech and Language Processing for Human-Machine Communications Proceedings of CSI 2015 Editors S. S. Agrawal • Amita Dev,Ritika Wason • Poonam Bansal ISSN 2194-5357 ISSN 2194-5365 (electronic) Advances in Intelligent Systems and Computing Volume 664 ISBN 978-981-10-6625-2 ISBN 978-981-10-6626-9 (eBook) https://doi.org/10.1007/978-981-10-6626-9 Library of Congress Control Number: 2017956742 © Springer Nature Singapore Pte Ltd. 2018

论文集一共收录了23篇,向量建模、语音编码器、术语过滤、涉及情感识别、盲文识别和语音阅读、地图信息检索、手写字符分割、图像红外增强,还有两篇语音识别的综述。

第一次看这个领域的论文集,主观感受有两点: 一是,这领域资源的共享属性也太强了吧,几乎都有授权的电子书版本,比其他领域知识传播的渠道要便捷得多。 二是,人工智能领域论文的行文非常随意,比起其他学科的层出不穷的狗屁分析要求,能把问题说清楚就好,点到为止,不来废话。

因为是论文,不是专著,研究的问题非常聚焦,没太多基础知识铺垫,开门见山,信息密度很高,我看着也爽利,迅速抓到核心点。即便不能每一个字节都看懂,但是从技术创新角度获取核心技术点还是很容易的。 研究的领域都比较有意思,很多明显不是直接面向应用层面的,比如一些特殊语言场景的自然语言处理,Bodo Language,Telugu ,Hindi Speech,Indian Sign Language,还有Punjabi,Gujarati盲文,简直是印度方言研究大会。但是可以明显感觉到在这些课题上,研究人员还是比较用心的。国内为什么不多挣点方言识别的论文发发呢,是不喜欢吗? 印象最深的两篇,一篇是由文档级别或者段落级别到句子级别的拆分。一篇是盲文图像识别(后面还有一篇Gujarati盲文转语音的),小语种的研究在声学模型方面更多一点,当然语言学和研究建立的相关语料库也非常重要。

重点看的是Hidden Markov Model for Speech Recognition System—A Pilot Study and a Naive Approach for Speech-To-Text Model这篇,没法,我检到的专利文献里面引用这篇的太多了,之前都是扫了一眼,今天终于看见原文了。 是语音识别领域,用了sphinx toolkit,在Hidden Markov Model和高斯分布的帮助下研究了声学语音模型。 比起LSTM,HMM最近在文献里不怎么常见。 HMM处理的数据要有时序信息,状态值,观测值都比较关键,状态值是隐变量。 识别系统一般先要做front-end processing,完成ADC转换,然后才做声学特征提取,降低数据率,得保证有一定的鲁棒性,并且特征要容易区分。 这篇里面,切片怎么提,特征提取用MFCC。后面用HMM-高斯模型推导出来单音映射,计算训练数据的平均值和方差,再把但因转录映射到预设语音字典上。 对于多音,转写之后需要使用上下文相关的模型结构进行重新估计。 这篇目前只提及了英语处理。没法,语音字典是英文的。

后面有其他有意思的论文集,就继续看,比专著快乐一些。