A Machine Learning Primer 阅读小记

书名:A Machine Learning Primer 作者:Mihail Eric(亚马逊研究科学家) 出版:https://www.confetti.ai/

是开源共享的电子书,下载的时候还没什么出版号。 大道至简,好教材不需要什么花里胡哨的东西。

监督学习

作者从开篇到结尾都在吐槽很多讲述方法花里胡哨。印象最深刻的是他吐槽梯度——就TM一个花里胡哨的导数。笑死。 从线性回归的基本原理讲起,到逻辑回归、朴素贝叶斯、支持向量机、决策树、K临近这些基本概念,用比较浅显的方式在回忆大学数学的内容。 超参数的调整极大影响了模型的优劣,提取正确的特征比什么都重要,早年的很多研究只是提供了不同领域的不同特征集而已。 discriminative 到 generative models的变化,对于信息检索工作而言是质的飞越,而我在具体工作中已经体会到generative models蕴含的巨大力量了。这种感觉很难去形容,或许可以称之为……察觉到自身正处于浪潮中的兴奋感? 朴素贝叶斯,基于很强的独立性假设。 线性分离器:离分类线越远,说明分错的可能性越小,让每一个分类距离分割线都尽可能远,就能保证少分错。在低维不可能线性分离的,通过升维到高维,有可能实现线性分离。 支持向量机就是因为能够学习线性分离器,才做了这么多年香饽饽,但是 radial basis function kernel的训练速度不那么理想。

机器学习实践

讲误差来源,很形象的过拟合例子。 我们更关心模型的泛化能力,就是他测它以前从来没见过的数据,会怎样,毕竟谁需要来解决已经有答案的问题呢?需要处理的都是没有标签的数据。 这就牵扯到如何划分训练数据集和测试数据集的问题。 通常保留10%-30%的数据集用于测试,那么实践当中超过这个比例之外的划分方法就需要引起重视。(这个是我之前没有注意特别去询问的)。训练、验证、测试三个数据集。训练与测试之间的划分不是绝对的,可以多次划分。 模型和算法是用来适应特征的。而特征和问题的属性相关,是根本性问题。 而模型方面,更重要的是,要容易训练。容易训练+适应特征的模型,就是好模型。 对于逻辑回归和线性回归,有不同的模型评价标准。

无监督学习

聚类这玩意儿在工作领域用得很多,现在大部分检索分析系统这个功能都比较成熟了,最近几年主要是在做更好的预定义集合。而把数据聚类到预定义的集合当中去已经不是什么困难的事情。要说使用体验的话,那可能是预定义集合在具体技术领域的概念层级问题没有处理好,也就是这个领域的知识图谱做得不咋地,或者做好了但是并没有在专家进行集合预定义的时候得到很好的应用。由于导诊等需求场景的存在,医学领域的知识图谱做得相对来说比较好。其他领域,可能因为具体应用场景还不是特别清晰明了,没有很好的图谱。更深层次的问题是,可能产业分析所需要的图谱没什么经济性,不太值得做。当然这是个纯实践问题。

我印象比较深刻的是关于主成分分析法的讲解。 通过找到合适的向量来投射,例子很形象,看完觉得,哇,这个角度讲起来很容易理解,但是为什么很多书里面搞得特别复杂最后也没谈到本质问题。 而社科里面的所谓主成分分析,纯粹就是扯淡了,感觉是一群无助的文盲在为强行抬高自己学术垃圾的回收价值而编造的一系列扯淡玩意儿,然而这种你懂我懂大家都懂的东西,最终把整个研究领域都污染了。

最后讲的是深度学习,不过这方面的书很多了我看得就不是特别仔细。前面这些能降到这种程度我觉得没什么理工背景的也能迅速理解,是很好的人工智能入门教材了。