Embeddings in Natural Language Processing 阅读小记1

书名:Embeddings in Natural Language Processing:Theory and Advances in Vector Representations of Meaning 作者:Jose Camacho-Collados,Mohammad Taher Pilehvar. 出版社:Morgan&cLaypool. 出版时间:2020.11.13. ISBN-10 :1636390218; ISBN-13:9781636390215.

GitHub上分享的NLP入门电子书,目前看了1-3章。

前三章主要解决了我两方面的疑惑。一个是NLP为什么难,一个是VSM到底怎么来的。

█ NLP为什么这么难。 文中主要介绍:歧义、比喻,以及常识的运用。 歧义方面,从英文这个看起来就眉清目秀的语言举例子,说明了词汇、句子级别多重含义理解困难,句子段落中的隐喻照应。中文显然更难。 常识和比喻方面,中文就更不用说了,海量的风俗生活相关词汇,各种敬语俗语避讳。别说对情感分类提出了很大挑战,基本处理都很困难。活人从小到大都在被教育如何“得当”表达,计算机更难好吧。 除此之外,中文特有的复杂性还体现在话语体系上,目前使用的话语体系有多套,并且相互之间还能混用。 简单分就是文言和白话。 文言不说了,教育教学领域经典难题之一。但是工作上我目前在这一应用场景中,很少见到相关提案。 白话也挺复杂,而且越整越复杂。

比如不知何时自成一派的官方话语体系,比如恨不得渗入你每一寸毛孔的互联网商业新生代话语体系,而且这两者之间微妙蚺和,经典没事找事反问段子——

你们发这些的底层逻辑是什么?顶层设计在哪里?最终交附加值是什么?过程的抓手在哪里如何保证结果闭环?能够赋能产品生态?你的亮点在哪里?优势在哪里?我没有看到你的思考和沉淀,你有形成自己的方法论吗?你得让人清楚,凭什么发这个的人是你。

以子之矛攻子之盾的经典文案也有,随便从我行官网拉一段出来——

要着力推动知识产权事业高质量发展,进一步把知识产权工作放在党和国家工作大局中来思考、来定位,找准切合点、结合点、着力点,充分发挥知识产权对内激励创新、对外促进开放的重要作用,助力经济平稳健康发展,服务国家发展大局。要以实施知识产权强国建设纲要和“十四五”规划为总抓手,坚持政治引领、服务大局,坚持稳字当头、稳中求进,坚持落实为要、质量优先,坚持改革创新、提升能力,坚持底线思维、确保安全,不断研究提出新思路、新举措,更加精准地解决知识产权事业发展中的各种问题,补短板、强弱项、固底板、扬优势,全面提高知识产权创造质量、运用效益、保护效果、管理能力和服务水平,统筹推进知识产权领域国际合作和竞争,统筹好知识产权领域发展和安全,扎实推进全面从严治党向纵深发展,为加快知识产权强国建设提供坚强政治保障,以优异成绩迎接党的二十大胜利召开。

除了上面两兄弟之外,近期的文盲式网络用语,对于计算机来说也很难——

家人们,家人们,9敏,我真的会谢大无语事件发生,咱就是说最近在小红薯发现,就是内个绝绝子之后,又一把子大动作开始给到了,我真的会谢,给我一整个整的困惑了。就是为什么我这个样子说话的感jio会被这么多人拿来用,咱就是说一整个给吓到了,我真的栓q了,一把子绝绝子了属于是家人们。有这样一把子存在,就是说咱们一个大动作让很多人给到,就会有很多人继续给到这个大动作。但咱就是怎么说呢,咱就是说还是不知道咱为什么要这么说话,哎咱就是一整个无语的的大动作给到,希望明天不要有什么大无语事件发生,毕竟一把子无语已经是一个令人比较无语了属于是orz​

你这不是在为难计算机吗? 除此之外,说人话系列的日常白话、非公文写作语言,也挺难的。生僻字、生僻词汇,分分钟击碎、击穿系统高鲁棒性的谎言。 假使之前大家讨论的,π是有理数,世界是被类似编程的手段制造出来的。也许无监督学习到今天这种地步,造物也挺无奈的。

█ Vector Space Model怎么来的。 这点主要是对工作上处理一些迁移学习的提案有感想。 首先是嵌入的理解。词嵌入基本上是整本书最核心的概念之一了。把一个维数为所有词的数量的高维空间“嵌入”到一个维数低得多的连续向量空间中,从而使得每个单词或词组被映射为实数域上的向量。在此之后,才能完成命名实体识别。 用词嵌入做迁移学习,技术人员都在跟我强调新任务标注的难度、标注样本的缺乏等等问题。基于此强调迁移学习的技术效果。但是往往并没有结合应用场景对于词嵌入进行微调。面对质疑时,很多技术人员甚至将问题上升到了是否尊重创新的程度,我真的是百感交集。

真的,看了这本,发自内心觉得英语就是最眉清目秀的。 作者也说,本文基于对英语的处理而形成诸多观点,在其他语言的处理中不一定是有参考价值的。 对啊,汉语真的很难,不是换个语料库就能彻底解决的问题啊。