Datasets for Large Language Models 阅读小记
书名:Datasets for Large Language Models: A Comprehensive Survey 作者:Yang Liu1,Jiahuan Cao,Chongyu Liu,Kai Ding,Lianwen Jin arXiv:2402.18041v1 [cs.CL] 28 Feb 2024
这本最大的笑料在于,LLMs——被大语言模型文档级别的翻译直接翻译为:法学硕士。 读完就像看了一本法学硕士历险记。——你骂谁呢? 前后文不同语境下对于同一个词汇的翻译有差异,不能严谨地用同一个名次表示。 这在部分模型中已经是被克服的问题。但是很显然,这本的文档翻译没有,所以中文版看了一半我跑去看了英文版本。
这本对LLMs数据集做综述,从五个维度对与LLMs相关的数据集进行了分类和总结: 预训练语料库、微调指令数据集、偏好数据集、评估数据集和传统的NLP数据集。 作者指出了未来数据集开发的潜在方向: 预训练、微调指令、强化学习和模型评估。
记录几个觉得有意思的点。
首先关于缩短学习曲线与预训练语料库的讨论。 作者列举了不少国内外的预训练语料库 ,专业领域的和一般领域的都有,但是专业领域的数据很少。 这点不奇怪,专业领域的预训练语料库获取难度本来就很大。 想起来我前几年刚开始看NLP的时候还提到过很多三四线城市的大数据中心招商的问题,其实说白了就是找一堆人去做预训练,然后有专门的数据公司来收录。 目前回头去看了一下,这个商业模式如当年预料的那样,很快就被新的预训练方式替代了,跟着就是整个小区域商业的凋零。崭新的数据中心楼宇,和某些人嘴上梦寐以求的楼宇数据经济,一起灰飞烟灭了。
第二是关于数据源头的讨论。 这本里面主要讨论LLM,不包括多模态数据。 网页作为通用预训练语料库,各种网站应用如果没有反爬措施无论用户协议是否包含训练内容的约束都不可避免的会被第三方抓取作为训练数据。 虽然也提到了专利作为学术素材库,但是众所周知,除了五大局的数据,其他地方的专利数据及难获取,获取之后也要做数据标引,难度比网页资源要大得多。
第三点是语料库类别 关于平行语料库。 这个我之前真的不知道。 多语种互译的主要语料库来自于……啊,国际组织。 嗯,联合国官方记录和其他会议文件组成,在句子级别对齐,怪不得多语种互译在小语种方面就一塌糊涂感情不是五常啊。 跑题了,在语料库类别上,还有: 百科全书:最常见的百科全书语料库是维基百科。 多类别语料库:新闻、小说、杂志、古典诗歌、聊天记录等。 特定领域的预训练语料库实际上是比较少的。这也影响了大模型在专业领域的发挥。 金融、医疗、法律、运输、数学这些还有,其他的,如前文所述,获取相当困难。 忘了在哪本的读书笔记里面我还写了有些专业领域的专业人士对于提供这些数据有一种基于砸饭碗的天然抵制情绪,以至于在特定专业领域尤其是以人的专业知识和经验为主要商业价值的领域,高质量的数据很难获取。 提到了一个关键问题,目前大部分预训练语料库的时效性比较差,缺乏新知识,难以实现定期更新。预训练语料库的增长在 2018 年之前相对缓慢,直到 BERT 的发布才逐渐加速,
第四关于数据预处理和对话指令。 数据预处理一般包括五个步骤:(1)数据收集。(2)数据过滤。(3)重复数据删除。(4)数据标准化。(5)数据审查。 考虑到目前的分类状况,仅关注单轮对话指令,指令大致分为 15 类:推理、 数学、头脑风暴、封闭式 QA、开放式 QA、代码、提取、生成、重写、总结、翻译、角色扮演、社会规范和其他。
第五关于特定数据集。 偏好数据集:投票,分类,分数。 考试题库,测试AI是否达到一般学力标准。包括高考、公务员考试、法考等考题库。 长文本数据集。 指令微调数据集:创建高质量的数据集对于提高模型性能和扩展应用领域至关重要。 在大多数指令微调数据集中,各种类别的指令混合在一起,而没有为每条指令指定相应的任务类型和关联域。这使得调整微调数据集中的类别分布以提高特定任务的性能或添加和简化指令变得具有挑战性。 指令微调数据集的质量评估是一个复杂而主观的问题,目前尚无明确通用的标准或方法。在实践中,质量评价可能涉及多个方面,包括但不限于:(1)模型绩效评价;(2)注释的一致性和合理性;(3)偏差分析;(4)及时检测;(5)主观评价。
此外,使用工具和调用API方面的能力,尤其是当前在线AI在调用最新联网数据方面的能力。这与调用的搜索引擎、搜索数据范围相关。
最后不得不提到今天看到的《浙江省数据知识产权实务指引(试行)》,以及文中附带提到的杭州市地方标准《数据知识产权价值评估指南》(DB3301/T 0427—2023)、浙江省总会计师协会团体标准《资产管理 数据资产登记导则》(T/ZJCFO 0001—2024),完全属于槽多无口的类别。 明明可以摆烂,但是要制造问题让整个板块一起烂掉,不愧是你们。