NeurIPS 2024 | 大模型的词表大小，同样适用于Scaling Law

来源：六安市叶集区金利木业有限责任公司时间：2024-10-11

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

第一作者陶超凡（Chaofan Tao）是香港大学（HKU）的四年级博士生，导师是黄毅教授和罗平教授。他本科毕业于电子科技大学的英才荣誉学院。他的研究论文发表在ACL、EMNLP、ECCV、NeurIPS、ICML、T-NNLS等期刊和会议上。他获得了 ACL 2022 年的杰出论文奖。陶超凡的研究兴趣包括：1) 高效机器学习与模型加速：以低成本对模型进行高效调优和部署。2) 支持多种任务的通用大型模型，涵盖不同模态。

本文是一篇发表在 NeurIPS 2024 上的论文，单位是香港大学、Sea AI Lab、Contextual AI 和俄亥俄州立大学。论文主要探讨了大型语言模型（LLMs）的词表大小对模型性能的影响。

论文：https://arxiv.org/abs/2407.13623
代码：https://github.com/sail-sg/scaling-with-vocab/
Demo （快速预计合适的词表大小）：https://huggingface.co/spaces/sail/scaling-with-vocab-demo

摘要

研究大型语言模型（LLMs）的扩展法则（scaling laws）时，以前的工作主要关注模型参数和训练数据的大小，而忽略了词表大小的作用。本研究通过训练包含不同词表配置的模型（参数范围从 33M 到 3B，字符数最多 500B），提出了三种方法来预测计算最优的词表大小：基于 FLOPs 的、基于导数的和基于损失函数参数拟合的估计方法。研究结果表明，更大的模型应该配备更大的词表，且在给定算力的情况下，最优的词表大小是有上限的。例如，预测 Llama2-70B 的最优词表大小应该是至少 216K，远大于其实际的 32K。通过在不同 FLOPs 预算下训练 3B 参数的模型验证了这些预测，发现仅仅把原始词表的大小替换成预测的最优词表大小，就可以提高模型在多个下游任务的性能。

第 1 章引言

LLMs 通过在大量文本语料库上进行预训练，利用巨大的计算资源，已经取得了显著的性能。以往的研究主要集中在模型参数、训练数据量和计算资源（如 FLOPs）的变化对模型性能的影响，而忽略了词表大小这一重要因素。事实上，词表大小对语言模型的性能有着不小的影响。所以，本研究旨在填补这一空白，探讨词表大小对 LLMs 性能的影响，并提出预测最优词表大小的方法。

如图，我们提出 3 种预测最优词表大小的方法 (基于 FLOPs 的、基于导数的和基于损失函数参数拟合的估计方法)，并且列出了当前主流的大型语言模型（LLMs）的词表参数和预测最优词表参数的关系。当前大多数 LLMs 的词表参数由于词表大小小于预测的最优值而处于次优状态。

第 3 章分析：为什么最优词表大小受计算限制

较小的 V：增加词表大小可以提高标记化分词的效率，也就是用更短的词元去表示文本，从而提高模型性能。

较大的 V：逐渐增加词表大小的时候，分词效率提高的收益会逐渐减少，且可能导致词表有关参数的欠拟合，特别是针对低频词的词表征。

进一步地，我们研究了在固定 FLOP 预算下，词表如何影响损失，并发现对于每个 FLOPs 预算，存在一个使损失最小化的最优词表大小。

图上是在不同 FLOP 预算下，不同词表大小的损失曲线。对于每个预算，都存在一个最小化损失的最优词表大小。并且随着 FLOPs 预算的增加，这个最优词表大小也会增加（向右移动）。

第 4 章：估计模型的最优词表大小

第 5 章进一步讨论

5.1 预测语言模型的理想词表大小

在这一节中，本文报告了基于三种方法预测的最优词表参数和大小，遵从以前的关于 scaling laws 中数据量和模型参数的算力分配有关工作 [1]，训练数据的量与非词表参数等比例地随 FLOPs 预算缩放。

预测结果显示，随着非词表参数的增加，最优的词表参数和词表大小也随之增加。
这表明对于更大的模型，更大的词表是必要的，以充分利用模型的容量。

值得注意的是，主流 LLMs 通常分配给词表参数偏少。然而，学界和工业界已经开始转向更大的词表大小。例如 Llama3 的词表大小从 Llama2 的 32K 增加到 128K。然而，扩展数据仍然是最关键的部分，解决数据稀缺问题应成为未来工作的重点。

为了验证这些预测，本文在 3B 参数的模型上进行了实验，这些模型在不同的 FLOPs 预算下进行了训练。实验中，本文比较了使用常规词表大小（例如 32K）与使用预测的最优词表大小的模型性能。性能通过多个下游任务进行评估，包括 ARC-Challenge、Hellaswag 等。实验结果表明，使用预测的最优词表大小的模型在多个任务上一致地优于使用常规词表大小的模型。

5.2 训练数据量对最优词表大小的影响

第 6 章结论

本文通过实验验证了词表大小对语言模型性能有显著影响。他们发现，对于给定的计算预算，存在一个最优的词表大小，能够最大化模型性能。词表大小是影响模型性能的关键因素之一。更大的模型受益于更大的词表，因为它们需要更丰富的词表来表达更复杂的语言模式。另一方面，词表参数应该比非词表参数增长得慢，但仍然对性能至关重要。论文提出了三种方法来预测最优词表大小，这些方法都基于计算预算和模型性能之间的关系，论文强调了在设计和训练 LLMs 时，需要综合考虑模型参数、训练数据和词表大小。本文建议在分配计算资源时，应该考虑到词表大小的影响。

引用

[1] Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, et al. 2022. Training compute-optimal large language models. arXiv preprint arXiv:2203.15556

免责声明：作品来源于媒体，转载是出于传递信息之⽬的，版权归原作者所有，如有问题请联系我们。