了解语言模型的差异

已完成

现在,重要的是,开发人员无需从头开始训练模型。 若要生成生成 AI 应用程序,可以使用预先训练的模型。 某些语言模型是开源的,可供公开使用。 其他产品在专有目录中提供。 目前存在不同的模型,这些模型主要在用于训练的特定数据或在其架构中实现注意力机制的方式上有所不同。

大型和小型语言模型

通常,语言模型可以分为两类: 大型语言模型 (LLM)和 小型语言模型 (SLM)。

大型语言模型(LLM) 小型语言模型 (SLM)
LLM 使用大量文本进行训练,这些文本表示广泛的一般主题-通常通过从 Internet 和其他正式发布的出版物中采购数据。 使用更小、更关注主题的数据集训练 SLM
训练时,LLM 具有数十亿(甚至数万亿)的参数(可应用于矢量嵌入的权重),以计算预测的令牌序列。 参数通常少于 LLM。
能够在各种对话上下文中展示全面的语言生成功能。 这种专注的词汇使他们在特定的对话主题中有效,但在更通用的语言生成中效率较低。
其大大小可能会影响其性能,并使它们难以在本地设备和计算机上部署。 较小的 SLA 可以提供更多部署选项,包括对设备和本地计算机的本地部署;并使其更快、更轻松进行微调。
使用更多数据微调模型以自定义其主题专业知识可能非常耗时,而且对于执行额外训练所需的计算能力而言,成本高昂。 微调可能更耗时且成本高昂。