2024 年最佳大型语言模型

大型语言模型（LLM）是处理文本的主要类型的人工智能，它们现在无处不在。ChatGPT 是最著名的使用 LLM 的工具，但谷歌也使用 LLM 来生成搜索中的 AI 答案，苹果今年晚些时候也将在其设备上推出基于 LLM 的 Apple Intelligence。更不用说还有其他基于 LLM 构建的聊天机器人、文本生成器和其他工具。

自2010年代后期以来，LLM 一直在研究实验室中逐渐成型，但在 ChatGPT 发布后（它展示了 GPT 的强大功能），LLM 从实验室进入了现实世界。事实上，92% 的财富 500 强公司已开始在其工作流程中使用生成式 AI。随着采用率的不断增长，LLM 行业也在不断发展。全球大型语言模型市场预计将从 2024 年的 65 亿美元增长到 2033 年的 1408 亿美元。

我们现在已经进入了第三代和第四代 LLM，这使得它们变得越来越有用和强大。同时，我们也迎来了第一代大型多模态模型（LMM），这些模型不仅能够处理文本，还能够处理图像、音频和视频等其他输入和输出模式——这使得情况更加复杂。因此，我将介绍一下当前一些最重要的 LLM 和 LMM。

1. GPT-4o

开发者: OpenAI

发布日期: 5月13, 2024

参数数量: 未知

详细介绍:

GPT-4o 是最新且最先进的 OpenAI 语言模型，继承了 GPT-4、GPT-3.5 和 GPT-3。OpenAI 宣称，尽管 GPT-4o 在生成标记的速度上快了两倍，但它的成本却比 GPT-4 低50%。这个多模态模型集成了文本、图像、视频和语音功能，全部打包在一个系统中。

GPT-4o 最大的升级是语音对语音功能，它将把输入响应时间缩短到平均 320 毫秒（相比之下，GPT-4 的响应时间为几秒）。这一功能预计将在未来适用于全部用户。

2. Claude 3.5

开发者: Anthropic

发布日期: 3月 14, 2024

参数数量: 未知

详细介绍：

作为广受好评的Claude 3的最新升级版本，Claude 3.5 Sonnet是Claude 3.5模型家族的首次发布。与Claude 3类似，它也将包含Haiku和Opus模型。作为GPT-4和ChatGPT的主要竞争对手之一，Claude通过在降低成本的同时保持20万个标记的上下文窗口，对这一模型进行了更大的改进。这远远超过了GPT-4的32,000个标记能力。

根据Anthropic的报告，Claude 3.5 Sonnet在编程和文本推理等主要基准测试中表现优于GPT-4o。此外，这是Claude最先进的视觉模型，具备从图像中转录文本或从图表中生成见解的能力。

亚马逊已向Anthropic投资超过40亿美元，使这家初创公司的估值达到150亿美元。Claude的移动应用也于2024年5月发布。

3. Grok-2

开发者: xAI

发布日期: 8月13, 2024

参数数量: 未知

详细介绍：

Grok-2由Elon Musk的xAI团队开发，Grok-2包含了两个模型：Grok-2和Grok-2 mini。这些模型目前处于测试阶段，并面向X（原Twitter）平台上的高级用户提供。

Grok-2的参数数量未公开，但可以推测其超过了Grok-1的3140亿参数。相较于其前身Grok-1.5，Grok-2在多项基准测试中表现优异，包括阅读理解、数学、科学及编程等领域，表现优于GPT-4 Turbo和Claude 3.5等模型。

Grok-2不仅在文本生成上具备强大能力，还集成了图像生成功能。这一功能基于新引入的Flux模型，能够生成极具现实感的图像，并且在生成带有文字的图像时表现出色。此外，Grok-2还具备处理图像文件的视觉感知能力，使其在视觉任务中表现更加卓越。

4. Mistral 7B

开发者: Mistral AI

发布日期: 9月 27, 2023

参数数量: 73亿

详细介绍：

Mistral 7B 是一个开源语言模型，具有32层、32个注意力头和8个键值头。尽管参数较少，但它在几乎所有指标上（包括MMLU、阅读理解、数学、编程等）都优于Llama 2模型家族。

Mistral 7B 是在 Apache 2.0 许可证下发布的。用户可以自由地下载并本地运行、在云端部署或在 HuggingFace 上运行它。这家总部位于巴黎的初创公司即将完成一轮6亿美元的融资，估值将达到60亿美元。

5. PaLM 2

开发者: Google

发布日期: 5月 10, 2023

参数数量: 3400亿

详细介绍：

PaLM 2 是由谷歌开发的高级大型语言模型。作为最初的路径语言模型（PaLM）的继任者，PaLM 2 在3.6万亿个标记（相比之下，最初版本为7800亿）和3400亿个参数（相比之下，最初版本为5400亿）上进行了训练。PaLM 2 最初被用于支持谷歌的首个生成式AI聊天机器人Bard（于2024年2月更名为Gemini）。

6. Falcon 180B

开发者: Technology Innovation Institute (TII)

发布日期: 9月 6, 2023

参数数量: 1800亿

详细介绍：

由技术创新研究所（Technology Innovation Institute）开发和资助的Falcon 180B是早期Falcon 40B大型语言模型的升级版本。它拥有1800亿个参数，比Falcon 40B的400亿参数大了4.5倍。

除了超越Falcon 40B之外，Falcon 180B在推理、问答和编程等任务上也优于其他大型语言模型，如GPT-3.5和LLaMA 2。2024年2月，总部位于阿联酋的技术创新研究所（TII）向Falcon基金会承诺了3亿美元的资金支持。

7. Stable LM 2

开发者: Stability AI

发布日期: 6月 19, 2024

参数数量: 16亿和 120亿

详细介绍：

Stability AI 是 Stable Diffusion 文本生成图像模型的创建者，也是 Stable LM 2 的开发者。这个系列的大型语言模型包括 Stable LM 2 12B（120亿参数）和 Stable LM 2 1.6B（16亿参数）。在2024年4月发布的较大模型 12B 尽管体积较小，但在关键基准测试中仍优于像 LLaMA 2 70B 这样的模型。

8. Gemini 1.5

开发者: Google DeepMind

发布日期: 2月2日, 2024

参数数量: 未知

详细介绍：

Gemini 1.5 是谷歌的下一代大型语言模型，相较于其前身 Gemini 1.0 有了显著升级。尽管目前仅供早期测试使用，Gemini 1.5 Pro 提供了一个百万标记的上下文窗口（相当于1小时的视频、70万字或3万行代码），这是迄今为止所有大型语言模型和聊天机器人中最大的上下文窗口。这个升级版本的容量是 Gemini 1.0 Pro 的35倍，并且超越了此前由Anthropic的Claude 2.1保持的20万个标记的纪录。

9. Llama 3.1

开发者: Meta AI

发布日期: 6月 23, 2024

参数数量: 4050亿

详细介绍：

Llama 3 是 Llama 3.1 的前身，提供 70B 和 8B 两个版本，在 MMLU、推理、编程和数学基准测试中表现优于其他开源模型，如 Mistral 7B 和谷歌的 Gemma 7B。现在，用户会注意到最新版本的重大升级，包括 4050 亿参数和扩展到 128,000 的上下文长度。

用户还会注意到，由于其经过训练的超过 15 万亿标记的庞大知识库，该模型的准确性显著提高。此外，Meta 为该模型增加了八种额外的语言。这个模型的规模使其成为迄今为止发布的最大开源模型。

用户仍然可以访问其前身 Llama 2，它有三个版本：70亿、130亿和700亿参数。

10. Mixtral 8x22B

开发者: Mistral AI

发布日期: 4月10, 2024

参数数量: 1410亿

详细介绍：

Mixtral 8x22B 是 Mistral AI 最新且最先进的大型语言模型。这款稀疏专家混合（SMoE）模型总共有1410亿个参数，但仅使用39亿个活跃参数，以提高模型的性能与成本比。

此外，这家初创公司最近还发布了 Mistral Large，这是一款可替代 ChatGPT 的产品，在基于 API 的大型语言模型中排名仅次于 GPT-4。

11. Inflection-2.5

开发者: Inflection AI

发布日期: 3月 10, 2024

参数数量:未知

详细介绍：

Inflection-2.5 是由 Inflection AI 开发的最新大型语言模型（LLM），用于支持其对话式 AI 助手 Pi。该模型进行了重大升级，目前在仅使用 GPT-4 训练 FLOPs 40%的情况下，实现了 GPT-4 平均性能的 94%以上。2024 年 3 月，这家由微软支持的初创公司在 Pi 上达到了超过 100 万的日活跃用户。

12. Jamba

开发者: AI21 Labs

发布日期: 3月 29, 2024

参数数量: 520亿

详细介绍：

AI21 Labs 开发了 Jamba，这是全球首个量产级的 Mamba 风格大型语言模型。它将 SSM 技术与传统变压器模型的元素结合，创建了混合架构。该模型既高效又具有高度可扩展性，拥有 256K 的上下文窗口，并支持在单个 GPU 上部署 140K 的上下文。

13. Command R

开发者: Cohere

发布日期: 3月 11, 2024

参数数量: 350亿

详细介绍：

Command R 是 Cohere 推出的可扩展大型语言模型系列，支持十种语言和 128,000 个标记的上下文长度（大约相当于 100 页文本）。该模型主要在检索增强生成、代码相关任务（如解释或重写）以及推理方面表现出色。2024 年 4 月，Command R+ 发布，用于支持更大的工作负载并为实际企业应用提供支持。

14. Gemma

开发者: Google DeepMind

发布日期: 2月 21, 2024

参数数量: 20亿和 70亿

详细介绍：

Gemma 是由 Google DeepMind 开发并发布的一系列轻量级开源语言模型。这些模型采用了与 Gemini 模型类似的技术构建，但 Gemma 仅限于处理文本输入和输出。Gemma 模型具有 8,000 个标记的上下文窗口，并提供 20 亿和 70 亿参数的版本。

15. Phi-3

开发者: Microsoft

发布日期: 4月23, 2024

参数数量: 38 亿

详细介绍：

Phi-3 被归类为小型语言模型（SLM），是微软最新发布的模型，拥有38亿参数。尽管规模较小，但它经过了3.3万亿标记的数据训练，在MT-bench和MMLU基准测试中能够与Mistral 8x7B和GPT-3.5的性能竞争。

目前，唯一可用的模型是Phi-3-mini。不过，微软计划在今年晚些时候发布Phi-3-small和Phi-3-medium模型。

16. XGen-7B

开发者: Salesforce

发布日期: 7月3, 2023

参数数量: 70亿

详细介绍：

XGen-7B 是 Salesforce 推出的一个大型语言模型，拥有 70 亿参数和 8,000 标记的上下文窗口。该模型在来自各种来源的 1.37 万亿标记上进行了训练，这些来源包括 RedPajama、维基百科和 Salesforce 自己的 Starcoder 数据集。

Salesforce 发布了两个开源版本，分别支持 4,000 和 8,000 标记的上下文窗口，均在 Apache 2.0 许可证下发布。

17. DBRX

开发者: Databricks' Mosaic ML

发布日期: 3月27, 2024

参数数量: 1320亿

详细介绍：

DBRX 是由 Databricks 和 Mosaic ML 研究团队构建的开源大型语言模型。该模型采用混合专家架构，在输入时有 360 亿个（共 1320 亿）活跃参数。DBRX 共有 16 个专家节点，在推理过程中选择其中的 4 个进行计算，提供了比类似模型（如 Mixtral 和 Grok-1）多 65 倍的专家组合选择。

18. Pythia

开发者: EleutherAI

发布日期: 2月13, 2023

参数数量: 7亿到 120亿

详细介绍：

Pythia 是由 EleutherAI（一个非营利的 AI 研究实验室）开发和发布的一系列大型语言模型，共包含 16 个模型。该系列有八种不同的模型规模：70M、160M、410M、1B、1.4B、2.8B、6.9B 和 12B。由于 Pythia 具有开源许可证，这些大型语言模型被广泛用作基础模型，用于微调生成指令跟随型 LLM，如 Databricks 的 Dolly 2.0。

19. Sora

开发者: OpenAI

发布日期: 2月15, 2024 (宣布)

参数数量: 未知

详细介绍：

OpenAI 最新开发的 Sora 是一个文本生成视频模型，结合了大型语言模型（LLM）和生成式 AI，能够将文本提示转换为最长 60 秒的真实感视频。该模型采用了一种基于变压器的架构，处理的是视频和图像数据的“时空块”，而不是像其他 LLM 那样仅处理文本标记。Sora 的正式发布日期尚未公布，但 OpenAI 预计将在 2024 年底向公众开放。

20. Alpaca 7B

开发者: Stanford CRFM

发布日期: 3月 27, 2024

参数数量: 70亿

详细介绍：

Alpaca 是由斯坦福大学研究团队开发的一个拥有 70 亿参数的语言模型，它是在 Meta 的 LLaMA 7B 模型基础上进行微调的。尽管体积较小，用户会发现 Alpaca 的表现与 text-DaVinci-003（ChatGPT 3.5）相似。不过，Alpaca 7B 仅供研究使用，不提供商业许可证。

21. Nemotron-4 340B

开发者: NVIDIA

发布日期: 6月14, 2024

参数数量: 3400亿

详细介绍：

Nemotron-4 340B 是一系列用于生成合成数据和 AI 模型训练的大型语言模型。这些模型帮助企业在没有更大且更昂贵的数据集的情况下创建新的 LLMs。Nemotron-4 能够生成高质量的合成数据来训练其他 AI 模型，从而减少对大量人工标注数据的需求。

该模型家族包括 Nemotron-4-340B-Base（基础模型）、Nemotron-4-340B-Instruct（微调的聊天机器人）和 Nemotron-4-340B-Reward（质量评估和偏好排序模型）。由于使用了 9 万亿标记进行训练，涵盖了英语、多语言和编程语言数据，Nemotron-4 具备与 GPT-4 相媲美的高质量合成数据生成能力。

总结

大型语言模型（LLM）的领域正在迅速演变，新突破和创新正在以前所未有的速度涌现。从像 Phi-2 和 Alpaca 7B 这样的紧凑模型，到像 Jamba 和 DBRX 这样的尖端架构，LLM 领域正在不断推动自然语言处理（NLP）可能性的边界。

您购买的是runway基础账号，只能使用 gen12，无法使用 gen3，生成速度比较慢，需要自备梯子才能登录使用，确定的话给您发货

参考资料：https://explodingtopics.com/blog/list-of-llms