2024 年最佳大型语言模型

2024 年最佳大型语言模型

Profile image
AIGC X
Aug 24, 2024 • 16 min read

大型语言模型(LLM)是处理文本的主要类型的人工智能,它们现在无处不在。ChatGPT 是最著名的使用 LLM 的工具,但谷歌也使用 LLM 来生成搜索中的 AI 答案,苹果今年晚些时候也将在其设备上推出基于 LLM 的 Apple Intelligence。更不用说还有其他基于 LLM 构建的聊天机器人、文本生成器和其他工具。

自2010年代后期以来,LLM 一直在研究实验室中逐渐成型,但在 ChatGPT 发布后(它展示了 GPT 的强大功能),LLM 从实验室进入了现实世界。事实上,92% 的财富 500 强公司已开始在其工作流程中使用生成式 AI。随着采用率的不断增长,LLM 行业也在不断发展。全球大型语言模型市场预计将从 2024 年的 65 亿美元增长到 2033 年的 1408 亿美元。

我们现在已经进入了第三代和第四代 LLM,这使得它们变得越来越有用和强大。同时,我们也迎来了第一代大型多模态模型(LMM),这些模型不仅能够处理文本,还能够处理图像、音频和视频等其他输入和输出模式——这使得情况更加复杂。因此,我将介绍一下当前一些最重要的 LLM 和 LMM。

1. GPT-4o

undefined

开发者: OpenAI

发布日期: 5月13, 2024

参数数量: 未知

详细介绍: 

GPT-4o 是最新且最先进的 OpenAI 语言模型,继承了 GPT-4、GPT-3.5 和 GPT-3。OpenAI 宣称,尽管 GPT-4o 在生成标记的速度上快了两倍,但它的成本却比 GPT-4 低50%。这个多模态模型集成了文本、图像、视频和语音功能,全部打包在一个系统中。

GPT-4o 最大的升级是语音对语音功能,它将把输入响应时间缩短到平均 320 毫秒(相比之下,GPT-4 的响应时间为几秒)。这一功能预计将在未来适用于全部用户。

2. Claude 3.5

undefined

开发者: Anthropic

发布日期: 3月 14, 2024

参数数量: 未知

详细介绍: 

作为广受好评的Claude 3的最新升级版本,Claude 3.5 Sonnet是Claude 3.5模型家族的首次发布。与Claude 3类似,它也将包含Haiku和Opus模型。作为GPT-4和ChatGPT的主要竞争对手之一,Claude通过在降低成本的同时保持20万个标记的上下文窗口,对这一模型进行了更大的改进。这远远超过了GPT-4的32,000个标记能力。

根据Anthropic的报告,Claude 3.5 Sonnet在编程和文本推理等主要基准测试中表现优于GPT-4o。此外,这是Claude最先进的视觉模型,具备从图像中转录文本或从图表中生成见解的能力。

亚马逊已向Anthropic投资超过40亿美元,使这家初创公司的估值达到150亿美元。Claude的移动应用也于2024年5月发布。

3. Grok-2

开发者: xAI

发布日期: 8月13, 2024

参数数量: 未知

详细介绍:

Grok-2由Elon Musk的xAI团队开发,Grok-2包含了两个模型:Grok-2和Grok-2 mini。这些模型目前处于测试阶段,并面向X(原Twitter)平台上的高级用户提供。

Grok-2的参数数量未公开,但可以推测其超过了Grok-1的3140亿参数。相较于其前身Grok-1.5,Grok-2在多项基准测试中表现优异,包括阅读理解、数学、科学及编程等领域,表现优于GPT-4 Turbo和Claude 3.5等模型。

Grok-2不仅在文本生成上具备强大能力,还集成了图像生成功能。这一功能基于新引入的Flux模型,能够生成极具现实感的图像,并且在生成带有文字的图像时表现出色。此外,Grok-2还具备处理图像文件的视觉感知能力,使其在视觉任务中表现更加卓越。

4. Mistral 7B

undefined

开发者: Mistral AI

发布日期: 9月 27, 2023

参数数量: 73亿

详细介绍:

Mistral 7B 是一个开源语言模型,具有32层、32个注意力头和8个键值头。尽管参数较少,但它在几乎所有指标上(包括MMLU、阅读理解、数学、编程等)都优于Llama 2模型家族。

Mistral 7B 是在 Apache 2.0 许可证下发布的。用户可以自由地下载并本地运行、在云端部署或在 HuggingFace 上运行它。这家总部位于巴黎的初创公司即将完成一轮6亿美元的融资,估值将达到60亿美元。

5. PaLM 2

undefined

开发者: Google

发布日期: 5月 10, 2023

参数数量: 3400亿

详细介绍:

PaLM 2 是由谷歌开发的高级大型语言模型。作为最初的路径语言模型(PaLM)的继任者,PaLM 2 在3.6万亿个标记(相比之下,最初版本为7800亿)和3400亿个参数(相比之下,最初版本为5400亿)上进行了训练。PaLM 2 最初被用于支持谷歌的首个生成式AI聊天机器人Bard(于2024年2月更名为Gemini)。

6. Falcon 180B

undefined

开发者: Technology Innovation Institute (TII)

发布日期: 9月 6, 2023

参数数量: 1800亿

详细介绍:

 由技术创新研究所(Technology Innovation Institute)开发和资助的Falcon 180B是早期Falcon 40B大型语言模型的升级版本。它拥有1800亿个参数,比Falcon 40B的400亿参数大了4.5倍。

除了超越Falcon 40B之外,Falcon 180B在推理、问答和编程等任务上也优于其他大型语言模型,如GPT-3.5和LLaMA 2。2024年2月,总部位于阿联酋的技术创新研究所(TII)向Falcon基金会承诺了3亿美元的资金支持。

7. Stable LM 2

undefined

开发者: Stability AI

发布日期: 6月 19, 2024

参数数量: 16亿和 120亿

详细介绍:

Stability AI 是 Stable Diffusion 文本生成图像模型的创建者,也是 Stable LM 2 的开发者。这个系列的大型语言模型包括 Stable LM 2 12B(120亿参数)和 Stable LM 2 1.6B(16亿参数)。在2024年4月发布的较大模型 12B 尽管体积较小,但在关键基准测试中仍优于像 LLaMA 2 70B 这样的模型。

8. Gemini 1.5

undefined

开发者: Google DeepMind

发布日期: 2月2日, 2024

参数数量: 未知

详细介绍:

Gemini 1.5 是谷歌的下一代大型语言模型,相较于其前身 Gemini 1.0 有了显著升级。尽管目前仅供早期测试使用,Gemini 1.5 Pro 提供了一个百万标记的上下文窗口(相当于1小时的视频、70万字或3万行代码),这是迄今为止所有大型语言模型和聊天机器人中最大的上下文窗口。这个升级版本的容量是 Gemini 1.0 Pro 的35倍,并且超越了此前由Anthropic的Claude 2.1保持的20万个标记的纪录。

9. Llama 3.1

undefined

开发者: Meta AI

发布日期: 6月 23, 2024

参数数量: 4050亿

详细介绍:

Llama 3 是 Llama 3.1 的前身,提供 70B 和 8B 两个版本,在 MMLU、推理、编程和数学基准测试中表现优于其他开源模型,如 Mistral 7B 和谷歌的 Gemma 7B。现在,用户会注意到最新版本的重大升级,包括 4050 亿参数和扩展到 128,000 的上下文长度。

用户还会注意到,由于其经过训练的超过 15 万亿标记的庞大知识库,该模型的准确性显著提高。此外,Meta 为该模型增加了八种额外的语言。这个模型的规模使其成为迄今为止发布的最大开源模型。

用户仍然可以访问其前身 Llama 2,它有三个版本:70亿、130亿和700亿参数。

10. Mixtral 8x22B

undefined

开发者: Mistral AI

发布日期: 4月10, 2024

参数数量: 1410亿

详细介绍:

 Mixtral 8x22B 是 Mistral AI 最新且最先进的大型语言模型。这款稀疏专家混合(SMoE)模型总共有1410亿个参数,但仅使用39亿个活跃参数,以提高模型的性能与成本比。

此外,这家初创公司最近还发布了 Mistral Large,这是一款可替代 ChatGPT 的产品,在基于 API 的大型语言模型中排名仅次于 GPT-4。

11. Inflection-2.5

undefined

开发者: Inflection AI

发布日期: 3月 10, 2024

参数数量:未知

详细介绍:

 Inflection-2.5 是由 Inflection AI 开发的最新大型语言模型(LLM),用于支持其对话式 AI 助手 Pi。该模型进行了重大升级,目前在仅使用 GPT-4 训练 FLOPs 40%的情况下,实现了 GPT-4 平均性能的 94%以上。2024 年 3 月,这家由微软支持的初创公司在 Pi 上达到了超过 100 万的日活跃用户。

12. Jamba

undefined

开发者: AI21 Labs

发布日期: 3月 29, 2024

参数数量: 520亿

详细介绍:

 AI21 Labs 开发了 Jamba,这是全球首个量产级的 Mamba 风格大型语言模型。它将 SSM 技术与传统变压器模型的元素结合,创建了混合架构。该模型既高效又具有高度可扩展性,拥有 256K 的上下文窗口,并支持在单个 GPU 上部署 140K 的上下文。

13. Command R

undefined

开发者: Cohere

发布日期: 3月 11, 2024

参数数量: 350亿

详细介绍:

 Command R 是 Cohere 推出的可扩展大型语言模型系列,支持十种语言和 128,000 个标记的上下文长度(大约相当于 100 页文本)。该模型主要在检索增强生成、代码相关任务(如解释或重写)以及推理方面表现出色。2024 年 4 月,Command R+ 发布,用于支持更大的工作负载并为实际企业应用提供支持。

14. Gemma

undefined

开发者: Google DeepMind

发布日期: 2月 21, 2024

参数数量: 20亿 和 70亿

详细介绍:

Gemma 是由 Google DeepMind 开发并发布的一系列轻量级开源语言模型。这些模型采用了与 Gemini 模型类似的技术构建,但 Gemma 仅限于处理文本输入和输出。Gemma 模型具有 8,000 个标记的上下文窗口,并提供 20 亿和 70 亿参数的版本。

15. Phi-3

undefined

开发者: Microsoft

发布日期: 4月23, 2024

参数数量: 38 亿

详细介绍:

Phi-3 被归类为小型语言模型(SLM),是微软最新发布的模型,拥有38亿参数。尽管规模较小,但它经过了3.3万亿标记的数据训练,在MT-bench和MMLU基准测试中能够与Mistral 8x7B和GPT-3.5的性能竞争。

目前,唯一可用的模型是Phi-3-mini。不过,微软计划在今年晚些时候发布Phi-3-small和Phi-3-medium模型。

16. XGen-7B

undefined

开发者: Salesforce

发布日期: 7月3, 2023

参数数量: 70亿

详细介绍:

 XGen-7B 是 Salesforce 推出的一个大型语言模型,拥有 70 亿参数和 8,000 标记的上下文窗口。该模型在来自各种来源的 1.37 万亿标记上进行了训练,这些来源包括 RedPajama、维基百科和 Salesforce 自己的 Starcoder 数据集。

Salesforce 发布了两个开源版本,分别支持 4,000 和 8,000 标记的上下文窗口,均在 Apache 2.0 许可证下发布。

17. DBRX

undefined

开发者: Databricks' Mosaic ML

发布日期:  3月27, 2024

参数数量: 1320亿

详细介绍:

DBRX 是由 Databricks 和 Mosaic ML 研究团队构建的开源大型语言模型。该模型采用混合专家架构,在输入时有 360 亿个(共 1320 亿)活跃参数。DBRX 共有 16 个专家节点,在推理过程中选择其中的 4 个进行计算,提供了比类似模型(如 Mixtral 和 Grok-1)多 65 倍的专家组合选择。

18. Pythia

undefined

开发者: EleutherAI

发布日期: 2月13, 2023

参数数量: 7亿 到 120亿

详细介绍:

 Pythia 是由 EleutherAI(一个非营利的 AI 研究实验室)开发和发布的一系列大型语言模型,共包含 16 个模型。该系列有八种不同的模型规模:70M、160M、410M、1B、1.4B、2.8B、6.9B 和 12B。由于 Pythia 具有开源许可证,这些大型语言模型被广泛用作基础模型,用于微调生成指令跟随型 LLM,如 Databricks 的 Dolly 2.0。

19. Sora

undefined

开发者: OpenAI

发布日期: 2月15, 2024 (宣布)

参数数量: 未知

详细介绍:

 OpenAI 最新开发的 Sora 是一个文本生成视频模型,结合了大型语言模型(LLM)和生成式 AI,能够将文本提示转换为最长 60 秒的真实感视频。该模型采用了一种基于变压器的架构,处理的是视频和图像数据的“时空块”,而不是像其他 LLM 那样仅处理文本标记。Sora 的正式发布日期尚未公布,但 OpenAI 预计将在 2024 年底向公众开放。

20. Alpaca 7B

undefined

开发者: Stanford CRFM

发布日期: 3月 27, 2024

参数数量: 70亿

详细介绍:

 Alpaca 是由斯坦福大学研究团队开发的一个拥有 70 亿参数的语言模型,它是在 Meta 的 LLaMA 7B 模型基础上进行微调的。尽管体积较小,用户会发现 Alpaca 的表现与 text-DaVinci-003(ChatGPT 3.5)相似。不过,Alpaca 7B 仅供研究使用,不提供商业许可证。

21. Nemotron-4 340B

undefined

开发者: NVIDIA

发布日期: 6月14, 2024

参数数量: 3400亿

详细介绍:

 Nemotron-4 340B 是一系列用于生成合成数据和 AI 模型训练的大型语言模型。这些模型帮助企业在没有更大且更昂贵的数据集的情况下创建新的 LLMs。Nemotron-4 能够生成高质量的合成数据来训练其他 AI 模型,从而减少对大量人工标注数据的需求。

该模型家族包括 Nemotron-4-340B-Base(基础模型)、Nemotron-4-340B-Instruct(微调的聊天机器人)和 Nemotron-4-340B-Reward(质量评估和偏好排序模型)。由于使用了 9 万亿标记进行训练,涵盖了英语、多语言和编程语言数据,Nemotron-4 具备与 GPT-4 相媲美的高质量合成数据生成能力。

总结

大型语言模型(LLM)的领域正在迅速演变,新突破和创新正在以前所未有的速度涌现。从像 Phi-2 和 Alpaca 7B 这样的紧凑模型,到像 Jamba 和 DBRX 这样的尖端架构,LLM 领域正在不断推动自然语言处理(NLP)可能性的边界。

您购买的是runway基础账号,只能使用 gen12,无法使用 gen3, 生成速度比较慢,需要自备梯子才能登录使用,确定的话给您发货

参考资料:https://explodingtopics.com/blog/list-of-llms