大型语言模型(LLM)是处理文本的主要类型的人工智能,它们现在无处不在。ChatGPT 是最著名的使用 LLM 的工具,但谷歌也使用 LLM 来生成搜索中的 AI 答案,苹果今年晚些时候也将在其设备上推出基于 LLM 的 Apple Intelligence。更不用说还有其他基于 LLM 构建的聊天机器人、文本生成器和其他工具。
自2010年代后期以来,LLM 一直在研究实验室中逐渐成型,但在 ChatGPT 发布后(它展示了 GPT 的强大功能),LLM 从实验室进入了现实世界。事实上,92% 的财富 500 强公司已开始在其工作流程中使用生成式 AI。随着采用率的不断增长,LLM 行业也在不断发展。全球大型语言模型市场预计将从 2024 年的 65 亿美元增长到 2033 年的 1408 亿美元。
我们现在已经进入了第三代和第四代 LLM,这使得它们变得越来越有用和强大。同时,我们也迎来了第一代大型多模态模型(LMM),这些模型不仅能够处理文本,还能够处理图像、音频和视频等其他输入和输出模式——这使得情况更加复杂。因此,我将介绍一下当前一些最重要的 LLM 和 LMM。
1. GPT-4o
开发者: OpenAI
发布日期: 5月13, 2024
参数数量: 未知
详细介绍:
GPT-4o 是最新且最先进的 OpenAI 语言模型,继承了 GPT-4、GPT-3.5 和 GPT-3。OpenAI 宣称,尽管 GPT-4o 在生成标记的速度上快了两倍,但它的成本却比 GPT-4 低50%。这个多模态模型集成了文本、图像、视频和语音功能,全部打包在一个系统中。
GPT-4o 最大的升级是语音对语音功能,它将把输入响应时间缩短到平均 320 毫秒(相比之下,GPT-4 的响应时间为几秒)。这一功能预计将在未来适用于全部用户。
2. Claude 3.5
开发者: Anthropic
发布日期: 3月 14, 2024
参数数量: 未知
详细介绍:
作为广受好评的Claude 3的最新升级版本,Claude 3.5 Sonnet是Claude 3.5模型家族的首次发布。与Claude 3类似,它也将包含Haiku和Opus模型。作为GPT-4和ChatGPT的主要竞争对手之一,Claude通过在降低成本的同时保持20万个标记的上下文窗口,对这一模型进行了更大的改进。这远远超过了GPT-4的32,000个标记能力。
根据Anthropic的报告,Claude 3.5 Sonnet在编程和文本推理等主要基准测试中表现优于GPT-4o。此外,这是Claude最先进的视觉模型,具备从图像中转录文本或从图表中生成见解的能力。
亚马逊已向Anthropic投资超过40亿美元,使这家初创公司的估值达到150亿美元。Claude的移动应用也于2024年5月发布。
3. Grok-2
开发者: xAI
发布日期: 8月13, 2024
参数数量: 未知
详细介绍:
Grok-2由Elon Musk的xAI团队开发,Grok-2包含了两个模型:Grok-2和Grok-2 mini。这些模型目前处于测试阶段,并面向X(原Twitter)平台上的高级用户提供。
Grok-2的参数数量未公开,但可以推测其超过了Grok-1的3140亿参数。相较于其前身Grok-1.5,Grok-2在多项基准测试中表现优异,包括阅读理解、数学、科学及编程等领域,表现优于GPT-4 Turbo和Claude 3.5等模型。
Grok-2不仅在文本生成上具备强大能力,还集成了图像生成功能。这一功能基于新引入的Flux模型,能够生成极具现实感的图像,并且在生成带有文字的图像时表现出色。此外,Grok-2还具备处理图像文件的视觉感知能力,使其在视觉任务中表现更加卓越。
4. Mistral 7B
开发者: Mistral AI
发布日期: 9月 27, 2023
参数数量: 73亿
详细介绍:
Mistral 7B 是一个开源语言模型,具有32层、32个注意力头和8个键值头。尽管参数较少,但它在几乎所有指标上(包括MMLU、阅读理解、数学、编程等)都优于Llama 2模型家族。
Mistral 7B 是在 Apache 2.0 许可证下发布的。用户可以自由地下载并本地运行、在云端部署或在 HuggingFace 上运行它。这家总部位于巴黎的初创公司即将完成一轮6亿美元的融资,估值将达到60亿美元。
5. PaLM 2
开发者: Google
发布日期: 5月 10, 2023
参数数量: 3400亿
详细介绍:
PaLM 2 是由谷歌开发的高级大型语言模型。作为最初的路径语言模型(PaLM)的继任者,PaLM 2 在3.6万亿个标记(相比之下,最初版本为7800亿)和3400亿个参数(相比之下,最初版本为5400亿)上进行了训练。PaLM 2 最初被用于支持谷歌的首个生成式AI聊天机器人Bard(于2024年2月更名为Gemini)。
6. Falcon 180B
开发者: Technology Innovation Institute (TII)
发布日期: 9月 6, 2023
参数数量: 1800亿
详细介绍:
由技术创新研究所(Technology Innovation Institute)开发和资助的Falcon 180B是早期Falcon 40B大型语言模型的升级版本。它拥有1800亿个参数,比Falcon 40B的400亿参数大了4.5倍。
除了超越Falcon 40B之外,Falcon 180B在推理、问答和编程等任务上也优于其他大型语言模型,如GPT-3.5和LLaMA 2。2024年2月,总部位于阿联酋的技术创新研究所(TII)向Falcon基金会承诺了3亿美元的资金支持。
7. Stable LM 2
开发者: Stability AI
发布日期: 6月 19, 2024
参数数量: 16亿和 120亿
详细介绍:
Stability AI 是 Stable Diffusion 文本生成图像模型的创建者,也是 Stable LM 2 的开发者。这个系列的大型语言模型包括 Stable LM 2 12B(120亿参数)和 Stable LM 2 1.6B(16亿参数)。在2024年4月发布的较大模型 12B 尽管体积较小,但在关键基准测试中仍优于像 LLaMA 2 70B 这样的模型。
8. Gemini 1.5
开发者: Google DeepMind
发布日期: 2月2日, 2024
参数数量: 未知
详细介绍:
Gemini 1.5 是谷歌的下一代大型语言模型,相较于其前身 Gemini 1.0 有了显著升级。尽管目前仅供早期测试使用,Gemini 1.5 Pro 提供了一个百万标记的上下文窗口(相当于1小时的视频、70万字或3万行代码),这是迄今为止所有大型语言模型和聊天机器人中最大的上下文窗口。这个升级版本的容量是 Gemini 1.0 Pro 的35倍,并且超越了此前由Anthropic的Claude 2.1保持的20万个标记的纪录。
9. Llama 3.1
开发者: Meta AI
发布日期: 6月 23, 2024
参数数量: 4050亿
详细介绍:
Llama 3 是 Llama 3.1 的前身,提供 70B 和 8B 两个版本,在 MMLU、推理、编程和数学基准测试中表现优于其他开源模型,如 Mistral 7B 和谷歌的 Gemma 7B。现在,用户会注意到最新版本的重大升级,包括 4050 亿参数和扩展到 128,000 的上下文长度。
用户还会注意到,由于其经过训练的超过 15 万亿标记的庞大知识库,该模型的准确性显著提高。此外,Meta 为该模型增加了八种额外的语言。这个模型的规模使其成为迄今为止发布的最大开源模型。
用户仍然可以访问其前身 Llama 2,它有三个版本:70亿、130亿和700亿参数。
10. Mixtral 8x22B
开发者: Mistral AI
发布日期: 4月10, 2024
参数数量: 1410亿
详细介绍:
Mixtral 8x22B 是 Mistral AI 最新且最先进的大型语言模型。这款稀疏专家混合(SMoE)模型总共有1410亿个参数,但仅使用39亿个活跃参数,以提高模型的性能与成本比。
此外,这家初创公司最近还发布了 Mistral Large,这是一款可替代 ChatGPT 的产品,在基于 API 的大型语言模型中排名仅次于 GPT-4。
11. Inflection-2.5
开发者: Inflection AI
发布日期: 3月 10, 2024
参数数量:未知
详细介绍:
Inflection-2.5 是由 Inflection AI 开发的最新大型语言模型(LLM),用于支持其对话式 AI 助手 Pi。该模型进行了重大升级,目前在仅使用 GPT-4 训练 FLOPs 40%的情况下,实现了 GPT-4 平均性能的 94%以上。2024 年 3 月,这家由微软支持的初创公司在 Pi 上达到了超过 100 万的日活跃用户。
12. Jamba
开发者: AI21 Labs
发布日期: 3月 29, 2024
参数数量: 520亿
详细介绍:
AI21 Labs 开发了 Jamba,这是全球首个量产级的 Mamba 风格大型语言模型。它将 SSM 技术与传统变压器模型的元素结合,创建了混合架构。该模型既高效又具有高度可扩展性,拥有 256K 的上下文窗口,并支持在单个 GPU 上部署 140K 的上下文。
13. Command R
开发者: Cohere
发布日期: 3月 11, 2024
参数数量: 350亿
详细介绍:
Command R 是 Cohere 推出的可扩展大型语言模型系列,支持十种语言和 128,000 个标记的上下文长度(大约相当于 100 页文本)。该模型主要在检索增强生成、代码相关任务(如解释或重写)以及推理方面表现出色。2024 年 4 月,Command R+ 发布,用于支持更大的工作负载并为实际企业应用提供支持。
14. Gemma
开发者: Google DeepMind
发布日期: 2月 21, 2024
参数数量: 20亿 和 70亿
详细介绍:
Gemma 是由 Google DeepMind 开发并发布的一系列轻量级开源语言模型。这些模型采用了与 Gemini 模型类似的技术构建,但 Gemma 仅限于处理文本输入和输出。Gemma 模型具有 8,000 个标记的上下文窗口,并提供 20 亿和 70 亿参数的版本。
15. Phi-3
开发者: Microsoft
发布日期: 4月23, 2024
参数数量: 38 亿
详细介绍:
Phi-3 被归类为小型语言模型(SLM),是微软最新发布的模型,拥有38亿参数。尽管规模较小,但它经过了3.3万亿标记的数据训练,在MT-bench和MMLU基准测试中能够与Mistral 8x7B和GPT-3.5的性能竞争。
目前,唯一可用的模型是Phi-3-mini。不过,微软计划在今年晚些时候发布Phi-3-small和Phi-3-medium模型。
16. XGen-7B
开发者: Salesforce
发布日期: 7月3, 2023
参数数量: 70亿
详细介绍:
XGen-7B 是 Salesforce 推出的一个大型语言模型,拥有 70 亿参数和 8,000 标记的上下文窗口。该模型在来自各种来源的 1.37 万亿标记上进行了训练,这些来源包括 RedPajama、维基百科和 Salesforce 自己的 Starcoder 数据集。
Salesforce 发布了两个开源版本,分别支持 4,000 和 8,000 标记的上下文窗口,均在 Apache 2.0 许可证下发布。
17. DBRX
开发者: Databricks' Mosaic ML
发布日期: 3月27, 2024
参数数量: 1320亿
详细介绍:
DBRX 是由 Databricks 和 Mosaic ML 研究团队构建的开源大型语言模型。该模型采用混合专家架构,在输入时有 360 亿个(共 1320 亿)活跃参数。DBRX 共有 16 个专家节点,在推理过程中选择其中的 4 个进行计算,提供了比类似模型(如 Mixtral 和 Grok-1)多 65 倍的专家组合选择。
18. Pythia
开发者: EleutherAI
发布日期: 2月13, 2023
参数数量: 7亿 到 120亿
详细介绍:
Pythia 是由 EleutherAI(一个非营利的 AI 研究实验室)开发和发布的一系列大型语言模型,共包含 16 个模型。该系列有八种不同的模型规模:70M、160M、410M、1B、1.4B、2.8B、6.9B 和 12B。由于 Pythia 具有开源许可证,这些大型语言模型被广泛用作基础模型,用于微调生成指令跟随型 LLM,如 Databricks 的 Dolly 2.0。
19. Sora
开发者: OpenAI
发布日期: 2月15, 2024 (宣布)
参数数量: 未知
详细介绍:
OpenAI 最新开发的 Sora 是一个文本生成视频模型,结合了大型语言模型(LLM)和生成式 AI,能够将文本提示转换为最长 60 秒的真实感视频。该模型采用了一种基于变压器的架构,处理的是视频和图像数据的“时空块”,而不是像其他 LLM 那样仅处理文本标记。Sora 的正式发布日期尚未公布,但 OpenAI 预计将在 2024 年底向公众开放。
20. Alpaca 7B
开发者: Stanford CRFM
发布日期: 3月 27, 2024
参数数量: 70亿
详细介绍:
Alpaca 是由斯坦福大学研究团队开发的一个拥有 70 亿参数的语言模型,它是在 Meta 的 LLaMA 7B 模型基础上进行微调的。尽管体积较小,用户会发现 Alpaca 的表现与 text-DaVinci-003(ChatGPT 3.5)相似。不过,Alpaca 7B 仅供研究使用,不提供商业许可证。
21. Nemotron-4 340B
开发者: NVIDIA
发布日期: 6月14, 2024
参数数量: 3400亿
详细介绍:
Nemotron-4 340B 是一系列用于生成合成数据和 AI 模型训练的大型语言模型。这些模型帮助企业在没有更大且更昂贵的数据集的情况下创建新的 LLMs。Nemotron-4 能够生成高质量的合成数据来训练其他 AI 模型,从而减少对大量人工标注数据的需求。
该模型家族包括 Nemotron-4-340B-Base(基础模型)、Nemotron-4-340B-Instruct(微调的聊天机器人)和 Nemotron-4-340B-Reward(质量评估和偏好排序模型)。由于使用了 9 万亿标记进行训练,涵盖了英语、多语言和编程语言数据,Nemotron-4 具备与 GPT-4 相媲美的高质量合成数据生成能力。
总结
大型语言模型(LLM)的领域正在迅速演变,新突破和创新正在以前所未有的速度涌现。从像 Phi-2 和 Alpaca 7B 这样的紧凑模型,到像 Jamba 和 DBRX 这样的尖端架构,LLM 领域正在不断推动自然语言处理(NLP)可能性的边界。
您购买的是runway基础账号,只能使用 gen12,无法使用 gen3, 生成速度比较慢,需要自备梯子才能登录使用,确定的话给您发货
参考资料:https://explodingtopics.com/blog/list-of-llms