2024年6月5日智谱AI开源了GLM-4-9B系列模型,模型性能全面超越Llama3-8B模型。GLM-4-9B使用了10T 高质量多语言数据进行训练,数据量是 ChatGLM3-6B 模型的 3 倍以上。同时,采用了 FP8 技术进行高效的预训练,相较于第三代模型,训练效率提高了 3.5 倍,预训练计算量增加了 5 倍。智谱清言官网(在线使用): https://chatglm.cn/glm4 github项目官网 https://github.com/THUDM/GLM-4
GLM-4是新一代基座大模型GLM-4,整体性能相比GLM3全面提升60%,逼近GPT-4;支持更长上下文;更强的多模态;支持更快推理速度,更多并发,大大降低推理成本;同时GLM-4增强了智能体能力。
GLM-4-9B 是智谱AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。 在语义、数学、推理、代码和知识等多方面的数据集测评中, GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出超越 Llama-3-8B 的卓越性能。除了能进行多轮对话,GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理(支持最大 128K 上下文)等高级功能。
本代模型增加了多语言支持,支持包括日语,韩语,德语在内的 26 种语言。我们还推出了支持 1M 上下文长度(约 200 万中文字符)的 GLM-4-9B-Chat-1M 模型和基于 GLM-4-9B 的多模态模型 GLM-4V-9B。GLM-4V-9B 具备 1120 * 1120 高分辨率下的中英双语多轮对话能力,在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中,GLM-4V-9B 表现出超越 GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max 和 Claude 3 Opus 的卓越性能。
主要功能和特色
基础能力(英文):GLM-4 在 MMLU、GSM8K、MATH、BBH、HellaSwag、HumanEval等数据集上,分别达到GPT-4 94%、95%、91%、99%、90%、100%的水平。
指令跟随能力:GLM-4在IFEval的prompt级别上中、英分别达到GPT-4的88%、85%的水平,在Instruction级别上中、英分别达到GPT-4的90%、89%的水平。
对齐能力:GLM-4在中文对齐能力上整体超过GPT-4。
长文本能力:我们在LongBench(128K)测试集上对多个模型进行评测,GLM-4性能超过 Claude 2.1;在「大海捞针」(128K)实验中,GLM-4的测试结果为 128K以内全绿,做到100%精准召回。
多模态-文生图:CogView3在文生图多个评测指标上,相比DALLE3 约在 91.4% ~99.3%的水平之间。
ALL ToolsGLM-4 实现自主根据用户意图,自动理解、规划复杂指令,自由调用网页浏览器、Code Interpreter代码解释器和多模态文生图大模型,以完成复杂任务。简单来讲,即只需一个指令,GLM-4会自动分析指令,结合上下文选择决定调用合适的工具。All Tools -文生图。GLM-4 能够结合上下文进行AI绘画创作(CogView3),如下图所示,大模型能够遵循人的指令来不断修改生成图片的结果:
All Tools – 代码解释器。GLM-4能够通过自动调用python解释器,进行复杂计算(例如复杂方程、微积分等),在GSM8K、MATH、Math23K等多个评测集上都取得了接近或同等GPT-4 All Tools的水平。
同样GLM-4 也可以完成文件处理、数据分析、图表绘制等复杂任务,支持处理Excel、PDF、PPT等格式文件。All Tools – 网页浏览。GLM-4 能够自行规划检索任务、自行选择信息源、自行与信息源交互,在准确率上能够达到 78.08,是GPT-4 All Tools 的116%。
All Tools – Function Call。GLM-4 能够根据用户提供的Function描述,自动选择所需 Function并生成参数,以及根据 Function 的返回值生成回复;同时也支持一次输入进行多次 Function 调用,支持包含中文及特殊符号的 Function 名字。这一方面GLM-4 All Tools 与 GPT-4 Turbo 相当。
All Tools – 多工具自动调用。除了以上单项工具自动调用外,GLM-4 同样能够实现多工具自动调用,例如结合 网页浏览、CogView3、代码解释器等的调用方式。
GLMs & MaaS APIGLM-4的全线能力提升使得我们有机会探索真正意义上的GLMs。用户可以下载(更新)智谱清言 APP,进行体验,快速创建和分享自己的「智能体」。智谱清言
同样,MaaS 平台也将全网开放 GLM-4、GLM-4V、CogView3 等模型 API,并邀请内测 GLM-4 Assistant API。
We Are More OpenWe are more open。我们一直在路上, 我们期待与所有研究者和开发者共同探索大模型的未来,为社会创造价值。从ChatGLM一代二代三代以来,我们几乎开源了所有内核模型,包括千亿级基座GLM-130B、搜索增强模型WebGLM、图形理解模型VisualGLM、代码模型CodeGeeX1、2,文生图模型CogView1、2,图形增强理解模型CogVLM还有可视化认知Agent模型CogAgent。我们希望这些模型能够帮助大家深入认知大模型技术,而不是简单调用,帮助大家一起探索大模型技术的未来。科研基金
智谱源自清华科技成果转化,重视科研突破、重视源头创新,是智谱一直以来的作风。我们也希望无私的回馈科研界。我们联合 CCF 中国计算机学会发起了CCF-智谱大模型基金,围绕预训练大模型理论、算法、模型、应用等相关研究提供资助;通过降低大模型研究的门槛,立足每一个计算机领域科研工作者均有机会参与大模型的研究,推进大模型技术和应用的创新落地。我们联合中国中文信息学会社会媒体处理专委会联合发起SMP-智谱大模型交叉学科基金。支持探索大模型与各领域交叉创新,促进大模型与各类学科的有机融合。所有的科研基金参与者拥有自己研发的知识产权。2023年已经有来自全国三十余所高校参与了41 个研究项目,累计提供了超 1000 万元现金和算力资源(合作伙伴)的科研支持。2024年,智谱对学术研究的支持,还将继续。我们也始终相信,学术创新,是中国大模型事业持续发展创新的源动力之一!开源基金
我们认为,一个健康的大模型生态系统绝不仅依赖少数公司的研发,而是需要众多研究者和开发者的想象力和创造力共同参与。为了促进大模型生态的健康发展,智谱AI将发起开源开放的「大模型开源基金」,这包括三个「一千」:
第一个「一千」,是1000张卡。我们将为大模型开源社区提供一千张卡,助力开源开发;第二个「一千」,是1000万人民币。我们将提供 1000 万元的现金用来支持与大模型相关的开源项目。第三个「一千」是1000亿tokens。我们将为优秀的开源开发者提供1000亿免费 API tokens。
「大模型开源基金」的目的在于推动大模型研发的大进展,促进大模型整个开源生态的大繁荣。一枝独秀不是春,中国的人工智能事业要繁荣、要发展,需要所有的参与者、产业链上下游合作伙伴、开发者社区、学术界一同努力。创业基金
面向全球, 我们发布Z 计划,支持大模型早期创业者的创新探索。大模型创业是长征路。Z计划是智谱联合生态伙伴发起的大模型创业基金,总计10 亿元人民币!专门支持大模型原始创新,覆盖大模型算法、底层算子、芯片优化、行业大模型和超级应用等方向!我们行胜于言,在过去,我们已经向相关企业投出了数亿元人民币,支持了数十家等企业,比如面壁智能,是国内最早从事也是最懂 Agent 的一家大模型公司;基流科技,有过上万张英伟达gpu卡集群建设的项目,在智算集群和算力网络方面经验非常丰富。在 2024 年,乃至更长远的未来里,我们都将坚持更开放的心态,团结更广泛的生态伙伴,共创人工智能美好未来!
GLM-4-9B 模型具备了更强大的推理性能、更长的上下文处理能力、多语言、多模态和 All Tools 等突出能力。本次开源的GLM-4-9B 系列模型包括:基础版本 GLM-4-9B(8K)、对话版本 GLM-4-9B-Chat(128K)、超长上下文版本 GLM-4-9B-Chat-1M(1M)和多模态版本 GLM-4V-9B-Chat(8K)。人人都可以到始智社区部署在线体验。
01
基础能力
基于强大的预训练基座,GLM-4-9B 的模型中英文综合性能相比 ChatGLM3-6B 提升了 40%,尤其是在中文对齐能力 AlignBench,指令遵从 IFeval,工程代码 Natural Code Bench 方面都取得了非常显著的提升。对比训练量更多的 Llama-3-8B 模型也没有逊色,英文方面有小幅领先,中文学科方面更是有着高达 50% 的提升,主要评测结果上全面超越Llama3-8B。
02
长文本能力
GLM-4-9B 模型的上下文从 128K 扩展到了 1M tokens,这意味着模型能同时处理 200 万字的输入,大概相当于 2 本红楼梦或者 125 篇论文的长度。
GLM-4-9B-Chat-1M 模型在 1M 的上下文长度下进行了“大海捞针”实验,展现出了出色的无损处理能力。
03
多语言能力
GLM-4-9B 支持包括汉语、英语、俄语、西班牙语、德语、法语、意大利语、葡萄牙语、波兰语、日语、荷兰语、阿拉伯语、土耳其语、捷克语、越南语、波斯语、匈牙利语、希腊语、罗马尼亚语、瑞典语、乌克兰语、芬兰语、韩语、丹麦语、保加利亚语和挪威语在内的 26 种语言。为了提升性能,tokenizer 的词表大小从 65k 扩充到了 150k,这一改进使得编码效率提高了 30%。在多语言能力方面,在六个不同的多语言理解和生成数据集上进行了测试,结果显示 GLM-4-9B-Chat 显著超越 Llama-3-8B-Instruct。具体评测结果如下:
04
Function Call能力
GLM-4-9B 模型的函数调用能力更是迎来了巨大的升级,相比ChatGLM3-6B 模型提升了 40%,在 Berkeley Function-Calling Leaderboard 上,GLM-4-9B 模型的 Function Call 能力与 GPT-4 不相上下。
05
All Tools能力
“All Tools”即模型能够理解和使用一系列外部工具(比如代码执行、联网浏览、画图、文件操作、数据库查询、API 调用等)来辅助回答问题或完成任务。
06
多模态能力
此次推出了基于GLM基座的开源多模态模型GLM-4V-9B,与CogVLM2相似的架构设计,能够处理高达1120 x 1120分辨率的输入,并通过降采样技术有效减少了token的开销。为了减小部署与计算开销,GLM-4V-9B没有引入额外的视觉专家模块,采用了直接混合文本和图片数据的方式进行训练,在保持文本性能的同时提升多模态能力。
在性能方面,GLM-4V-9B模型展现了显著的优势。尽管其参数量仅为13B,但它成功地超越了许多参数量更大的开源模型。在众多任务中,GLM-4V-9B的性能与GPT-4V不相上下。
链接:Github:https://github.com/THUDM/GLM-4wisemodel:
https://wisemodel.cn/organization/ZhipuAI