国产「GPTs」登场！清华系重磅发布GLM-4全家桶，性能可达90% GPT-4 - AI新智界

登录 | 注册

文章来源：新智元

狂飙三个月，智谱AI的大模型全家桶震撼发布了！GLM-4性能超进化，堪称「国产GPT-4」；GLMs和GLM Store，直接对标OpenAI的GPTs。

图片来源：由无界 AI生成

今天，国内唯一一家全系对标OpenAI的公司，又搞了一个大新闻！

就在刚刚，智谱AI发布了「新一代基座大模型」GLM-4——性能全面比肩GPT-4。

其中，GLM-4不仅在中文能力上超过了所有竞争对手。

而且，长文本能力也一骑绝尘，实现了128K「大海捞针」全绿。

除此之外，智谱AI这次还发布了「定制化的个人GLM大模型」GLMs和GLM Store，再次对标OpenAI的GPTs！

新一代GLM-4，全面比肩GPT-4！

那么，这次新一代基座大模型GLM-4，究竟强在了哪？

与上一代ChatGLM3相比，GLM-4在综合能力上实现了全面跃升，性能提升了60%，已经逼近GPT-4。

它能够支持更长的上下文，具备更强的多模态功能，支持更快的推理，更多并发，推理成本大大降低。

同时，GLM-4也增强了智能体能力。

基础能力

从众多评测集中可以看到，GLM-4的性能提升非常明显。

相比于GPT-4，GLM-4在MMLU、GSM8K、BBH、HellaSwag数据集上分布达到了94%、95%、99%和90%的水平。

而在HumanEval数据集上，GLM-4则拿到了72分，明显超过了GPT-3.5和GPT-4的水平。

指令跟随

在IFEval评测集上，在Prompt提示词跟随（中文）方面，GLM-4达到了GPT-4 88%的水平。

在指令跟随（中文）方面，则达到了GPT-4 90%水平，大大超过GPT-3.5。

中文对齐

在模型实际应用过程中，大家更关注的，是中文的对齐能力。

在对齐能力上，基于AlignBench数据集，GLM-4超过了GPT-4在6月13日发布的版本，逼近GPT-4最新（11月6日Turbo版本）效果。

在专业能力、中文理解、角色扮演方面，GLM-4甚至超过了GPT-4的精度。

不过，在中文推理方面，GLM-4的能力还有待进一步提升。

128K长文本

此前的128K大海捞针测试，难倒了众多大模型，但GLM-4却顺利通过。

在大海捞针测试中，128K文本长度内，GLM-4模型均可做到几乎百分百的精度召回。

GLM-4带来128K的上下文窗口长度，也就意味着，在单次提示词中，可处理文本达到了300页。

开发者再也不用担心文档太长，一次性处理不完了。

同时，模型的效果和精度也并没有下降。智谱AI团队完美解决了长上下文全局信息因失焦而导致的精度下降的问题。

多模态能力

这一次，GLM-4的文生图和多模态理解都得到增强。

全新推出的CogView3，效果明显超过开源最佳的Stable Diffusion XL，逼近最新OpenAI发布的DALL·E 3。

在对齐、保真、安全、组合布局等各个评测维度上，CogView3的效果都达到DALL·E3 90%以上水平。

相对之前，CogView3的语义理解能力都得到大大增强。

「鱼眼镜头中，有一只乌龟坐在森林里。」

模型准确地理解了什么是鱼眼镜头，以及乌龟在森林里的环境应该是怎么搭配的。

「西兰花下面的斑马」，模型理解得很准确。

「一只打扮的像20世纪80年代的职业摔跤手的博美犬，脸上涂着霓虹绿、霓虹橙，还有亮绿色的颜料」，这么复杂的prompt，模型也没出错，对于颜色、场景，都做到了高质量还原。

「一个放大镜在一页20世纪50年代的《蝙蝠侠》漫画的上空」，模型非常准确地理解了空间位置，以及放大镜蕴含的逻辑作用。

GLM-4 All Tools全家桶来了

上面，都还只是常规的单项模型基础能力提升，大会上最让人眼前一亮的，还是GLM-4-All-Tools全家桶。

在以往，我们都需要魔法咒语一样的提示词或者代码，才能调用大模型的能力。无论是回答问题、画一幅画还是使用外部知识源，总觉得LLM还不够聪明。

而现在，得益于GLM模型的强大Agent能力，GLM-4实现了自主根据用户意图，自动理解、规划复杂指令，自由调用WebGLM搜索增强、Code Interpreter代码解释器和多模态生成能力，从而完成更加复杂的任务。

也就是说，GLM全家桶的能力，终于实现了ALL IN ONE！

画图

在AI画图方面，GLM-4 All Tools可以很好地结合上下文语境进行创作。

比如，我们可以先画一只卡通柯基。

随后只要说「它开始跑步了」，GLM-4 All Tools就能理解，我们要的还是这只柯基在往前跑。

告诉GLM-4 All Tools「一只小兔子加入它一起」，它就明白柯基是主角，兔子需要跟在柯基后面，同时保持奔跑。

告诉它「跑得越来越快了」，背景就会虚化。

总之，GLM-4 All Tools对上下文语境的理解非常准确。

代码解释器

同样，GLM-4也内嵌了代码解释器，能够自动调用代码解释器，进行复杂的方程或者微积分求解。

在以下数据集上，GLM-4 All Tools取得了和GPT-4 All Tools相当的性能。

下面这道数学多项式，该怎么求解？

或许可以直接训练一个数学模型，但问题更复杂的时候，LLM就容易出现幻觉。

而GLM-4，则可以通过调用Python解释器，进行复杂计算，自动写出求解代码。

不仅是数学问题，代码解释器还能完成文件处理、数据分析、图表绘制等复杂任务，支持处理Excel、PDF、PPT等格式的文件。

可以让模型自动生成PPT大纲，还能调用代码，生成PPT文件。

网页浏览

靠着All Tools全家桶，GLM-4可以实现更高级的网页浏览。

期间，模型会根据任务自行规划检索任务，自行选择信息源，自行与信息源交互。

比如可以问它：我要参加2023年的CCF开源大会，当地天气是怎样的？

这个问题的难点在于，我们并没有告诉它会议地点，模型自动进行了两次搜索，第一搜到了大会是10月21日在长沙举行，第二次搜到了长沙在10月21日的天气。

可以看到，GLM-4 All Tools的网页浏览准确率，已经超过了GPT-4，令人印象深刻。

Function Call

All Tool还有一个通用能力：根据用户提供的function描述，自动选择所需function并生成参数，以及根据function的返回值生成回复。

这方面的能力，已经跟GPT-4基本持平，在中文理解上，GLM-4 All Tools比GPT-4略强。

多工具自动调用现场实测

在大会现场，GLM-4 All Tools进行了一番怼脸实测。

比如，让GLM-4 All Tools联网搜索「智谱2024 DevDay的宣传语」，然后就此主题画一幅画。

可以看到，大模型自动搜索找到了相关发布页面。

同时，生成的图片也很好地还原了GLM-4的意境。

这幅图描绘了智谱2024 DevDay宣传语中的场景。图中展现了勇敢的⼈站在汹涌的潮头，⾯对远处的⻛暴毫不畏惧。

GLM-4可以识别语义并联网，搜索多个数据源。

它还可以生成一段代码，把生成的数据可视化出来，生成简单的图表。

一句简单的输入，联网搜索、提取、代码解释器、绘图等多项原生能力就随之启动，根本无需手动控制。模型强大的理解、解释能力，也就随之而来。

我们可以让GLM-4搭建一个多项式回归预测模型，预测未来5年的全球GDP发展态势。

这样，就能更直观地看到过去十年和未来五年的发展趋势。

根据从MacroTrends获取的数据，我绘制了2007年⾄2022年全球GDP的折线图。在图表中，我已经将下降的数据点标记为红⾊，以便于识别。您可以查看这张图表，以直观地看到全球GDP的变化情况。

值得一提的是，GLM-4升级后，API调用价格维持0.1元/千tokens不变，继续保持较低水平。

国产「GPTs」全新上线

可以看到，智谱AI针对OpenAI的这种对标，不仅仅是「我有」产品，而是在诸多方面都达到了可比程度。

最令开发者期待的是，国产「GPTs」也来了！

DevDay上，智谱AI上线了定制化个人GLM大模型——GLMs。

现在，无需代码基础，任何用户均可用简单的prompt指令，创建属于自己的GLM模型智能体，从而实现对大模型的便捷开发。

比如，智谱AI这次就给自己的DevDay做了一个GLMs。

只要打开智谱清言，进入智谱DevDay的智能体，就可以提问今天大会的事宜。甚至能直接要到现场PPT的下载地址。

并且，GLMs模型应用商店，也有开发者分成计划。

看得出，智谱AI可定制Agent——GLMs的发布，以及上线的GLM Store，在走和OpenAI一样的路线。

继首届开发者大会上发布定制GPTs之后，OpenAI上周正式推出人们期待已久的GPT Store。

短短2个月的时间，全世界已经诞生了300万个自定义的ChatGPT。网友纷纷表示，这就是AI时代的「APP Store」时刻。

简单来说，GLMs降低了大模型的使用门槛，可以让更多的人参与进来，为AI广泛落地铺平了道路。

相较于调用单纯的大模型，GLMs就像一个Agent，可以通过上传文件，比如私有数据等，让其获得额外的知识。这样，定制化的GLMs就能提升对特定问题回答的准确性，以极高的精度执行任务。

苹果在2008年推出APP Store的最大价值在于，创造了一个新的生态，为第三方开发者带去数百万亿美元的收入。

在AI新时代下，不论是GPT Store，还是GLM Store，都将带领世界开发者走向一条新的LLM商业化道路。

好消息是，GLMs和GLM Store今天就已正式上线！

复杂的模型产业链，一步步做起

众所周知，大模型是一个复杂的产业链。而行业对此的共识是：共同创造，才能产生真正的社会价值。

那么，要做到这一点，首先要让大模型本身的能力足够强。

第一步，模型够强

在这一方面，智谱AI从未停下过自己的脚步。

自2019年成立以来，这家AI初创公司便致力于打造新一代认知智能大模型，专注于做大模型的中国创新。

一年后，智谱AI从0开始研发全新的GLM预训练架构，并在2022年推出了中英双语千亿级超大规模预训练模型GLM-130B。

到了2023年，GLM系列大模型保持每3-4月更新一次的频率，逐渐形成了全面的AIGC产品矩阵。

而这一次，性能足以媲美GPT-4的基座大模型GLM-4，是智谱AI进一步研发能力的体现。

智谱AI CEO张鹏在技术开放日上表示，「GLM-4的推出，标志着国产大模型有能力对标世界人工智能最先进水平」。

模型之后，就是生态

除了模型自身的能力之外，开源社区和学术界的支持也至关重要。

开源的意义在于，联合全球的开发者、研究机构、企业，共同让模型的数据更丰富、模型更优化、应用更全面。

而对于个人开发者和中小企业来说，也能以最低的成本调用模型，不需要花费高昂成本。

在国外，Meta以Llama 1的发布为起点，开辟了开源大模型竞相爆发的新路线。

随着越来越多研究人员的加入，羊驼家族也迎来了大爆发：Alpaca，Vicuna，Llama-Adapter，Lit-Llama等变体相继出现。

几个月后，Llama 2在很大程度上取代了Llama 1，成为功能更强的基础模型，甚至官方还推出了其他的微调版本。

同样，国内的开源引领者智谱AI也早有布局。

2022年，智谱AI率先开源高精度双语千亿模型GLM-130B和ChatGLM-6B。

目前，GLM系列模型在Hugging Face上的下载量已经超过了1100万，在GitHub上累计星标超过5万。而智谱AI也成功跻身全球最受欢迎开源机构第5。

基座大模型GLM-4和GLMs等，会进一步推动GLM的模型生态建设，让智谱AI已经构建起的全模型产品线更加强大。

2024年，智谱对于学术的支持还会继续。1000万元现金和算力资源的大模型科研基金，2023年来已经有三十余所高校参与。

现在，每一个研究者，均有机会参与大模型的研究，还会拥有自己研发的知识产权。

此外，智谱AI还针对开源社区发起了大模型开源基金，为优秀的开发者提供了高达三个「一千」的支持——1000张卡、1000万人民币和1000亿tokens。

同时，智谱AI还重磅升级了面向全球大模型创业者的「Z计划」。

创业基金的总额，达到10亿元！

这项基金，用于支持大模型原始创新，覆盖大模型算法、底层算子、芯片优化、行业大模型和超级应用等各个方面。

联合上下游，推动产业升级

而在商业领域，智谱AI在2023年里已经积累了1000多家合作伙伴，并与200多家实现了深度共创。

怎么看一个大模型好不好用？最终结果，还是要看有没有真正的落地。

目前，GLM系列模型的能力，已经覆盖了包括金融、咨询、互联网、传统消费产品、智能制造、传媒等诸多领域。

与此同时，智谱AI还将包括国产芯片、不同垂直领域服务集成商等上下游行业合作伙伴团结到一起，共同推动整个产业进步与升级。

可以看到，围绕着GLM系列模型的生态圈，正在加速形成。

智谱AI CEO张鹏表示，「一枝独秀不是春，中国的人工智能事业要繁荣、要发展，需要所有的参与者、产业链上下游合作伙伴、开发者社区、学术界一同努力。智谱不仅有意愿，而且有能力为打造繁荣的国产大模型生态贡献自己的力量」。

参考资料：

https://chatglm.cn/main/toolsCenter

本文链接：https://www.aixinzhijie.com/article/6843792
转载请注明文章出处

大模型智谱AI

原文：https://mp.weixin.qq.com/s/fQO7Dj80DnuA8GK_e5Pxrw

免责声明：本文不代表AI新智界立场，且不构成投资建议，请谨慎对待。

版权声明：作者保留权利。文章为作者独立观点，不代表AI新智界立场。

评论

登录账号发表你的看法，还没有账号？立即免费注册

分享

收藏

阅读

评论

点赞

上一篇

下一篇