智谱「超大杯」模型全家桶亮相KDD部分任务超越GPT-4o

  新闻资讯     |      2024-09-03 22:39

  智谱「超大杯」模型全家桶亮相KDD部分任务超越GPT-4o在与 GPT-4o 的全面较量中,GLM-4-Plus 已经可以在大多数任务上做到逼近甚至在某些任务上实现了超越。还有 One More Thing:清言上线了视频通话功能,首批面向部分用户开放。

  近日,数据挖掘顶会 KDD 2024 在西班牙巴塞罗那正式召开,来自中国的研究团队和科技企业纷纷亮相。其中,在 8 月 29 日举办的大语言模型日(Large Language Model Day)上,智谱 AI 顾晓韬博士介绍了智谱 AI 支持中英双语的对话机器人 ChatGLM,成为中国科技力量的鲜明代表 。

  与此同时,他还介绍了智谱基础模型的重大升级,即新一代基座大模型 GLM-4-Plus。这是智谱全自研 GLM 大模型的最新版本,在语言理解、指令遵循、长文本处理等方面性能得到全面提升,保持了国际领先水平。

  此外,他们还发布了文生图模型 CogView-3-Plus 和图像 / 视频理解模型 GLM-4V-Plus。前者具备与当前最优的 MJ-V6 和 FLUX 等模型接近的性能,后者具备卓越的图像理解能力和基于时间感知的视频理解能力,上线开放平台后将成为国内首个通用视频理解模型 API。

  在视频生成方面,比 CogVideoX 2B 更大的 5B 版本也正式开源,其性能进一步增强,是当前开源视频生成模型中的最佳选择。

  这些模型共同构成了智谱自主原创的全栈大模型谱系,推动智谱全面对标国际先进水平,巩固中国在全球大模型领域的领先地位。

  我们首先对刚刚发布的 GLM-4-Plus 的通用知识掌握程度、逻辑推理等相关能力来了一波测验。

  先看官方给出的指标。从结果来看,在与 OpenAI 最强旗舰模型 GPT-4o 的全面较量中,GLM-4-Plus 已经可以在大多数任务上做到逼近甚至在某些任务上实现了超越。

  对于逻辑推理任务,先让它尝试解答最近一段时间让大模型犯糊涂的「数字比较」问题。从结果看,GLM-4-Plus 很懂小数位比较的逻辑思路。

  给 GLM-4-Plus 上上难度,看它能不能搞定经典的「瓶子装水」问题。显然它可以一步步厘清破解思路,并给出准确答案。

  给出一张有关英伟达的漫画,GLM-4V-Plus 能 get 到这是用淘金热比喻当下的 AI 热,指出英伟达是铲子卖家,其他 AI 公司是铲子买家,和漫画寓意相符。

  接下来,我们又给了它一张包含多个人物的梗图。结果发现,GLM-4V-Plus 不仅能够描述出人物的穿搭、表情以及照片里模糊的背景,还能看出几个人之间的关系以及表情的成因,效果出乎意料。

  GLM-4V-Plus 在「实战」中不仅可以理解网页内容,将它们转换为 html 代码,而且能够对复杂的视频内容进行透彻的理解与分析,并做到与人类之间类似的沟通AG九游会登录j9入口

  我们也让 GLM-4V-Plus 生成了机器之心官网截图的 html 代码。它基本对设计稿进行了分区规划,排版方式用了比较现代的 flex,支持一定的响应式,具有一定的基于当前代码继续补充细节的可行性。

  从代码功能来看,它能够正确识别模块的内容大概是什么(比如是 Logo、是 Banner 还是新闻),并且语义化给出 class 命名(如新闻板块命名为.news)。

  眼见为实,GLM-4V-Plus 强不强,下面这个视频示例也会给我们答案。我们喂给模型一段 11 秒时长的篮球比赛现场视频:

  Q1: 这个穿绿色衣服的球员在整个视频都做了什么?A1: 在整个视频中,穿绿色衣服的球员在场上运球,然后跳起将球投入篮筐。Q2: 这个视频的精彩时刻是什么?发生在第几秒?A2: 这个视频的精彩时刻发生在第 4 秒,当时穿绿色衣服的球员跳起并将球投入篮筐。

  可以看到,GLM-4V-Plus 显然准确地 get 到了视频传达的内容,并进行了全面的总结。不仅如此,它还能根据「看到」的某些显著特征(如球员的服装)来展开进一步合理的推理判断;并针对具体时间节点的内容进行概括总结,在某种程度上可以说具备了时间感知能力。

  我们测试了当前大火的《黑神话・悟空》片段,GLM-4V-Plus 也能按照时间顺序描述清楚,而且描述语言文学性高,与视频片段高度适配。

智谱「超大杯」模型全家桶亮相KDD部分任务超越GPT-4o(图10)

  一个穿着传统中国盔甲的动画孙悟空,站在多云的天空下,散发出决心和战斗的准备。随着时间的推移,他的装束被详细展示,包括金色的盔甲、红色的流苏和类似羽毛的头饰,背景是雾蒙蒙的。他的表情从严肃的决心变为沉思,暗示着内省。场景转换到一个雾蒙蒙的山区地形,在那里,一个穿着华丽盔甲的战士面对着一个巨大的、有鳞片的生物,预示着一场史诗般的对抗。随着战士和生物之间的紧张关系升级,最终在多云的天空下,一场戏剧性的对峙达到。

  最后AG九游会登录j9入口,从 CogView-3-Plus 生成的一系列图像示例中,我们体验到了文生图能力的显著提升。

  比如在下面这张图中,我们看到 CogView-3-Plus 可以非常准确地生成单词,这在很多文生图应用中都是高频翻车区。

  在下面这张图中,CogView-3-Plus 不仅准确还原了马斯克的面部特征,还创意性地给马加上了类似电路的纹理,非常富有想象力。

  CogView-3-Plus 对于古诗词的理解有些出乎意料,不仅画出了所有的元素,还还原了诗词中的意境。

  除了以上基础模型的进展,智谱旗下 C 端产品 —— 生成式 AI 助手智谱清言也迎来了重磅升级。

  我们知道,在 GPT-4o 出现后,大家都在猜测,下一个 Killer APP 的交互方式会是什么样子。很多人看好语音,但毋庸置疑,语音 + 视频会更加方便,所以大模型厂商都在想方设法给自己的大模型安上「眼睛」,让大模型不仅会写、会听、会说,还会看。

  在国内,智谱是首个把这项综合功能做成 C 端产品并开放给部分用户的公司。这部分用户只要下载最新版本的智谱清言,然后打开视频通话窗口,就可以和它视频通话。

  这个视频通话跨越了文本、音频和视频模态,并具备实时推理的能力。随着该功能的加入,清言 APP 成为首个可以通过文本AG九游会登录j9入口、音频、视频和图像来进行多模态互动的 AI 助手。

  首先,我们尝试了一道小学数学题。在看到题目后,清言似乎自动代入了一个小学老师的角色,语速放慢且富有耐心。而且,它不是直接给出结果,而是用苏格拉底启发式教学法,引导提问者一步一步算出答案。这不就是家长想要的「作业辅导」搭子吗?

  接下来,我们尝试了一下工作场景 —— 让清言帮忙解读一篇英文报道。可以看出,它不仅能把新闻概括出来,还能自行扩展新闻背后的信息,可以考虑拿来当工作搭子了。

  目前,该功能也开放了外部申请。现在到智谱清言 APP 或登录 PC 端,就能站内申请内测。智谱表示会持续迭代并逐步放开规模,尽快让全员都可以使用。

  此外,智谱还透露,这其实只是一个 beta 版本,清言的视频通话功能近期还会迎来大的版本迭代。看来,智谱有意将 C 端大模型卷到会写、会听、会说还会看的 Next Level,在行业内掀起新一轮竞赛。

  在众多大模型公司中,智谱是非常有辨识度的一家。这一方面是因为,智谱的模型早早就做到了接近 GPT-4 的水平;另一方面则是因为,没有哪家国产大模型公司像智谱的技术动作这样密集。

  比如,在模型方面,智谱在 1 月份就迭代出了新一代基座大模型 GLM-4。该模型整体性能成为当时最接近 GPT-4 的国产大模型。如今,GLM-4 再度进化,时间间隔也不过半年多。

  在战火纷飞的小模型战场,智谱也没闲着,推出了 GLM-4-9B、GLM-4V-9B 等小模型。其中,GLM-4V-9B 还是多模态的,通过加入 Vision Transformer,该模型仅以 9B 的参数量就实现了比肩 GPT-4V 的能力。但和后者不同的是,这个模型是开源的。

  而在产品方面,智谱也是在 1 月份就推出了对标 GPT-4 All Tools 和 GPTs 的 GLM-4-All Tools 和 GLMs。其中,GLM-4-All Tools 实现了根据用户意图自动理解、规划复杂指令,自由调用文生图、代码解释器、网页浏览、Function Call 等多项工具来完成复杂任务,这意味着 GLM 系列模型的全家桶能力实现工业化。GLMs 则实现了个性化智能体定制,帮助没有编程基础的用户实现大模型的便捷开发。

  在清言这款 C 端产品上,智谱也是更新不断,其中动静最大的要数最近发布的视频生成功能「清影」。只要你有好的创意(几个字到几百个字),再加上一点点耐心(30 秒),「清影」就能生成 1440x960 清晰度的高精度视频。而且,和 OpenAI 迟迟没有上线的 Sora 不同,清影同源的视频生成模型 ——CogVideoX 也是开源的,而且一路从 2B 开源到 5B(未来可能更大),这在国内外开发者群体中都引发了不小的轰动。

  可以看到,从基础大模型到小模型,从语言到多模态,从技术到产品,智谱在各个方向全面发展,且全方位对标 OpenAI。这在国内大模型厂商中并不常见。这是一种技术储备充足的表现。

  在竞争激烈的全球大模型市场中,智谱正通过频繁的技术迭代和开源举措,不断推动行业和生图的发展,赢得了越来越多的关注与认可。