矫正语言障碍学校排名前十(语言障碍是智力问题吗)

本人在今日头条所发作品皆为原创首发,拒绝任何人任何形式搬运到其它平台发布!

量子位 | 公众号 QbitAI

国产大模型,登顶多模态榜单!

当科技界的风云变幻,昆仑万维以其「天工」大模型Skywork-MM再次掀起了浪潮。

不久前,颜水成博士的加盟让昆仑万维备受瞩目,他被任命为天工智能联席CEO,这一举动引起了广泛的关注。

而如今,Skywork-MM在腾讯优图实验室联合厦门大学的多模态大语言模型测评中,综合得分排名第一。

矫正语言障碍学校排名前十(语言障碍是智力问题吗)插图

△MME感知榜第一,认知榜第二,总榜第一

腾讯优图实验室联合厦门大学新建的评测基准MME首次对全球范围内MLLM模型进行了全面定量评测,并公布了16个排行榜,包含感知、认知两个总榜单以及14个子榜单。

MME数据集是一个最近发布的多模态语言模型测评基准,通过涵盖感知和认知任务的14个子任务来全面评估模型性能。

然而,令人瞩目的是,Skywork-MM只用了不到50M的图文数据,远小于其他大模型的数据规模,却毫不畏惧地登顶了榜单。

矫正语言障碍学校排名前十(语言障碍是智力问题吗)插图1

那么,Skywork-MM是如何做到的呢?

主要是通过解决了多模态大模型中一直存在的两个难题:幻觉和较弱的跨语言能力。

幻觉问题,指的是多模态大模型在回答问题时,倾向于肯定的答案,即使问题中根本没有相关特征。比如,当面对一张图片时,即使是优秀的多模态大模型,也可能给出不符合事实的答案。

跨语言能力问题,表现在模型在应对中文场景中的问题回答不尽如人意,甚至可能回复英文。

为了解决这些问题,昆仑万维的天工大模型Skywork-MM从数据、模型和训练流程三个方面入手。

矫正语言障碍学校排名前十(语言障碍是智力问题吗)插图2

首先是数据方面,他们采用了一种多模态指令微调数据的方法,将图像作为中心,喂给模型同时包含正样本和负样本的多模态指令。

这使得模型能够同时学习图像中存在的视觉特征和不存在的特征,从而增强了指令跟随能力。

对于跨语言能力问题,他们提出两个解决思路:一是增强中文的指令追随能力,通过将英文指令微调数据翻译成中文使用;二是增强中文相关场景的识别能力,引入大规模的中文图像-文本对数据。

然而,收集高质量的中文语料并不容易,因此需要继续努力。

矫正语言障碍学校排名前十(语言障碍是智力问题吗)插图3

在模型架构方面,为了避免低质量的图文数据影响模型效果,他们将视觉模型和大语言模型完全冻结,以保持视觉和语言特征的稳定。

同时,他们引入了一个可学习的视觉特征采样器和语言模型的LoRA适配器,以更好地关联不同文化环境中的视觉特征和语言特征。

总体来说,Skywork-MM包括四大模块,分别用于提取图像特征、计算可用于语言模型的token、接收指令提示并输出图像描述或问题回答。

训练流程分为两个阶段:第一阶段使用双语的大规模图文对数据进行图像和语言概念的关联学习,第二阶段使用多模态微调数据进行指令微调。

矫正语言障碍学校排名前十(语言障碍是智力问题吗)插图4

经过这些改进,Skywork-MM取得了出色的效果,能够准确理解图片中的反常行为,处理特殊指令,以及在中文场景中表现出色。

这些突破让Skywork-MM轻松解决了幻觉和跨语言问题,成为多模态大模型领域的佼佼者。

在MME榜单上,Skywork-MM荣登综合第一,感知榜单第一,认知榜单第二。

这个榜单是多模态大模型的最新测评基准之一,包含了各种感知和认知任务,如对象识别、常识推理、文本翻译等。

矫正语言障碍学校排名前十(语言障碍是智力问题吗)插图5

除了MME榜单,Skywork-MM在另一个多模态基准MMBench的开发集上表现同样出色。

然而,尽管取得了巨大成功,Skywork-MM还存在改进空间,包括解决文化和语言障碍、进一步扩大模型规模、完善评估基准等方面。

综上所述,多模态大模型的未来充满了无限可能性,Skywork-MM的成功只是一个开始,我们期待看到更多的突破和创新,让多模态大模型发挥出更大的潜力。

量子位 Qbit

AI · 头条号签约

关注我们,第一时间获知前沿科技动态

Skywork-MM的成功不仅代表了昆仑万维在多模态大模型领域的强大实力,也揭示了人工智能领域的潜力和未来发展方向。

矫正语言障碍学校排名前十(语言障碍是智力问题吗)插图6

然而,就像所有伟大的科技成就一样,这只是一个阶段性的胜利,我们仍然需要面对一系列挑战和机遇。

首先,文化和语言障碍仍然存在,这是多模态大模型必须克服的问题。不同文化和语言背景之间存在着差异,视觉特征和语言特征也会有所不同。因此,我们需要进一步发展多语言的视觉模型,以更好地适应不同文化环境中的需求。同时,我们需要收集更多各种语言的大规模高质量图像文本对数据,以确保模型准确掌握视觉概念和文本概念的关联。

矫正语言障碍学校排名前十(语言障碍是智力问题吗)插图7

其次,虽然Skywork-MM已经取得了显著的突破,但这只是一个较小规模的多模态模型。随着技术的不断发展,我们有望研究更大规模的多模态模型,这将涉及到更多的数据、更复杂的参数设置以及更精细的训练策略。这也意味着我们需要在多模态大模型领域进行更多的探索和实验,以进一步提高性能。

另外,评估基准也需要更全面。目前的MME和MMBench测试范围有限,未来我们可以考虑扩大测试任务的多样性,以更全面地评估多模态大模型的性能。

矫正语言障碍学校排名前十(语言障碍是智力问题吗)插图8

最后,从感知任务中的粗粒度物体位置识别来看,现有多模态大模型的表现仍然有待提高。对于机器人感知等应用来说,准确识别物体的位置至关重要,因此这是一个需要不断改进的方面。

总结而言,Skywork-MM的成功标志着多模态大模型领域的一次重要突破,但我们仍然面临着众多挑战和机遇。随着技术的不断进步和研究的深入,我们相信多模态大模型将会迎来更加辉煌的时刻,为人工智能领域的发展注入新的活力和创新。让我们拭目以待,见证多模态大模型的未来不断展开。

矫正语言障碍学校排名前十(语言障碍是智力问题吗)插图9

最新版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如有侵权请联系删除!站长邮箱:121259802@qq.com