多模态卷王阶跃震慑6连发，新年档最强AI宗族来袭！

发布时间：2025-05-20　点此：902次

修改：修改部 HYZ

【新智元导读】开年放大招！阶跃星斗重磅晋级 Step 系基座模型全家桶，一口气连更上新 6 款模型。作为业界公认的「多模态卷王」，这家 AI 明星公司现在已具有业界最全模型矩阵。

接近新年，阶跃星斗的新年系列大礼包也来了！

是的，这个国内寥寥无几的坚持自研底座模型的大模型创业公司，又给业界带来了不小的震慑。

一口气接连上新了 6 款模型，从言语、语音、推理到多模态了解和生成，一扫而光。

经过这一轮迭代后，阶跃星斗的模型更全面，才能也更强了。而到现在，国内有全类型基模布局的大模型公司，仅阶跃星斗、阿里通义、智谱三家。

当然，布局满是一方面，模型功能终究相同令人重视。简直跟阶跃发布全新模型同一时间，全新晋级多模态 Step-1o 系在两大威望榜单中，再次拿下我国第一。

现在，阶跃在多模态卷王的路上越走越远。

接下来，让咱们好好扒一扒，这波神级的更新有多猛。

了解生成一体化，多模态卷王继续抢先

一开年，阶跃火速拿下新排位——在国内威望大模型评测渠道 OpenCompass 中，Step-1o 直接闻名。

这一现象似曾相识。

要知道，Step-1o 的上一个版别 Step-1V 多模态了解模型，上一年上半年刚发布时，也火速登上了 OpenCompass 榜第一。最近一年，阶跃多模态模型在这张榜单上屡次成功「守擂」。

Step-1o Vision：逾越幻想的视觉了解

与此一起，Step 1o 系列的视觉版别多模态——Step-1o Vision，一经推出就为阶跃在多模态赛道的竞赛中添加了一大助力。

在 1 月 20 日 LMSYS Org 最新发布的大模型竞技场 Chatbot Arena 多模态榜单中，Step-1o Vision 位列视觉范畴我国大模型第一，是仅有进入前 10 名的我国公司。

相较于 Step-1V 系列模型，Step-1o Vision 进行了架构晋级，在视觉辨认、感知、指令跟从、推理等中心才能上都有大幅提高。看得更清楚，具有更强壮的细节感知才能，且看得更了解，能深入了解视觉背面的杂乱语义和隐喻。

更精准图画了解

Step-1o Vision 就像是取得了「火眼金睛」，能轻松应对杂乱场景的辨认图画内容的应战，即便是相似的图片，也能轻松辨认。

前段时间，Karpathy 转发了一篇关于软件工程「认知契合」的一篇观念文章，其间一张图很好诠释了中心观念。

将它扔给 Step-1o Vision，看看它的了解力怎样？

AI 一眼就区分出了图中左右部分差异之处，它别离剖析了左图和右图中心关键，并在终究给出一个要言不烦的总结。

更令人惊叹的是，它还能精确辨认并了解图画中的文明隐喻。

就好比方下这类的梗图，Step-1o Vision 剖析得但是头头是道。

更强壮的视觉推理

但实在令人震慑的是，Step-1o Vision 的视觉推理才能。

它不只能看懂图片，还能依据图画内容进行深度考虑和推理，为你答疑解惑、激起构思，成为每个人作业与学习路上的智能同伴。

如下这张广告牌中，Step-1o Vision 精确读取了中心信息，并给出了超强的了解力——人类技能的不行代替性，以及对 AI 的诙谐回应。

再比方，需求运用到战略的问题——拿到 VC 需求几步？

Step-1o Vision 先了解了图片之后，精确推理出得到终究目标物，需求的进程。

语音模型 Step-1o Audio 再晋级

Step-1o 系列这次晋级的，还有语音模型 Step-1o Audio。

上一年 12 月阶跃发布了国内首个千亿参数端到端语音大模型，现在在心情感知与了解、多语种和多方言、通话体会上，又有了新的打破。

现在，它能感知你的心情，精准辨认出口气语调中的特别之处。真的 AI，就要做到比目标还交心。

共情是深度沟通的根底。当我吐槽今日作业太累太累，它会交心肠送上问好，并乐意倾听我的糟心思，乃至还站在我的视点去考虑问题。

Step-1o Audio 也知晓一些人情世故。当男朋友生气了，我寻求协助，它会献上高情商的良策。更风趣的是，还可以让 AI 在线「撒娇」教育。

假定你有鸡蛋、西红柿、生菜、鸡肉，不知道怎样做一道减脂餐的时分，直接找它协助就可以了。

一起，它还支撑多语种、多方言对话，在中英沟通时，直接抵达「同传」的水平！

而通话体会，也愈加低推迟、声响更天然，有了个性化的风格。

首款推理模型：文理兼修，作用比美 o1-mini

最近，业界各家都纷繁推出了自家的推理模型。

阶跃星斗的首款推理模型 Step R-mini，也及时上台了。至此，阶跃就满意达成了这一作用：成为现在基座模型最全的公司之一。

虽然推理模型早已不是一个新鲜的概念，但在它们之中，却存在着严峻的「偏科」现象。只会做数理题的 AI，就像个只会背公式的学霸，很难在实践使命中广泛使用。

而模型想要「文理兼修」，就必须变身全能型选手，什么通用使命都能轻松搞定。

这儿的问题在于，假如仅仅简略地经过添加练习数据来提高文科才能，那么就会像跷跷板相同，形成模型理工科才能的下滑。

为了躲避这一点，Step R-mini 选用了 On-Policy（同战略）强化学习算法，并进行了大规模的强化学习练习。

所以，Step R-mini 的推理才能怎样？

令人惊喜的是，在 AIME 和 Math 等数学基准测验上，它的作用超过了 o1-preview，比肩 OpenAI o1-mini。在 LiveCodeBench 代码使命上，也比 o1-preview 作用更佳。

接下来，咱们就要上实测题了。

比方这道逻辑推理，Step R-mini 很轻松地就给出了正确答案。

一个操控小飞机躲子弹游戏的 python 代码，它经过一番考虑后丝滑写出。

下面测验大部分推理模型的盲区——文科。在内容创造上，Step R-mini 写的现代诗的表现也是可圈可点。

在考虑进程中，它会首要剖析咱们的要求，考虑该怎样处理创造视点，怎样赋予事物人类情感的象征意义。

上下滑动检查

引人注意的是，在推理模型的研制上，阶跃也在将自己拿手的多模态融入进去，Step R-mini 在视觉推理上现已有了阶段性作用。

最常见的问路题，Step R-mini 在杂乱场景中，也能做出判别，给出正确的导向。

还有相似的题——「从蓝色箭头动身，我能抵达哪个」，Step R-mini 一眼就辨认出道路。

再上升一个难度——「这些小球别离对应什么数字」，更多起到找结尾的问题，AI 也没有被绕晕。

针对杂乱视觉场景下的 Reasoning 问题，团队引入了慢感知和空间推理的思维，把 Test-Time Scaling 从文本空间转移到视觉空间，完成在视觉空间下的 Spatial-Slow-Thinking。

据悉，阶跃也方案本年发布多模态视觉推理。

Step-Video V2：敞开视频生成新篇章

若说 Step-1o Vision 让 AI 实在了解了视觉国际，那么 Step-Video 则让 AI 创造力插上了幻想的翅膀。

这一次，Step-Video 模型迎来了严重晋级，迭代到了最新 V2 版别。

杂乱运动，动作更天然

其间，最令人形象深入的是，其在杂乱运动场景的打破。

咱们现已看过太多太多，AI 视频模型在体操、运动、健身等场景中，一再失利的事例。

舞蹈、运动等各种杂乱运动场景中，在 Step-Video V2 的演绎下，出现出史无前例的流通天然感。

比方下面这段芭蕾舞，双腿一再替换之间，并没有出现错觉。

舞台灯火为蓝色，布景幕布描绘了湖水和山峦的现象。一位身穿白色芭蕾舞裙的芭蕾舞艺人在舞台中心翩然起舞。固定镜头，平视拍照，艺人旋转，挥舞手臂，踮起脚尖。镜头拉远，平视拍照，展示出更多芭蕾舞艺人，她们身穿白色芭蕾舞裙，在舞台上规整地摆放，跟从主角的舞步，一起挥舞手臂，踮起脚尖。镜头缓慢推近，平视拍照，聚集于主角，她高雅地跳动、旋转。固定镜头，平视拍照，主角和芭蕾舞团的艺人们在舞台上继续扮演，她们的动作协调一致，展示出美丽的舞姿。

人物描绘更传神

在人物形象描绘上，Step-Video V2 将细节表现面向了极致，更传神生动、细节更丰厚，表现更天然。

从五官概括到实在的皮肤质感，从天然的面部表情到奇妙的身体言语，每一个细节都经过精心打磨。

再来看这位乘坐列车看向窗外的女子，AI 在人物描绘上也做到的十分实在，包含窗外物体运动方向，也很好地遵从了物理国际。

视频中，一位身着蓝色上衣的女子坐在列车窗前，头依靠着窗户看向窗外。她面带微笑，目光中透露出对窗外风光的神往。列车正高速行驶，窗外的风光敏捷向后掠过，好像是一幅幅活动的画卷。整个画面选用固定镜头拍照，画面明晰，具有写实风格，展示了女子与窗外风光的调和美感。

Step-Video V2 在「变身」方面，表现愈加精彩——一个小男孩忽然变身毒液。

视频中，一个身穿西装的小男孩，忽然表情变得狰狞，身体逐步被黑色的液体包裹，终究变身成为黑色毒液。这个进程在暗色彩的环境中进行，布景较为含糊，突出表现了小男孩变身的每一个细节。视频选用特写镜头拍照，具有科幻风格，明晰地展示了变身的每一个动作细节，给人以震慑感。

精准文字生成

不只如此，Step-Video V2 在文字生成方面，愈加精准，还能支撑中英双语输入。

下面「2025」字样中，比较可贵一点是，AI 还可以将倒映在地板上的 2025 一起生成出来。

选用 3D 动画风格，视频中，渐渐闪现出了“Year of Snake， 2025”的字样，天空中绽放出绚烂的焰火。2025 字样晶莹剔透泛着金光，地板上反射着它的影子，布景是黑色的地板。一条卡通蛇戴着一副酷炫的黑色墨镜不断扭动身体，镜片上反射着舞台的灯火。画面选用固定机头，动画风格，展示了蛇年新年喜庆热烈的气氛。

带着赤色围巾的小猫，手里拿着福字，新年气氛感彻底拉满了。

视频中，一只毛色柔软的灰色小猫前爪紧握着写有「福」字样的对联。它戴着一条赤色的围巾，围巾上绣着金色的斑纹。小猫的目光专心而灵动，好像在为新年的到来而欢呼雀跃。它站在一个装修富丽的房间里，房间里挂满了彩带和气球，充满了节日的气氛。整个画面选用固定镜头拍照，画面明晰，具有温馨而喜庆的气氛。

镜头表现力打破性晋级

更令人兴奋地是，Step-Video V2 在视频叙事上，完成了全方位的晋级。

丰厚的镜头言语，让其可以创造出更具感染力的著作。

视频中，一名身穿夺目黄色和赤色赛车服的赛车手，头戴专业头盔，驾驭一辆规划共同的白色和赤色本田摩托车，在泥土赛道上打开严重影响的越野赛。镜头以平视方法跟从赛车手，捕捉他每一个跳动、转弯和加快的瞬间。赛道由松懈的泥土构成，布景中观众席、围栏、旗号

再加上推位摇移等专业镜头技巧的灵活运用，Step-Video V2 不只让视频画面更具美感，更为内容叙事注入了共同的艺术魅力。

下面这个「跟拍」宇航员的镜头，彻底不输好莱坞大片。人物人物额头上的汗珠，这么细小的细节，AI 也能彻底出现出来。

手持盯梢镜头滑过飞船走廊，捕捉到宇航员作业时专心而有序的神态。镜头拉近到一名操作员，他聚精会神地盯着屏幕，额头上沁出了汗珠，周围的仪器宣布消沉的嗡嗡声，加重了紧迫感。

Step-2 mini、Step 文学大师来了

除了多模态模型，阶跃自研的言语模型也实力强壮，表现亮眼。

比方上一年 3 月发布的 Step-2，便是国内最早由创业公司发布的万亿参数大模型，屡次在国内外威望榜单上取得我国第一。

此次晋级的 Step-2 mini、Step 文学大师版都是 Step-2 系列的分支。不同的是，前者性价比更高，更具商用性，后者则在文学创造上表现出了惊人才能。

Step-2 mini

Step-2 mini 是一款小参数模型，它的亮点是极速呼应、高性价比，因此商业化场景更广泛。

比照 Step-2 来看，Step-2 mini，只要 3%左右的参数量，却保有了 80%以上的模型功能。

与此一起，它具有更快的生成速度，和极高的性价比。

在输入 4000 tokens 的情况下，Step-2 mini 的均匀首字时延仅 0.17 秒。输入低至 1 元/百万 token；输出低至 2 元/百万 token。

之所以能抵达如此极速的作用和极致性价比，都要归功于阶跃星斗自主研制的新式注意力机制架构——MFA（多矩阵分解注意力）及其变体 MFA-Key-Reuse。

比较于常用的 MHA（多头注意力）架构，这种架构节省了近 94%的 KV 缓存开支，因此具有了更快的推理速度，一起大幅降低了推理本钱。

现在，在阶跃星斗敞开渠道，开发者现已可以调用 Step-2 mini 的 API 接口了。

Step 文学大师

Step-2 文学大师版，是专为创造而生的言语模型。

它不只沿用了万亿参数言语模型 Step-2 广袤的常识储藏、对文字强壮的细节把控才能，还具有更强壮的内容创造才能。

为什么很多大模型创造的内容，总有一股挥之不去的 AI 味？

实质原因，便是这些模型过度对齐社会一致，「跪得太直」。由于一点点没有真情实感，一出口天然也便是「正确的废话」，短少魂灵。

好的内容创造，需求逻辑紧密、言语凝练、句句带料，具有深入思维和共同风格。

不过，这许多人类都无法做到的事，模型怎样做到呢？

此刻，Scaling Law 便是重中之重了。模型小、预练习数据小，模型就没有满足的智能。

而 Step-2 文学大师的练习进程中，满足的模型容量、练习数据量，都成为了它文字功底的柱石。

那就让咱们来看看，Step-2 文学大师的写作功底终究怎样。

咱们请它以「新年」为题，写一篇悬疑小说。

有了有了，有那味了！这个悬念丛生的故事，是小编在某乎上看到，一定会付费看到结局的程度。

上下滑动检查

接下来，让它试试写一篇科幻小说，描绘一下 100 年后人类和 AI 共存的国际。

这篇故事的主人公，担任 AI 的定时毁掉。看到终究一段，小编后背一凉：Step-2 文学大师，您的高文真是绝了！

上下滑动检查

初心不变，AGI 路上的技能抱负主义者

百模大战之后，阶跃星斗、智谱、百川智能、月之暗面、MiniMax、零一万物锋芒毕露，成为人们口中的「AI 六小强」。而这六家 AI 草创明星公司，也因曩昔一年的挑选，分解出了全新的格式。

一直以来，技能演进和商业探究都不是一条直线。各家依据本身特色挑选不同的途径，这种多元化开展格式，恰恰表现了职业的蓬勃生机。

百川智能专心 AI 医疗范畴，其医疗增强壮模型才能全球抢先，并且在落地使用上也取得了不错开展。聚集金融、教育、医疗等职业的商业化，经过全链路范畴增强的一站式解决方案协助企业智能化晋级。

零一万物聚集参数适中、推理速度更快、推理本钱更低、更具商业落地远景的功能杰出的轻量化模型。在国内商场专心 ToB 方向，在海外商场则以理性的姿势继续 ToC 使用的探究。

月之暗面经过 Kimi 探究国内消费级商场，力求打造 AI 年代的超级使用。并于近来推出了 OpenAI 满血版 o1 之外第二个多模态推理模型 k1.5。

此外，阶跃星斗则挑选继续在基座大模型上加大研制。

不久前，阶跃星斗现已完成了 B 轮融资，资金总额高达数亿美金。据了解，这笔资金将继续用于根底模型的研制，继续强化多模态和杂乱推理方面。阶跃一口气发布的基模「六连更」，是 2025 年第一张作用单。

回顾曩昔一年各大 AI 产品的开展进程，咱们不难发现一个规则：无论是对话才能、构思写作，仍是代码生成，用户体会的天花板一直受限于底层模型的才能鸿沟。

一些看似简略的产品立异，往往需求强壮的模型才能的支撑。

值得一提的是，Step 系模型屡次在各大威望榜单中登顶第一，收成国内外开发者许多好评，充沛验证了其技能实力。

AI 大模型的竞赛就像一场马拉松，重要的不是起跑的速度，而是途中的节奏和后程的耐力。而现在，阶跃冲刺的潜力十足。

从千亿参数到万亿参数的跨过，从文本图画了解到视频生成的拓宽，阶跃正在用一个个详细作用，将那张通往 AGI 的道路图变为实际。

究竟，在经过 AGI 的征途上，只要那些可以继续堆集的玩家，才有或许走到终究。

告发/反应

标签：阶跃卷王 AI 模态来袭

上一篇：曩昔一夜 3个电话俄罗斯和乌克兰间隔停火还有多远

下一篇：胖东来发声明正告“AI生成于东来声响行为”，要求相关账号当即中止侵权行为

网站分类

标签列表

最新留言