买球(入口)官方网站-登录入口

  • 老旧小区安防改造解决方案-买球入口
  • 智慧社区SaaS平台+硬件租赁服务-买球平台
行业动态: 2026年智慧社区安防系统年复合增长率达18.6% | 全国17万个老旧小区纳入改造计划,安防投入占比提升至8%-12% | 买球科技SaaS安防平台+硬件租赁模式已服务50+小区

24小时全国服务热线

13655895569

如果您有任何疑问或是问题,请随时与我们联系

查看联系方式>>
行业观察 当前位置: 首页 > 行业观察

不卷参数卷架构这个开源模型把图像理解和生成统一了

浏览次数:    时间:2026-06-23 19:25:01

  

不卷参数卷架构这个开源模型把图像理解和生成统一了(图1)

  中文海报、复古杂志封面、直播画面、社交截图、连高考试卷都能照着出一张几乎以假乱真的。

  但实际上上手你就会有同感:免费用户一天几张,抽卡次数有限,遇到稍微严肃点的活,额度马上到顶,常常是活没干完,次数没了。

  针对这一空档,商汤刚刚开源了一个全新架构的理解生成统一模型SenseNova-U1,虽然小尺寸版本只有8B,却能复刻不少GPT-Image-2的拿手绝活。

  太阳系图解,八大行星各自的轨道、属性、图文介绍一应俱全,看着挺像那么回事。

  画个钢铁侠,模型也能自动买球入口股份有限公司从轮廓、铺色、细节、质感、氛围等多个阶段拆解完整的绘画流程。

  这几个曾经被公认是AI生图最难啃的硬骨头,U1能跟GPT-Image-2挤进一桌。

  在具体的图像理解与生成的多项指标上,SenseNova-U1也是登顶开源模型的榜首。

  所谓连续性图文创作,就是文字和图片在一段输出里自然交叠,而不是文字归文字、图片归图片。

  这听起来很简单,但实际上很难。因为文字保留语义、图片保留像素细节,这两件事在传统架构里几乎是天敌——

  U1的做法是让两者在同一个表征空间里共享上下文,语义丰富性和像素级视觉保真度第一次同时拿住。

  简单讲,就是模型能像人一样,边思考边画草图,文字和图片在一段输出里自然交叠。

  比如,我让它生成一个“煎牛排的操作教学”。它能从食材准备,沥干水分、调味、煎制和翻面……讲到最后装盘。

  每一步的关键操作都有图,牛排的形象从生肉到五分熟一路保持高度一致,不会画着画着变成另一块肉。

  它能直接给我吐出图文并茂的教材式段落,从准备阶段、镜头建立、再到引入道具、次要角色一应俱全,比纯文字解释直观得多。

  传统范式得在多个模型之间来回调用,各画各的,角色形象很容易在第三步就走样。U1是单次单模型调用直接出全套。

  在模型界面中,你可以直接输入“自己的简历信息”,它就能返回你一张手绘风格的海报,信息分布、配色、字体层级都安排得明明白白。

  让它讲“三只小猪盖房子”,我输入只有这么“7个字”,输出就能直接给你一整组连环画——

  三只小猪、三种材料、三栋房子、最后那只大灰狼,一格一格排好,顺序对得上故事。

  在讲究排版、涉及多种元素的插画场景中,U1也能实现比较精细的效果,比如这张划船乐的教学总览图。

  最有意思的是这个,扔给它一张路边常见的“电梯安全”警示牌,让它换个排版做成一张信息图。

  前段时间火爆的产品爆炸图,在U1这里也可以做到。一台相机,被它拆得整整齐齐:

  镜头组、反光镜、快门、传感器、芯片,电池什么的,统统被它拆得整整齐齐悬浮在空中,标注线一根不少。

  这种程度的玩法,以前是超大参数模型的专属。更有意思的一点是,SenseNova U1 Lite还在行业首创了图文交错的思维链。

  我扔给它一张刚泡好的玻璃杯热茶,让它“画出一小时后的样子”。它没有简单地直接出图,而是先做了一段推理:

  一是给自己定约束,同一只玻璃杯、同一张原木桌面、同一种侧逆光,这样两张图放一起才看得出“是同一杯茶过了一小时”。

  二是推导物理:刚泡时,叶片高速舒展、气泡从叶脉逸出、蒸汽在杯壁上留下弧形折射;

  一小时后,多酚类扩散均匀,茶汤变深红褐,叶子完全沉降呈半透明,杯底跟桌面交界处出冷凝痕迹。光影也跟着从“清晨的清冷”过到“午后的慵懒”。

  给它一个绿色的香蕉,模型会先推理“叶绿素分解+糖化”,从而保证输出的是一根带着斑点的成熟香蕉。

  U1的底层是一套叫NEO-unify的架构。一个模型同时会看、会画,理解和生成在同一个网络里完成,中间没有任何拼接。

  在过去,多模态模型的标配经常是这样的,视觉编码器(VE)负责看,变分自编码器(VAE)负责画,理解归理解,生成归生成,中间靠适配器拼起来。

  NEO-unify把这两个东西都拿掉了,不需要VE,不需要VAE,模型直接吃像素,直接吐像素。

  第三步,文本走自回归,视觉走像素流匹配,两套目标函数在同一个学习框架里跑完。

  传统模型要做这件事,得外挂工具或者后处理拼接。U1底层就是统一的,原生支持图片和文字的交叉排版,所有视觉内容都来自模型自身,不调用外部工具。

  模型在思考一个问题的时候,可以一边推理一边生成中间示意图,把复杂逻辑可视化。

  此外,商汤还给U1配了一套自研推理栈,LightLLM跑理解、LightX2V跑生成,两条路解耦各管各的。以H100/H200单节点为例,生成一张2048×2048的图,端到端大概9秒。

  上下文最长32K、人物在复杂场景里的细节有时不够稳、长文字渲染偶尔会出现拼写或排版错误、连续性图文创作目前还是beta。

  为了方便大家使用,商汤这次顺手开源了一套SenseNova-Skills技能包,把U1做成了Agent里能直接调的工具。

  Skills不只是infographic一个,整套覆盖图像生成、PPT制作、Excel数据分析、深度研究、跨平台搜索。

【返回列表页】
地址:合肥市高新区望江西路鲲鹏产业园 电话:0551-62863855   手机:13655895569
版权所有:Copyright © 2026 买球科技股份有限公司 版权所有  ICP备案编号:皖ICP备2025078910号