SOURCE // NEWS

联汇发布全球首个端侧流式多模态模型VLX,重塑具身智能

联汇发布全球首个端侧流式多模态模型VLX,重塑具身智能

当AI从屏幕走向真实的物理世界,多模态模型正迎来一次架构范式的革新。Om AI 联汇正式发布全球首个面向物理世界的端侧流式多模态模型系列——VLX,首次在业界提出“流式多模态”这一全新模型架构。

区别于传统视频理解模型将整段视频切帧后一次性离线处理的方式,VLX系列面向物理世界中持续涌入的视频流,以流式编码与缓存增量推理实现毫秒级实时感知,并首次在端侧打通“持续感知→精准定位→行动决策”的完整闭环。

VLX系列由三款模型协同构成,围绕实时物理智能构建完整能力体系:

1. VLX-Flow负责持续感知,通过增量编码与缓存推理机制,让模型像人一样持续观察环境而非被动等待提问,新画面随时吸收,提问瞬间响应。

2. VLX-Seek负责精准定位,创新性地将坐标生成转化为区域检索——不是让模型“猜坐标”,而是从候选区域中“选区域”,为端侧设备提供可靠的空间感知能力。

3. VLX-Go负责行动执行,将视觉理解直接转化为机器人可执行的短时航点与运动轨迹,而非输出文本建议,让设备自主完成跟随、避障与导航。

在这一全新范式下,视觉信息不是以“截一帧”的方式进入模型,而是以“连续流”的方式持续进入。模型不是“看完再说”,而是“边看边理解、必要时主动行动”。这对应的不是“更好的人机对话体验”,而是“AI自主工作能力的质变”。

为了应对物理世界的AI必须直面三个刚性约束:时间是连续的、环境是动态变化的、终端算力是资源受限的,VLX系列完全围绕实时视频流与端侧设备原生构建——不是将云端模型压缩后塞进终端,而是从架构层面为端侧具身智能重新设计——以“快(流式推理,单路延迟最低0.06秒)、小(轻量化选型,覆盖0.6B至10B规格)、准(细粒度定位)、行(感知执行闭环)”四大优势,实现从持续感知到行动决策的端侧闭环。

AgentUpdate 深度解析

目前,多数大语言或多模态模型仍局限于“离线分帧”的问答范式,这在面对连续、动态的物理世界时显得捉襟见肘。联汇VLX所开创的“流式多模态”架构,本质上是在重塑具身智能Agent的感官系统。通过将感知延迟降至极低的0.06秒,并直接输出控制轨迹而非文本,VLX真正实现了从“思考型Agent”向“行动型Agent”的转变。这种轻量化、流式化的端侧闭环设计,解决了云端推理带来的延迟和隐私痛点,将极大加速智能机器人、可穿戴设备等端侧具身智能生态的爆发,为下一代空间计算和自主Agent提供了具有高启发性的落地范式。