Om AI推出全球首个端侧流式多模态模型VLX，重塑具身智能

当AI从屏幕走向真实的物理世界，多模态模型正迎来一次架构范式的革新。Om AI联汇正式发布全球首个面向物理世界的端侧流式多模态模型系列——VLX，首次在业界提出“流式多模态”这一全新模型架构。区别于传统视频理解模型将整段视频切帧后一次性离线处理的方式，VLX系列面向物理世界中持续涌入的视频流，以流式编码与缓存增量推理实现毫秒级实时感知，并首次在端侧打通“持续感知→精准定位→行动决策”的完整闭环。

VLX系列由三款模型协同构成，围绕实时物理智能构建完整能力体系：VLX-Flow负责持续感知，通过增量编码与缓存推理机制，让模型像人一样持续观察环境而非被动等待提问，新画面随时吸收，提问瞬间响应。VLX-Seek负责精准定位，创新性地将坐标生成转化为区域检索——不是让模型“猜坐标”，而是从候选区域中“选区域”，为端侧设备提供可靠的空间感知能力。VLX-Go负责行动执行，将视觉理解直接转化为机器人可执行的短时航点与运动轨迹，而非输出文本建议，让设备自主完成跟随、避障与导航。

在这一全新范式下，视觉信息不是以“截一帧”的方式进入模型，而是以“连续流”的方式持续进入。模型不是“看完再说”，而是“边看边理解、必要时主动行动”。这对应的不是“更好的人机对话体验”，而是“AI自主工作能力的质变”。

为了应对物理世界的AI必须直面三个刚性约束：时间是连续的、环境是动态变化的、终端算力是资源受限的，VLX系列完全围绕实时视频流与端侧设备原生构建——不是将云端模型压缩后塞进终端，而是从架构层面为端侧具身智能重新设计——以“快（流式推理，单路延迟最低0.06秒）、小（轻量化选型，覆盖0.6B至10B规格）、准（细粒度定位）、行（感知执行闭环）”四大优势，实现从持续感知到行动决策的端侧闭环。

AgentUpdate 深度解析

VLX的发布标志着具身智能（Embodied AI）从“离线式思考”向“流式实时响应”的范式转移。传统的Agent架构高度依赖云端大模型进行“感知-规划-行动”循环，不仅带来秒级的高延迟，也极度消耗带宽与边缘算力。VLX通过将流式编码与端侧推理融合，不仅在端侧降低了硬件门槛，更打破了传统的帧级处理瓶颈。这种“边看边做、自主决策”的流式交互，正是物理Agent（如机器人、智能穿戴设备）走向实用化的必由之路。横向对比来看，VLX的端侧闭环能力为未来的边缘计算和具身Agent提供了极具启发性的轻量化范式，必将加速物理Agent在千行百业的规模化商业落地。

Om AI推出全球首个端侧流式多模态模型VLX，重塑具身智能

推荐阅读

Anthropic增新防护堵住漏洞，Claude Fable 5重获出口许可

浅析 KV 缓存：为什么大模型不需要重复阅读 Prompt？

传Meta计划推出自研云业务，变现巨额AI算力基础设施