公开 URL 与 Files API ↔ Imagine 集成
此更新引入了 Files API 存储的公开 URL 功能,允许用户生成可共享的链接。同时支持将存储的文件作为 Imagine 输入进行引用,并将 Imagine 输出直接持久化到 Files 存储中。
持续追踪核心框架、最新模型规格与重要系统接口的更新迭代轨迹。
此更新引入了 Files API 存储的公开 URL 功能,允许用户生成可共享的链接。同时支持将存储的文件作为 Imagine 输入进行引用,并将 Imagine 输出直接持久化到 Files 存储中。
WebSocket 响应 API 模式现已推出。通过单一且持久的 WebSocket 连接运行 Responses API,从而降低重度依赖工具的 Agent 工作流的端到端延迟。
上下文压缩 API 现已推出。用户可以将长对话压缩为更短的上下文,并在后续请求中重复使用,以降低成本并缩短首字延迟 (TTFT)。
流式语音转文字 (STT) API 现在支持 Smart Turn 停顿检测。机器学习模型会在静音边界预测说话者是否已完成表达,从而减少听写和停顿过程中的错误断句。
网络搜索现在支持显式搜索图片。启用 enable_image_search 可让 Grok 直接搜索相关图片,响应中可以包含以 Markdown 格式嵌入的图片。
xAI 专为 Agent 编码训练的快速编码模型 Grok Build 0.1 现已开启早期访问,模型标识符为 grok-build-0.1。
xAI 专为 Agent 编码训练的快速编码模型 Grok Build 0.1 现已开启早期访问,模型标识符为 grok-build-0.1。
xAI 专为智能体编程训练的快速编程模型,目前处于早期访问阶段。
Grok Build 现已发布 Beta 版,支持交互式 TUI、脚本无头运行以及 Agent Client Protocol。
用户现在可以通过短音频剪辑克隆语音,并将其应用于文本转语音和语音智能体 API。
所有 API 响应现在通过 usage 对象中的 cost_in_usd_ticks 字段包含请求的精确成本。
Every API response now includes the exact cost of the request via a cost_in_usd_ticks field in the usage object. Works across chat completions, Responses API, image generation, video generation, and streaming. For more details, see the Cost Tracking docs.
Every API response now includes the exact cost of the request via a cost_in_usd_ticks field in the usage object. Works across chat completions, Responses API, image generation, video generation, and streaming.
现在可以为上传的文件设置过期策略,过期的文件将被自动删除。
You can now set an expiration policy on uploaded files using expires_after or an explicit expires_at timestamp. Expired files are automatically deleted.
You can now use grok-voice-think-fast-1.0 with the Voice Agent API. To get started, check out the Voice Agent docs. For more details, see our blog post.
The xAI Speech to Text API is now generally available. Transcribe audio to text in 25 languages with batch and streaming modes. For more details, check out the Speech to Text docs.
The Text-to-Speech API is now generally available. Generate natural-sounding speech from text with Grok. For more details, check out the Text-to-Speech docs.
The Batch API now supports image generation , image editing , and video generation in addition to chat completions. Both server-side tools and client-side function tools are also now supported in batch requests. Image and video URLs in batch results expire after 1 hour.