New Release

openclaw v2026.2.28

多模态来了：图片、语音、文件一把梭。

v2026.2.282026-02-28Released by @core-team19 ContributorsGitHub Release

🖼️图片理解能力🎙️语音转文字📄文件解析（PDF/Excel/Word）🐳Docker 镜像瘦身 60%

v2026.2.28 聚焦多模态能力，新增图片理解、语音转文字、文件解析三大能力，并支持在对话中混合使用。同时优化了 Docker 镜像体积和启动速度。

核心新特性

/ Major New Features

新功能

多模态输入：图片理解

用户可以直接发送图片给 OpenClaw，AI 会自动识别图片内容并参与对话。支持截图 OCR、图表解读、UI 审查等场景。需要后端模型支持 Vision 能力（如 GPT-4o、Claude Sonnet 4 等）。

新功能

语音消息支持

支持接收语音消息并自动转为文字，再交由 AI 处理。目前支持 Whisper 和国内讯飞语音引擎，可通过配置切换。

新功能

文件解析引擎

内置 PDF、Excel、Word、CSV 文件解析器。用户发送文件后，OpenClaw 自动提取文本内容并注入对话上下文，支持「帮我总结这份报告」「这个表格有什么异常」等交互。

重要改进

/ Notable Improvements

改进

Docker 镜像瘦身 60%

通过多阶段构建和依赖裁剪，生产镜像从 1.2GB 缩减至 480MB，冷启动时间从 12s 降至 5s。

所有版本 GitHub Release