图像识别

图像识别配置指南，支持 OCR 和 VLM 两种识别方式。

启用图像识别

开启后，上传图片时会自动进行文字识别。

主要识别方式

选择 OCR 或 VLM 作为主要识别方式。

OCR（光学字符识别）

使用传统 OCR 算法识别图片文字。

语言包

选择需要识别的语言包，支持多种语言。使用逗号分隔多个语言，例如：chi_sim,eng。

新增语言包时会自动下载对应的数据文件。

使用 Tesseract

目前使用 Tesseract 作为 OCR 引擎，支持多种语言包。

VLM（视觉语言模型）

使用 AI 大模型进行图像理解和文字识别。

模型选择

选择用于图像识别的 AI 模型，需要在模型配置中预先配置。

方式对比

特性	OCR	VLM
速度	快速	较慢
准确率	规范文字较高	复杂场景更优
网络要求	本地运行	需要网络
成本	免费	可能产生费用
理解能力	仅文字	可理解图像内容

使用建议

纯文字提取：使用 OCR，速度快且免费
复杂场景：使用 VLM，对表格、手写、复杂布局识别效果更好
批量处理：使用 OCR，节省成本和时间
高准确率：使用 VLM，获得更准确的识别结果

快捷键

自定义全局快捷键，快速访问常用功能。

音频设置

音频功能配置指南，包括语音识别（STT）和语音合成（TTS）功能。

On this page

启用图像识别主要识别方式 OCR（光学字符识别）语言包使用 Tesseract VLM（视觉语言模型）模型选择方式对比使用建议