图像识别
图像识别配置指南,支持 OCR 和 VLM 两种识别方式。
启用图像识别
开启后,上传图片时会自动进行文字识别。
主要识别方式
选择 OCR 或 VLM 作为主要识别方式。
OCR(光学字符识别)
使用传统 OCR 算法识别图片文字。
语言包
选择需要识别的语言包,支持多种语言。使用逗号分隔多个语言,例如:chi_sim,eng。
新增语言包时会自动下载对应的数据文件。
使用 Tesseract
目前使用 Tesseract 作为 OCR 引擎,支持多种语言包。
VLM(视觉语言模型)
使用 AI 大模型进行图像理解和文字识别。
模型选择
选择用于图像识别的 AI 模型,需要在模型配置中预先配置。
方式对比
| 特性 | OCR | VLM |
|---|---|---|
| 速度 | 快速 | 较慢 |
| 准确率 | 规范文字较高 | 复杂场景更优 |
| 网络要求 | 本地运行 | 需要网络 |
| 成本 | 免费 | 可能产生费用 |
| 理解能力 | 仅文字 | 可理解图像内容 |
使用建议
- 纯文字提取:使用 OCR,速度快且免费
- 复杂场景:使用 VLM,对表格、手写、复杂布局识别效果更好
- 批量处理:使用 OCR,节省成本和时间
- 高准确率:使用 VLM,获得更准确的识别结果