NoteGenNOTEGEN.

图像识别

图像识别配置指南,支持 OCR 和 VLM 两种识别方式。

启用图像识别

开启后,上传图片时会自动进行文字识别。

主要识别方式

选择 OCR 或 VLM 作为主要识别方式。

OCR(光学字符识别)

使用传统 OCR 算法识别图片文字。

语言包

选择需要识别的语言包,支持多种语言。使用逗号分隔多个语言,例如:chi_sim,eng

新增语言包时会自动下载对应的数据文件。

使用 Tesseract

目前使用 Tesseract 作为 OCR 引擎,支持多种语言包。

VLM(视觉语言模型)

使用 AI 大模型进行图像理解和文字识别。

模型选择

选择用于图像识别的 AI 模型,需要在模型配置中预先配置。

方式对比

特性OCRVLM
速度快速较慢
准确率规范文字较高复杂场景更优
网络要求本地运行需要网络
成本免费可能产生费用
理解能力仅文字可理解图像内容

使用建议

  • 纯文字提取:使用 OCR,速度快且免费
  • 复杂场景:使用 VLM,对表格、手写、复杂布局识别效果更好
  • 批量处理:使用 OCR,节省成本和时间
  • 高准确率:使用 VLM,获得更准确的识别结果