音频设置

音频功能配置指南，包括语音识别（STT）和语音合成（TTS）功能。

语音识别 (STT)

语音识别功能可以将您的语音转换为文本，支持通过语音进行记录和输入。

配置

STT 模型：选择用于语音识别的 AI 模型，需要在模型配置中预先配置语音类型的模型
语言：选择识别的语言类型，支持中文、英文等多种语言

使用场景

在记录页面通过语音快速记录想法
替代键盘输入，提高记录效率
适合移动端使用

语音合成 (TTS)

语音合成功能可以将文本转换为语音朗读，支持调节朗读速度。

配置

TTS 模型：选择用于语音合成的 AI 模型，需要在模型配置中预先配置语音类型的模型
语速：调节朗读速度，范围从 0.5x（慢速）到 2.0x（快速）
- 0.5x - 适合学习理解
- 1.0x - 正常语速（默认）
- 1.5x - 快速浏览
- 2.0x - 极速阅读

使用场景

朗读笔记内容，便于复习
长文档的语音播放
解放双眼，通过听觉获取信息
适合通勤、运动等场景

注意事项

模型配置：使用音频功能前，请确保已在模型配置中添加语音类型的模型
网络要求：语音识别和合成需要网络连接，请确保网络稳定
质量优化：选择合适的模型可以获得更好的识别准确度和语音自然度
语速建议：初次使用建议从正常语速开始，根据需要调整

快捷操作

在写作页面选中文本后，可以使用语音朗读功能
在记录页面可以直接点击语音按钮开始语音输入

图像识别

图像识别配置指南，支持 OCR 和 VLM 两种识别方式。

开发者

开发者设置是为某些调试场景准备的。

On this page

语音识别 (STT)配置使用场景语音合成 (TTS)配置使用场景注意事项快捷操作