NoteGenNOTEGEN.

音频设置

音频功能配置指南,包括语音识别(STT)和语音合成(TTS)功能。

语音识别 (STT)

语音识别功能可以将您的语音转换为文本,支持通过语音进行记录和输入。

配置

  • STT 模型:选择用于语音识别的 AI 模型,需要在模型配置中预先配置语音类型的模型
  • 语言:选择识别的语言类型,支持中文、英文等多种语言

使用场景

  • 在记录页面通过语音快速记录想法
  • 替代键盘输入,提高记录效率
  • 适合移动端使用

语音合成 (TTS)

语音合成功能可以将文本转换为语音朗读,支持调节朗读速度。

配置

  • TTS 模型:选择用于语音合成的 AI 模型,需要在模型配置中预先配置语音类型的模型
  • 语速:调节朗读速度,范围从 0.5x(慢速)到 2.0x(快速)
    • 0.5x - 适合学习理解
    • 1.0x - 正常语速(默认)
    • 1.5x - 快速浏览
    • 2.0x - 极速阅读

使用场景

  • 朗读笔记内容,便于复习
  • 长文档的语音播放
  • 解放双眼,通过听觉获取信息
  • 适合通勤、运动等场景

注意事项

  1. 模型配置:使用音频功能前,请确保已在模型配置中添加语音类型的模型
  2. 网络要求:语音识别和合成需要网络连接,请确保网络稳定
  3. 质量优化:选择合适的模型可以获得更好的识别准确度和语音自然度
  4. 语速建议:初次使用建议从正常语速开始,根据需要调整

快捷操作

  • 在写作页面选中文本后,可以使用语音朗读功能
  • 在记录页面可以直接点击语音按钮开始语音输入