语音识别 (ASR)
语音识别 (ASR, Automatic Speech Recognition) 将用户的语音转换成文字。本项目支持多个语音识别模型的实现。
语音识别相关的配置项,在 conf.yaml
中的 asr_config
下面。
以下是您可以选择的语音识别选项:
sherpa_onnx_asr
(本地 & 项目预设)
备注
(在 v0.5.0-alpha.1
版本的 PR: Add sherpa-onnx support #50 中添加)
sherpa-onnx 是一个功能丰富的推理工具,能运行多种语音识别(ASR)模型。
信息
从 v1.0.0
版本开始,本项目默认使用 sherpa-onnx
运行 SenseVoiceSmall
(int8 量化) 模型作为语音识别方案。这是一个开箱即用的配置 - 你无需进行任何额外设置,系统会在首次运行时自动下载模型文件并解压到项目的 models
目录下。