Realtime Voice 术语表
整理日期:2026-06-03
核心概念
- Realtime voice:实时语音,指低延迟语音传输或语音交互。语音通话、游戏语音、AI 语音助手都属于这个范畴。
- RTC (Real-Time Communication):实时通信。核心目标是让音频、视频、数据以极低延迟传输。
- RTC 网络:为实时音视频设计的传输网络,通常包含边缘节点、智能路由、抗丢包、低抖动传输等能力。
- API (Application Programming Interface):应用程序接口。开发者通过 API 调用语音、模型、通信等能力。
- AI (Artificial Intelligence):人工智能。这里主要指语音识别、语言模型、语音合成等模型能力。
- Pipeline:流水线。指从麦克风采集、识别、理解、生成、合成到播放的整条处理链路。
- Streaming / 流式处理:边接收边处理,而不是等完整输入结束后再处理。低延迟 AI 语音通常需要流式 ASR、流式 LLM 和流式 TTS。
AI 语音链路
- VAD (Voice Activity Detection):语音活动检测。判断用户是否正在说话,以及什么时候可能说完。
- ASR (Automatic Speech Recognition):自动语音识别。把用户语音转成文字。
- LLM (Large Language Model):大语言模型。负责理解用户意图并生成回复内容。
- TTS (Text-to-Speech):文本转语音。把模型生成的文字变成可播放的语音。
- Inference / 推理:模型运行并输出结果的过程。例如 LLM 根据用户问题生成回答。
- Barge-in:打断能力。AI 正在说话时,用户插话,系统能立刻停止播放并处理新的语音输入。
- 语义缓存:对常见问题或常见上下文提前缓存回复,减少 LLM 生成时间。
- 上下文裁剪:减少传给 LLM 的历史对话内容,降低推理时间。