专业术语 | Notion

Realtime Voice 术语表

整理日期：2026-06-03

核心概念

Realtime voice：实时语音，指低延迟语音传输或语音交互。语音通话、游戏语音、AI 语音助手都属于这个范畴。
RTC (Real-Time Communication)：实时通信。核心目标是让音频、视频、数据以极低延迟传输。
RTC 网络：为实时音视频设计的传输网络，通常包含边缘节点、智能路由、抗丢包、低抖动传输等能力。
API (Application Programming Interface)：应用程序接口。开发者通过 API 调用语音、模型、通信等能力。
AI (Artificial Intelligence)：人工智能。这里主要指语音识别、语言模型、语音合成等模型能力。
Pipeline：流水线。指从麦克风采集、识别、理解、生成、合成到播放的整条处理链路。
Streaming / 流式处理：边接收边处理，而不是等完整输入结束后再处理。低延迟 AI 语音通常需要流式 ASR、流式 LLM 和流式 TTS。

AI 语音链路

VAD (Voice Activity Detection)：语音活动检测。判断用户是否正在说话，以及什么时候可能说完。
ASR (Automatic Speech Recognition)：自动语音识别。把用户语音转成文字。
LLM (Large Language Model)：大语言模型。负责理解用户意图并生成回复内容。
TTS (Text-to-Speech)：文本转语音。把模型生成的文字变成可播放的语音。
Inference / 推理：模型运行并输出结果的过程。例如 LLM 根据用户问题生成回答。
Barge-in：打断能力。AI 正在说话时，用户插话，系统能立刻停止播放并处理新的语音输入。
语义缓存：对常见问题或常见上下文提前缓存回复，减少 LLM 生成时间。
上下文裁剪：减少传给 LLM 的历史对话内容，降低推理时间。