跳转至

OpenTalking

OpenTalking logo

GitHub stars GitHub forks Open issues Issue resolution PyPI planned Python >= 3.10 GitHub downloads Source downloads ModelScope Hugging Face

项目简介

OpenTalking 是一个面向实时数字人应用的开源编排框架,负责连接前端交互、会话状态、 LLM 回复、TTS/音色、字幕事件、WebRTC 音视频播放,以及本地或远端的数字人合成后端。

OpenTalking 的定位不是部署的 talking-head 模型服务,而是数字人产品和模型服务之间的实时编排层。 它将 LLM、语音识别、语音合成、Avatar 渲染、事件流和播放链路组织为统一的运行时, 使开发者可以从 Mock 验证开始,逐步切换到 Wav2Lip、QuickTalk、FasterLivePortrait、MuseTalk、FlashTalk 或 OmniRT 等真实模型和推理后端。

项目适用于 AI 客服、商品讲解、课程口播、新闻播报、陪伴角色和企业私有化数字人等场景。 如果你是第一次使用,建议先从 Quick Start 跑通 Mock 链路; 如果你已经关注模型能力、推理后端或 GPU/NPU 部署,可以继续阅读 模型支持

演示视频

快速入口

主要功能

  • 实时对话链路:统一管理语音输入、LLM 回复、TTS 合成、字幕事件、Avatar 渲染和 WebRTC 播放。
  • 可插拔模型后端:支持 mocklocaldirect_wsomnirt 等后端形态,便于从本地验证扩展到远端推理服务。
  • 多模型接入路径:面向 Wav2Lip、QuickTalk、FasterLivePortrait、MuseTalk、FlashTalk、FlashHead 等模型提供逐步完善的接入规划。
  • 视频克隆工作流:在 WebUI 中使用摄像头或上传视频作为 driving input,实时驱动 source 数字人形象。
  • 开放的 LLM/TTS 配置:支持 OpenAI-compatible LLM endpoint,可接入 DashScope、DeepSeek、Ollama、vLLM 或企业内部模型服务。
  • WebUI 与命令行工具:提供 WebUI 完成会话验证、Avatar 选择、音色配置和模型状态查看,也提供命令行入口用于启动服务和调试。
  • 工程化运行形态:支持本地开发、Mock 验证、Docker、API / Worker 分离,以及外部推理服务集成。

使用指南

  • Usage:命令行启动、WebUI 使用、视频克隆、Avatar 配置和音色/TTS 配置。
  • Examples:AI 客服、商品讲解、课程口播等场景。
  • 模型支持:模型与后端选择,以及生产拓扑。
  • 参考资料:Benchmark、性能指标和更新日志。
  • FAQ:安装、配置、WebRTC、模型 backend 和运行问题。

许可证信息

OpenTalking 采用 Apache License 2.0。项目中接入或引用的 talking-head 模型、模型权重、TTS 服务、 LLM 服务和外部推理 backend 可能有各自的许可证或使用条款。部署、分发或商用前,请确认对应项目、 模型和服务的授权范围。