我花一个月做了个数字人开源项目Opentalking!支持自定义数字人完成实时对话、口播离线生成。欢迎各位大佬体验!

zyaire 2026-06-29 20:01 1

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:



  • 我的帖子已经打上 开源推广 标签:

  • 我的开源项目完整开源,无未开源部分:

  • 我的开源项目已链接认可 LINUX DO 社区:

  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:

  • 以上选择我承诺是永久有效的,接受社区和佬友监督:


以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出




^-^帖子被举报了重新发…


两个月之前想开始当up主,但是又不想真人出镜掉马甲,发现可以搞数字人。我也尝试了一些,要么收费很贵,要么效果不太行。其实有很多开源的模型出来了,不管是对口型的还是语音生成都有很多不错的模型出来。但是单独针对每个模型写个端到端pipeline重复工作有点多,所以我们几个朋友就做了个开源项目OpenTalking。目前大概1.6K stars,期间还被知乎官方推荐了。


大家可以点击下面的链接来体验!欢迎提issue!如果喜欢的话麻烦点点Star支持我们!


网址: Github传送门


我们这个项目的定位是:企业级数字人编排框架。主要有几个功能:



  • 打通了 ASR → LLM → TTS 全部的流程,每个组件解耦,对接了多种SOTA模型,不管你是什么计算资源都可以找到适合自己的方案 (我们测试过 Nvidia 4050, 5070, 3090, 4090, 以及专业级显卡昇腾910B)

  • 在云厂商平台放了个镜像,大家可以一键启动去在线体验

  • 支持实时对话、离线口播视频生成、视频克隆等等功能,能满足很多的需求

  • 支持自定义数字人: 自定义数字人形象、音色克隆、背景、知识库、记忆库等等


直接上图:



  • 操作界面




  • 实时对话、离线口播视频生成可以在github readme看一下demo

  • 视频克隆:可以根据摄像头自己的表情、口型来实时变化





  • 知乎官方推荐




最新回复 (3)
  • biau 06-29 20:02
    1

    看起来效果不错呀,牛的大佬,太强了

  • huyl 06-29 20:06
    2

    那我就不得不学习一下了。我自己也尝试用一块5090显卡跑,效果一般,嘴型那总是有问题

  • Hello 06-29 20:34
    3

    太牛了,刚好需要,赶快部署试试 ^-^

* 帖子来源Linux.do
返回