本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的帖子已经打上 开源推广 标签: 是
- 我的开源项目完整开源,无未开源部分: 是
- 我的开源项目已链接认可 LINUX DO 社区: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
最近写了个东西叫 CyberCode,先说重点:它能自己写代码、自己跑、自己改bug,还能一句话生成带旁白的视频。今天主要讲视频生成这块,是我自己觉得最好玩的一个功能。
先说视频是怎么出来的
给它一句话,比如"做一个10秒的猫咪科普视频,配中文旁白",它接下来会自己做完这几件事:
调用内置的 gpt-image-2 模型,画出几张场景图
用语音合成把文案念出来,存成音频
把 gpt-image-2 生成的图片喂给 HyperFrames,写一份HTML组合文件,里面标好每一段动画什么时候开始、什么时候结束,配上音画对齐的时间点
调用ffmpeg,把图片、动画、音频一起合成一个MP4
合成完自己检查一遍:时长对不对、分辨率是不是1080p、有没有音频
如果检查发现不对,它会自己改,不用我盯着。图片生成和视频合成这两步是连起来的,gpt-image-2出的图直接进HyperFrames的时间轴,不用我自己下载图片再导入到别的软件里。
这套东西内部我叫它HyperFrames——说白了就是用HTML去写视频动画,而不是用剪辑软件拖时间轴。好处是灵活,想加个转场、加个字幕特效,直接改HTML里的动画参数就行,不用打开一堆图层面板。目前接的动画能力包括GSAP做时间轴动画、Lottie放矢量动效、需要3D效果时调Three.js。
出来的视频不算专业剪辑师那种精细度,但对付日常需要的短视频、产品介绍、讲解类内容,一句话就能出片,确实比自己开软件剪快很多。
顺带说下别的能力
除了视频,它还能读写本地文件、跑代码、抓网页内容、生成和识别图片,一共装了9个这类"能动手"的工具,配合语言模型自己判断该用哪个、该怎么用。比如让它生成一张图之后接着问图里画了什么,它会自己调用识图能力检查,不用我再手动截图上传一遍;抓网页内容时也会自动把导航栏、广告位过滤掉,只留正文。
模型这块,默认用的是完全免费的 free/glm-5.2,登录直接用,不用额外申请key也不用挂梯子。
安装
npm install -g cybercode-cli
启动
cybercode web
两行命令,终端给个本地地址,浏览器打开注册登录就能用。
说明一下项目背景
这个项目是我自己写的,核心的Agent架构——包括整个的执行循环、9个工具怎么设计、多层记忆的思路——借鉴了 lsdefine 开源的 GenericAgent 项目(MIT协议),在这个基础上我加了流式的模型调用层、多模型网关、HyperFrames视频引擎、语音合成,还有现在这套Web界面。想看原始架构思路的可以去看看那个项目。
用完的感受
视频这块偶尔生成要等一会儿,复杂点的需求它有时候会绕一圈才找到对的做法,不是每次都一步到位,毕竟还在持续更新。但整体用下来,这种能自己动手把视频、代码、文件这些活儿做完的方式,比单纯聊天式的AI顺手不少,感兴趣的可以装上试试。