我写了个能自己生成视频的AI工具，一句话出片，还免费用GLM-5.2

nianxi666 2026-07-01 22:04 1

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

我的帖子已经打上开源推广标签： 是

我的开源项目完整开源，无未开源部分： 是

我的开源项目已链接认可 LINUX DO 社区： 是

我帖子内的项目介绍，AI生成、润色内容部分已截图发出： 是

以上选择我承诺是永久有效的，接受社区和佬友监督： 是

以下为项目介绍正文内容，AI生成、润色内容已使用截图方式发出

最近写了个东西叫 CyberCode，先说重点：它能自己写代码、自己跑、自己改bug，还能一句话生成带旁白的视频。今天主要讲视频生成这块，是我自己觉得最好玩的一个功能。

先说视频是怎么出来的

给它一句话，比如"做一个10秒的猫咪科普视频，配中文旁白"，它接下来会自己做完这几件事：

调用内置的 gpt-image-2 模型，画出几张场景图

用语音合成把文案念出来，存成音频

把 gpt-image-2 生成的图片喂给 HyperFrames，写一份HTML组合文件，里面标好每一段动画什么时候开始、什么时候结束，配上音画对齐的时间点

调用ffmpeg，把图片、动画、音频一起合成一个MP4

合成完自己检查一遍：时长对不对、分辨率是不是1080p、有没有音频

如果检查发现不对，它会自己改，不用我盯着。图片生成和视频合成这两步是连起来的，gpt-image-2出的图直接进HyperFrames的时间轴，不用我自己下载图片再导入到别的软件里。

这套东西内部我叫它HyperFrames——说白了就是用HTML去写视频动画，而不是用剪辑软件拖时间轴。好处是灵活，想加个转场、加个字幕特效，直接改HTML里的动画参数就行，不用打开一堆图层面板。目前接的动画能力包括GSAP做时间轴动画、Lottie放矢量动效、需要3D效果时调Three.js。

出来的视频不算专业剪辑师那种精细度，但对付日常需要的短视频、产品介绍、讲解类内容，一句话就能出片，确实比自己开软件剪快很多。

顺带说下别的能力

除了视频，它还能读写本地文件、跑代码、抓网页内容、生成和识别图片，一共装了9个这类"能动手"的工具，配合语言模型自己判断该用哪个、该怎么用。比如让它生成一张图之后接着问图里画了什么，它会自己调用识图能力检查，不用我再手动截图上传一遍；抓网页内容时也会自动把导航栏、广告位过滤掉，只留正文。

模型这块，默认用的是完全免费的 free/glm-5.2，登录直接用，不用额外申请key也不用挂梯子。

安装

npm install -g cybercode-cli

启动

cybercode web

两行命令，终端给个本地地址，浏览器打开注册登录就能用。

说明一下项目背景

这个项目是我自己写的，核心的Agent架构——包括整个的执行循环、9个工具怎么设计、多层记忆的思路——借鉴了 lsdefine 开源的 GenericAgent 项目（MIT协议），在这个基础上我加了流式的模型调用层、多模型网关、HyperFrames视频引擎、语音合成，还有现在这套Web界面。想看原始架构思路的可以去看看那个项目。

用完的感受

视频这块偶尔生成要等一会儿，复杂点的需求它有时候会绕一圈才找到对的做法，不是每次都一步到位，毕竟还在持续更新。但整体用下来，这种能自己动手把视频、代码、文件这些活儿做完的方式，比单纯聊天式的AI顺手不少，感兴趣的可以装上试试。