使用立创实战派DIY一个语音输入小模块,目的地是通过语音给codex发命令

giter 2026-07-05 23:21 1

《使用立创实战派DIY一个语音输入小模块,目的地是通过语音给codex发命令》


上一个帖子被举报删除了。抱歉,那是我第一次发长贴,不知道不能发AI生成和润色的帖子。这一次我全部手写吧。


我使用codex的时候,经常键盘输入,必须保持坐姿不变,时间长了有些累了。希望能有一个更方便的语音输入设备,我要求这个设备不仅仅是语音识别那么简单,而是要用AI技术让它有自我更正自我学习的能力,能够更懂我、越用越懂我,用久了能和我达成心有灵犀一点通的境界。



一、主要功能




  1. 语音输入

    长按开始录音、松手发送语音。Pc端收到语音后,完成语音识别、LLM整理、纠错,然后自动粘贴到当前光标位置。




  2. 屏幕状态显示

    ESP模块有一个小屏幕,不用浪费,我让它显示当前是否连接电脑、电池电量、录音状态、待命状态、Codex 剩余额度显示,剩余百分比、进度条和重置时间。




  3. 桌面看板

    外接 Type-C 供电并静置时,它可以自动变成一个小看板。竖放显示简版电脑状态,横放可以显示完整看板、天气时间、音乐频谱。我在电脑上用Roon播放音乐,就在Esp上显示 Roon 正在播放的歌曲和滚动歌词。






二、硬件组成


主控是嘉立创实战派ESP32S3,我自己增加了电池供电和电量显示部分。外壳是 3D 打印的,整体尺寸比较小,可以手持,也可以放在桌面上当一个小信息屏。


三、软件结构


整体分两部分:


1、ESP32-S3 模块固件:负责录音、屏幕、按键、电池、姿态判断、Wi-Fi 通讯。

2、PC端软件PC Agent:运行在 Windows 电脑上,负责接收音频、调用语音识别、整理文本、粘贴输入、推送看板数据。


四、最难解决的问题

这个项目真正难的是让录音、网络、屏幕、电脑端输入这几件事长期稳定地配合起来。以下几点是我反复好几天才解决的:

1、速度、速度、速度!准确率、准确率、准确率!不能说完半天不出字,也不能老出错字。

2、内存、内存、内存!ESP32-S3 内存很紧张,必须在录音和显示之间不断找到平衡方案。

3、自我学习、不断进步!通过语音纠错和热词,我希望这个设备能记住我的说话特点、常错的词,下次就不再出现错误,这样它会越来越聪明。这个功能必须实现,不然还不如用键盘语音输入。好在基本上实现了,通过热词表和纠错表。


五、当前体验


目前我正常情况下,在 Codex 上使用它,速度和准确率都不错。目前的感受是:速度基本可以接受,识别率在提高,偶尔显示似乎会出现一点小问题。


六、我让大模型在这里做了什么?

为了让这个设备的识别率提高,要使用大模型的调用,让一些错词自动纠错、一些我常用的词语他要能够记住,并不断提升自己的识别能力。把 AI 技术用在了识别、整理、纠错、热词这几个环节的整个链条。


最后说一点为什做这个:我做这个纯是玩玩技术和codex编程,重在过程。自己的一个想法,然后与codex一起,分析、讨论、修改、验证,不断解决问题,到最后基本能用。过程本身就是收获。从成本上,嘉立创实战派售价148元,杂七杂八加起来快200元了,成本上并不合适商用。

最新回复 (6)
  • GPT 07-05 23:28
    1

    硬件的烙铁、焊台、打印机等都要有吗?还是直接嘉立创全程打印?自己只需要写程序?

  • giter 楼主 07-05 23:34
    2

    如果不增加电池供电,立创的这个 ESP32-S3 是买来就能用。你就是往里刷固件就行。没有电池供电,就是要插着充电线用。

  • GPT 07-05 23:36
    3

    如果想加电池,没有烙铁,有快插这种的电池吗?然后下单外壳打印 是不是也行?

  • scott666 07-05 23:36
    4

    我们现在这个办公室啊,现在很多人都使用麦克风,使用微信输入法,只要按一个快捷键就能实现输入了。我感觉你这东西其实没有必要了。

  • scott666 07-05 23:43
    5

    我看现在比较火的就是自定义键盘,带麦的那种,这个比较火。

  • 天则则 07-05 23:56
    6

    是免焊的吗,如果能一次性打板做出来,看起来不错,我想要个能用按键的小屏幕,显示 ai 用量和使用一些快捷键

* 帖子来源Linux.do
返回