佬们我想自己做一个扫描笔送给娃娃，求方案

aarontom 2026-06-28 15:04 1

主要功能需求就是阅读一切绘本^-^AI问答（附加功能）

因此需要有WiFi NPU 存储

跟各类AI大战三百回合

大致的思路是用luckfox pico开发板

但是感觉这套下来比买一个成品还贵

有没有经验丰富的佬友能指导一下的

我没有硬件经验这次也算一个尝试看借助AI能不能搞出来门槛稍微低点的更好

最新回复 (12)

寂寞的欧尼酱 06-28 15:11

1楼

扫描笔的扫描范围有点小，有考虑过摄像头的方案吗？
aarontom 楼主 06-28 15:12

2楼

就是扫描笔里装微距摄像头呀连续拍摄然后处理后拼接成图片给ocr识别
寂寞的欧尼酱 06-28 15:15

3楼

大部分扫描笔是激光扫描，个人不方便弄。
席乐 06-28 15:17

4楼

点读笔是有肉眼不可见的信息藏在印刷里，而整个绘本早就在服务器上存在，所以只需要很少量区域就是获得足够的信息，知道你点在哪一页。

翻译笔只需要扫描几行文字，所以信息区域也很小。

如果你要获得整个绘本的图片情况，用笔型的输入我认为不合适。相当于拿一小团棉花擦桌子，那得来来回回划多少下。。。

广角摄象头比较合适，esp32 cam 可以。
佰川 06-28 15:24

5楼
这个课题我也想过

市面上大致可以分为三种
1. 暗码方式需要配套的识别贴纸书和笔得配套
2. ocr的方式适用于文字类的
3. 台灯类摄像头方式局限在摄像头范围区域
我也想搞一个那里不会点哪里的笔
aarontom 楼主 06-28 15:59

6楼

不需要图片的还是阅读文字所以是微距摄像头扫描ocr识别

或者直接拍一张照ocr识别也可以只需要文字
席乐 06-28 15:59

7楼

广角摄象头，可以拍的面积很大，并不是想象中台灯下一小片面积。甚至可以装在很高的位置。有种投影仪把游戏投在地上，给人踩踩玩的，就是一个比投影还要广角的摄像头（投影为了让很近的距离投出足够大，是个很广角的）
席乐 06-28 16:04

8楼

我觉得吧，都用 llm 了，直接用个视觉模型，不要自己 OCR 了

扫描仪可能比摄象头成本高(bom 和开发成本）。扫描仪还要算法拼合图像，还需要手持稳定，并不能扫大字。绘本里换行的文字也不能一次性录入，所以还需要手动控制发送时机。

摄像头方案，完全可以做成 CV 识别 + 语音控制：手一指：“这里是什么意思”。CV 只要识别出手指的位置，把附近的图截图送给带视频的模型，OCR直接由模型完成了。
Owen01 06-28 16:07

9楼

扫描笔这类高度整合的硬件大厂才能做，不适合 diy，做成类似台灯助手+摄像头通用方案即可
小兔子 06-28 16:17

10楼

要接受diy的集成度和价格都干不过成熟工业产品的事实，更何况还可能需要迭代和更新，如果不是喜欢自己动手感觉还不如买一个
aarontom 楼主 06-28 16:20

11楼

这种是不是整个 M5Stack TimerCamera拍照然后直接上传到本地局域网服务调用大模型

然后调用蓝牙音箱之类的播放声音？
席乐 06-28 18:13

12楼

如果是我，我会直接 android 或者 linux llama-cpp-python → sherpa-onnx + Qwen 2B int4。

sherpa-onnx 做 ASR，Qwen 加上标点，识别成语音指令。然后连指令带图一起送给 vllm 进行识别和响应。不截图，（vllm 会认识手指头指的东西，不需要自己 CV 截图，也不需要显式 OCR 换成文字）, 模型可以直接响应。

* 帖子来源Linux.do

附近帖子

↑周末加班很闲，免费帮看产品简历顺便招聘答疑
↑[开源] File Manager V0.1.0: GIF/Markdown预览，列表视图，多视图等功能已实现
↑求一个规范 ai 写代码的 CLAUDE.md 提示词
↑如何用AI做出好看的前端，说说你的经验吧。
↑又被神秘SUB2API的BUG坑了
📍 佬们我想自己做一个扫描笔送给娃娃，求方案
↓grok-composer-2.5-fast 1300刀分享
↓[求助] 大概两年后高考完去买iPhone，想听听各位大佬的建议
↓佬帮我看看我的RN小鸡该不该续费？
↓某m的股票现在是买最好的时机吗
↓有用packapi的佬么？

飞读

aarontom

主题数
1

帖子数
1

注册排名
3

随机推荐