佬们我想自己做一个扫描笔送给娃娃,求方案

aarontom 2026-06-28 15:04 1

主要功能需求就是阅读一切绘本^-^AI问答(附加功能)


因此需要有WiFi NPU 存储


跟各类AI大战三百回合


大致的思路是用luckfox pico开发板


但是感觉这套下来比买一个成品还贵


有没有经验丰富的佬友能指导一下的


我没有硬件经验 这次也算一个尝试 看借助AI能不能搞出来 门槛稍微低点的更好



最新回复 (12)
  • 寂寞的欧尼酱 06-28 15:11
    1

    扫描笔的扫描范围有点小,有考虑过摄像头的方案吗?

  • aarontom 楼主 06-28 15:12
    2

    就是扫描笔里装微距摄像头呀 连续拍摄然后处理后拼接成图片给ocr识别

  • 寂寞的欧尼酱 06-28 15:15
    3

    大部分扫描笔是激光扫描,个人不方便弄。

  • 席乐 06-28 15:17
    4

    点读笔是有肉眼不可见的信息藏在印刷里,而整个绘本早就在服务器上存在,所以只需要很少量区域就是获得足够的信息,知道你点在哪一页。


    翻译笔只需要扫描几行文字,所以信息区域也很小。


    如果你要获得整个绘本的图片情况,用笔型的输入我认为不合适。相当于拿一小团棉花擦桌子,那得来来回回划多少下。。。


    广角摄象头比较合适,esp32 cam 可以。

  • 佰川 06-28 15:24
    5

    这个课题我也想过


    市面上大致可以分为三种



    1. 暗码方式需要配套的识别贴纸 书和笔得配套

    2. ocr的方式 适用于文字类的

    3. 台灯类摄像头方式 局限在摄像头范围区域


    我也想搞一个那里不会点哪里的笔

  • aarontom 楼主 06-28 15:59
    6

    不需要图片的 还是阅读文字 所以是微距摄像头扫描ocr识别


    或者直接拍一张照ocr识别也可以 只需要文字

  • 席乐 06-28 15:59
    7

    广角摄象头,可以拍的面积很大,并不是想象中台灯下一小片面积。甚至可以装在很高的位置。有种投影仪把游戏投在地上,给人踩踩玩的,就是一个比投影还要 广角的摄像头(投影为了让很近的距离投出足够大,是个很广角的)

  • 席乐 06-28 16:04
    8

    我觉得吧,都用 llm 了,直接用个视觉模型,不要自己 OCR 了


    扫描仪可能比摄象头成本高(bom 和 开发成本)。扫描仪还要算法拼合图像,还需要手持稳定,并不能扫大字。绘本里换行的文字也不能一次性录入,所以还需要手动控制发送时机。


    摄像头方案,完全可以做成 CV 识别 + 语音控制: 手一指:“这里是什么意思”。CV 只要识别出手指的位置,把附近的图截图送给带视频的模型,OCR直接由模型完成了。

  • Owen01 06-28 16:07
    9

    扫描笔这类高度整合的硬件大厂才能做,不适合 diy,做成类似台灯助手+摄像头通用方案即可

  • 小兔子 06-28 16:17
    10

    要接受diy的集成度和价格都干不过成熟工业产品的事实,更何况还可能需要迭代和更新,如果不是喜欢自己动手感觉还不如买一个

  • aarontom 楼主 06-28 16:20
    11

    这种是不是整个 M5Stack TimerCamera拍照然后直接上传到本地局域网服务调用大模型


    然后调用蓝牙音箱之类的播放声音?

  • 席乐 06-28 18:13
    12

    如果是我,我会直接 android 或者 linux llama-cpp-python → sherpa-onnx + Qwen 2B int4。

    sherpa-onnx 做 ASR,Qwen 加上标点,识别成语音指令。然后连指令带图一起送给 vllm 进行识别和响应。不截图,(vllm 会认识手指头指的东西,不需要自己 CV 截图,也不需要显式 OCR 换成文字), 模型可以直接响应。

* 帖子来源Linux.do
返回