做了一个能高质量翻译扫描 pdf 的产品

LuliYanng 2026-06-30 00:10 1

楼主最近做了一个 pdf 翻译的产品,主要专注在做扫描件、图片 pdf 的翻译以及版式保持,具体的效果可以见下图。现在还在项目初期,欢迎感兴趣的朋友尝试: https://tryreglyph.com/ 。



最新回复 (7)
  • xinyu391 06-30 09:26
    1
    中翻英呢? 文字会很小很挤。
    最佳的翻译应该抛弃原来的页面限制。
  • TrackBack 06-30 10:11
    2
    这类产品很多了,你的独特优势是什么?
    从效果图没看出比开源的 pdfmathtranslate 好在哪里,定价也很贵,还是按页收
  • LuliYanng 楼主 06-30 10:54
    3
    @xinyu391 重排当然是最能在翻译之后克服语言之间的长度差异并且保持美观的,不过保持原来的页面观感也是不小的需求 这部分就看各自的需求了 我这个产品主要就是想尽可能保持原有版面
  • needpp 06-30 10:56
    4
    实现原理是什么? 会上传到服务器吗
  • LuliYanng 楼主 06-30 10:59
    5
    @TrackBack pdf 翻译的产品确实是很多的,不过这里会分两个情况 一种是 pdf 内本身就包含文字(数字版的 pdf ),并且可以被读取出来并且改写回 pdf 的,这部分现在很多产品都在做了;但是还有另外一种就是扫描版的 pdf ,这种本身就是图片来的,没有文本信息可以读取跟改写回去,这种 pdf 的翻译目前其实都没有做得比较好的。楼主也是在尽可能把这个部分的做好并且产品化。

    开源的 pdfmathtranslate 只能翻译我上面说的前一种数字版的 pdf ,目前他们也还是不支持扫描版的(可以看目前依然 open 的 issue: https://github.com/PDFMathTranslate/PDFMathTranslate/issues/19 )。扫描件 pdf 的翻译收费是比较贵的,因为涉及 ocr 和图像处理,相比于数字版的 pdf ,需要的处理和算力都比较高。
  • LuliYanng 楼主 06-30 11:04
    6
    @needpp 实现方式就是 ocr 和图像还原。会上传到服务器处理的,24h 自动删除。
  • lozzow 06-30 13:46
    7
    哈哈哈哈,和我搞 pdf 的时候用的是同一本同济大学线性代数,不过我是做的编辑器,也是走 ocr,哈哈哈,思路是差不多的,只不过你做了翻译我做了编辑(覆盖的方式)
* 帖子来源V2EX
返回