本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的帖子已经打上 开源推广 标签: 是
- 我的开源项目完整开源,无未开源部分: 是
- 我的开源项目已链接认可 LINUX DO 社区: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
使用页面:https://review.c76d3656e.sbs/
项目:GitHub - c76d3656e/academic-cluster-py: 快速编写课程论文 · GitHub
书接上文 https://linux.do/t/topic/1564058 把论文检索工具搞定之后,毫无疑问的就是开始写作。马上又是一年期末,各位烟酒生,本科佬,你们的课程论文,学术周论文,水课论文搞定了没。我的课程论文就要写两篇不同主题的综述论文。

我一个人就是两篇,加上我的朋友就是四篇,加上选课的同学就是几十篇,加上全国各地的学生同志们那就是很多篇,这种没有什么用,统统是学术垃圾的东西,为了能快速的,简单的,迅速的解决掉他,我连夜学习了现有公开项目的工作,skills,plugin,mcp等工作但是不是很能满足我的要求,而且有一些跑一次就要我20M+的token,还不一定是想要的结果,这对于我这个贫穷大学生来说是不可承受之重。
因此我连夜学习了百家之长,集合了大家的工作,学习了很多的工作,我发现大家的思路好像是大差不差的,然后把大伙的skills的工作融化成了一个langraph的工作,把他融合成为了一个大家可用的工作。
在这里总结一下工作流吧
- 广泛的搜索文献
- 然后对文献进行结构化
- 然后根据所有数据进行写作
好吧很朴素,这是我一开始的思路
- 首先就是搜索问题,但是站里又很多的佬在学术搜索这里页给了很多的解决方案
https://linux.do/t/topic/1407068
[开源] Paper Search CLI:基于 Paper-Search MCP 重构成 CLI + Skill 的多来源论文检索工具
https://linux.do/t/topic/1564058
Crossref, OpenAlex, Semantic Scholar, dblp, CiteSeerX, SSRN, Unpaywall
- 其次就是文献处理,为了能合规向外提供服务,很多非OA的文献我们是不能获取全文的,所以我们得到的很多内容都是标题+摘要的核心内容,这对于我们后续的处理其实是个好事,因为RAG的教训告诉我们pdf,word,md等异构数据的处理是一个大难题。对于所有文献进行结构化工作站里有佬提供过工作基础了,我也参考了类似的工作来构建证据卡片什么的。
【开源】为文献阅读配置AI管家:Zotero-AI-Butler 如何用 AI 重构你的科研工作流
[v0.1] 我把科研流程拆成了一堆 Skills,让codex/cc像打工人一样拉磨
- 然后就是直接把所有结构化数据直接喂进去大模型就可以了吗?也许可行,因为现在现行的1M上下文还是太权威了,全都能塞,但是这里有可能会遇到东写一下西写一下,全文可能到处乱来毫无逻辑。所以这时候的工作就是让搜索到的文献数据自己组合出来领域工作。这里我的解决方案是对文献进行LLM实体抽取然后组知识图谱看看社区聚类结果,往往这个时候就能看到搜索到的文献他自己会聚成4-6个簇,这就是我们接下来的大纲了。
- 写作这里其实就很简单了,根据一个簇的内容,然后将簇的关键词,对应文献的evidence card,KG实体等内容一下子喂进去然后写好prompt,让他输出这个章节的内容就好。
如何用AI IDE写论文(综述):一种思路(如反重力Antigravity / Cursor)
https://linux.do/t/topic/1448185
讲讲遇到的坑吧
其实最大的问题是没钱
成本限制了我的发挥,因为一切的工作流都很好,其他佬的工作也很好,skills也很棒,但是他们都有一个问题,对基本模型的要求很高啊,越好的模型智能越高,对于skills指令的遵守,工具的调用都很好,但是要钱!所以我所有的工作基础都被限制在了成本两个字上面。
Embeding模型和Rerank模型都有一大把免费的就暂且不管了,主要是LLM的API贵,想方设法找到了免费的,支持大并发的,大量调用的api,一通测试,唯一可用的是 Qwen3-8B 的一个小模型,他的上下文只有 32k 。所以当我从开发的 ds-v4-flash 切换到了这个8B小模型上面的时候出现了上下文极其容易爆炸的问题,指令遵守不好等问题,我一度想学习Openscholar的工作,融了一个8B的模型练出来了一个综述模型,我看着说好哇,但是我又看了看不存在的设备,又放弃了,转而看向了prompt engine的工作。
- 便宜如deepseek-v4-flash我跑下来也要1CNY/篇,主要原因出现在每次都是新信息没有缓存
- Qwen3-8B是我一个模型一个模型试出来免费模型里面最好用的了
麦当劳才喜欢调Prompt,特别是调小模型的prompt,简直就是折磨,可能有用,可能没用,因为他不一定听你的,上下文太长的时候他就忘了,拼尽全力无法战胜!虽然学习了很多skills里面的prompt,但是它没用啊,不听话,所以我也希望有佬能解决这个问题。
所以到最后唯一的成本支出是一台2C2G的服务器,就能跑起来给佬友们提供服务,LLM的调用成本就是没有。佬友富裕的可以拉下来自己跑本地的docker已经写好了一键启动了,然后接上公益站的API就可以愉快开跑了(高并发警告!)
虽然最后出来的结果还是要人修正,但是起码文献不用找了,引用也是正确的,内容写作大差不差也还过得去。水一个小小的课程论文应该是没什么问题的。反正我已经交上去了)
最后还是求一个star,希望他能帮到有需要的佬,它可能不能写一篇完整的论文,但是应对琐碎的课程工作我觉得还是绰绰有余的!
让天下没有难写的课程论文
附赠两个使用示例
数值仿真在边坡工程中的应用.docx (114.0 KB)
尾矿资源再利用.docx (87.4 KB)