科研综述速通：天下苦课程论文久矣

c76d 2026-06-28 15:47 1

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

我的帖子已经打上开源推广标签： 是

我的开源项目完整开源，无未开源部分： 是

我的开源项目已链接认可 LINUX DO 社区： 是

我帖子内的项目介绍，AI生成、润色内容部分已截图发出： 是

以上选择我承诺是永久有效的，接受社区和佬友监督： 是

以下为项目介绍正文内容，AI生成、润色内容已使用截图方式发出

使用页面：https://review.c76d3656e.sbs/

项目：GitHub - c76d3656e/academic-cluster-py: 快速编写课程论文 · GitHub

书接上文 https://linux.do/t/topic/1564058 把论文检索工具搞定之后，毫无疑问的就是开始写作。马上又是一年期末，各位烟酒生，本科佬，你们的课程论文，学术周论文，水课论文搞定了没。我的课程论文就要写两篇不同主题的综述论文。

我一个人就是两篇，加上我的朋友就是四篇，加上选课的同学就是几十篇，加上全国各地的学生同志们那就是很多篇，这种没有什么用，统统是学术垃圾的东西，为了能快速的，简单的，迅速的解决掉他，我连夜学习了现有公开项目的工作，skills，plugin，mcp等工作但是不是很能满足我的要求，而且有一些跑一次就要我20M+的token，还不一定是想要的结果，这对于我这个贫穷大学生来说是不可承受之重。

因此我连夜学习了百家之长，集合了大家的工作，学习了很多的工作，我发现大家的思路好像是大差不差的，然后把大伙的skills的工作融化成了一个langraph的工作，把他融合成为了一个大家可用的工作。

在这里总结一下工作流吧

广泛的搜索文献

然后对文献进行结构化

然后根据所有数据进行写作

好吧很朴素，这是我一开始的思路

首先就是搜索问题，但是站里又很多的佬在学术搜索这里页给了很多的解决方案

https://linux.do/t/topic/1407068

[开源] Paper Search CLI：基于 Paper-Search MCP 重构成 CLI + Skill 的多来源论文检索工具

https://linux.do/t/topic/1564058

Crossref, OpenAlex, Semantic Scholar, dblp, CiteSeerX, SSRN, Unpaywall

其次就是文献处理，为了能合规向外提供服务，很多非OA的文献我们是不能获取全文的，所以我们得到的很多内容都是标题+摘要的核心内容，这对于我们后续的处理其实是个好事，因为RAG的教训告诉我们pdf，word，md等异构数据的处理是一个大难题。对于所有文献进行结构化工作站里有佬提供过工作基础了，我也参考了类似的工作来构建证据卡片什么的。

【开源】为文献阅读配置AI管家：Zotero-AI-Butler 如何用 AI 重构你的科研工作流

[v0.1] 我把科研流程拆成了一堆 Skills，让codex/cc像打工人一样拉磨

然后就是直接把所有结构化数据直接喂进去大模型就可以了吗？也许可行，因为现在现行的1M上下文还是太权威了，全都能塞，但是这里有可能会遇到东写一下西写一下，全文可能到处乱来毫无逻辑。所以这时候的工作就是让搜索到的文献数据自己组合出来领域工作。这里我的解决方案是对文献进行LLM实体抽取然后组知识图谱看看社区聚类结果，往往这个时候就能看到搜索到的文献他自己会聚成4-6个簇，这就是我们接下来的大纲了。

写作这里其实就很简单了，根据一个簇的内容，然后将簇的关键词，对应文献的evidence card，KG实体等内容一下子喂进去然后写好prompt，让他输出这个章节的内容就好。

如何用AI IDE写论文(综述)：一种思路(如反重力Antigravity / Cursor)

https://linux.do/t/topic/1448185

讲讲遇到的坑吧

其实最大的问题是没钱

成本限制了我的发挥，因为一切的工作流都很好，其他佬的工作也很好，skills也很棒，但是他们都有一个问题，对基本模型的要求很高啊，越好的模型智能越高，对于skills指令的遵守，工具的调用都很好，但是要钱！所以我所有的工作基础都被限制在了成本两个字上面。

Embeding模型和Rerank模型都有一大把免费的就暂且不管了，主要是LLM的API贵，想方设法找到了免费的，支持大并发的，大量调用的api，一通测试，唯一可用的是 Qwen3-8B 的一个小模型，他的上下文只有 32k 。所以当我从开发的 ds-v4-flash 切换到了这个8B小模型上面的时候出现了上下文极其容易爆炸的问题，指令遵守不好等问题，我一度想学习Openscholar的工作，融了一个8B的模型练出来了一个综述模型，我看着说好哇，但是我又看了看不存在的设备，又放弃了，转而看向了prompt engine的工作。