大家利用ai做数据清洗/提取的时候怎么保证正确性的？

jinyu30 2026-07-05 11:44 1

大家利用ai做数据清洗/提取的时候怎么保证正确性的？

大模型肯定用不起的，小模型幻觉率又高。

最新回复 (4)

CaQing 07-05 11:48

1楼

先转用CSV文件存，创建一个Git仓库，之后看VS Code红绿对比 ^-^

最终必须得人审，光AI信不过的，毕竟还是自己担责任，所以核心思维就是让AI弄的方便人类检查

补：这样审起来还是非常快的，只有文本发生变动的会被高亮显示，像GPT或者GLM清洗过的数据篡改很少，人工审核相当省事。
ccwav 07-05 11:49

2楼

调低模型温度，0.3这样，但是有机会无回复
Crimson-Rogue 07-05 12:25

3楼

我现在是固定结构化输出 + 脚本规则校验 + 抽样人工复核，大佬们有没有更省事的控幻觉方案？
星灵技术 07-05 12:28

4楼

我也是同款方式，结构化输出然后脚本批量校验，数据量太大了，不可能人工一一核对

* 帖子来源Linux.do

附近帖子

↑codex发疯了
↑最近有点20X的量用不完，想分享出来但是....
↑cc switch 好像不支持检测 vs code里面安装的claude code等插件
↑推荐电脑配置
↑项目里用codex中转站怎么使用gpt-image-2生图
📍 大家利用ai做数据清洗/提取的时候怎么保证正确性的？
↓k12开始风控了吗？
↓国内用Claude pro封号真的很严重吗？
↓CCMAX 20X订阅靠谱渠道？
↓新人求助大佬们有没有激活JetBrains Gateway的方式
↓求助：2026上海谷歌开发者大会在哪报名的

返回

飞读

jinyu30

主题数
1

帖子数
1

注册排名
3

随机推荐