[合集] 简论机器学习

白芸汐 2026-05-01 19:12 1

本贴为简论机器学习的集合贴。

前言

在机器会学习之前，人类先学会了偷懒
谈机器学习之前，最好先把一个经典的误会放到桌面上。
很多人第一次听到机器学习，脑子里浮现的画面大概是这样的。机房深处，一台通体发光的服务器缓缓睁眼，屏幕上飘过一串绿色代码，然后它用冷酷的电子音宣布，人类，我已经掌握了你们的秘密。（天网的算力都不够现在的LLM用的）
这画面很赛博，很带感，很适合拿去剪短视频，配上低沉旁白，再加一句经典台词。
时代变了。
可…

机器学习之前，先学会看数据

不要上来就挑模型
很多刚接触机器学习的人，上手的第一件事往往是选模型。
线性回归、随机森林、XGBoost，接着听说 LightGBM 表现更好，于是打开教程，复制代码，导入数据，训练，看一眼准确率，感觉整个流程跑通了。
看见屏幕上的数字，忍不住觉得已经跨过了门槛。（忍不住轻哼起来）
等到换一批真实数据再试，模型却经常一塌糊涂。
这样的过程在机器学习圈子里反复出现。
像刚拿到驾照的人，还…

数据表里没有一桩小事
上一篇我们反复申说，机器学习项目真正启动之前，最好先把数据这件头等大事端详清楚。
听上去像极了一句正确得令人打不起精神的唠叨。
好比出门前有人叮嘱你观测天象，下厨前提醒你刷锅净灶，写代码前告诫你先读懂需求文档。
道理桩桩件件都对，执行起来却常常被当作耳旁风，左耳进右耳出。
很多人接过数据以后，第一反应仍然是立刻让流程跑起来，片刻都不想耽搁。
导入 pandas，读取…

看见数据关系，才算真正开始看数据
前两篇说了很多看数据之前该做的事。
先弄清楚数据从哪里来，字段代表什么，标签怎么定义，缺失值为什么缺，异常值到底是错误还是信号，训练集和测试集有没有互相串门，线上数据会不会和训练数据分道扬镳。
这些事情听起来麻烦，做起来折腾，是因为这些本来就是非常琐碎的工作，甚至有一个专门的信息集采和清洗的职业（工资都很低，别去尝试）。
但是在机器学习项目里，越基础的地方越…

最新回复 (11)

Ye.S 05-06 11:23

3楼

大佬写的真好，向大佬学习。我也是河南小镇做题做的不好的做题家，大学的时候学的人工智能正好赶上chatgpt发布，从机器学习的预测红酒价格开始学，到后面的深度学习分类，检测，都是视觉相关的。也只会用asr跟tts，很多东西都是一知半解的。希望大佬多更几篇。我吸收消化一下。
白芸汐楼主 05-06 11:24

4楼

本周日会更新下一篇的内容，系列会从数据开始讲
Ye.S 05-06 11:28

5楼

非常不错，非常系统的讲解。我之前也做过车内驾仓的检测模型，也打过很长时间的标。
是小橘耶 05-06 11:31

6楼

认真学习清华某位老师出版的西瓜书远远足够了，yyds
白芸汐楼主 05-06 11:35

7楼

^-^^-^说^-^，大部分人根本不会去看的 ^-^
牛马青年人 05-08 12:41

8楼

西瓜书不是南大周志华出版的吗，还是说清华也出了本？ ^-^
是小橘耶 05-08 12:50

9楼

是清华吧？我拒绝死去的记忆攻击我，本科学的忘差不多了 ^-^
KAIII 05-18 11:43

10楼

srds，西瓜书作者是南京大学的周志华老师，清华大学出版社出版 ^-^
66yuanyuan66 05-27 13:57

11楼

求更新啊求更新！写的好好，我2026年才开始看机器学习，真是帮小白入门了，通俗易懂了好多 ^-^
白芸汐楼主 07-06 00:37

12楼

探索性数据分析
前面几篇已经把很多坑摊开说过了。
数据来源要查，字段含义要问，标签口径要定，缺失和异常要分清楚，相关性不能当圣旨，平均数不能当全景图，时间顺序更不能随便打乱。
这些事情看起来零碎，实际都指向同一个动作。
探索性数据分析。
听起来有点像教材上的词汇，换成人话就是，别急着建模，先把数据翻一遍，看它到底长什么样，能说什么，不能说什么，哪里可信，哪里可疑，哪里需要我们继续深挖。
很…
流光zzz 07-06 00:41

13楼

追更追更，向佬学习，虽然本科有学但已经忘的差不多了，正好复习一下 ^-^

* 帖子来源Linux.do

附近帖子

飞读

白芸汐

主题数
1

帖子数
1

注册排名
3

随机推荐