[合集] 简论机器学习

白芸汐 2026-05-01 19:12 1

本贴为简论机器学习的集合贴。


前言


在机器会学习之前,人类先学会了偷懒
谈机器学习之前,最好先把一个经典的误会放到桌面上。
很多人第一次听到机器学习,脑子里浮现的画面大概是这样的。机房深处,一台通体发光的服务器缓缓睁眼,屏幕上飘过一串绿色代码,然后它用冷酷的电子音宣布,人类,我已经掌握了你们的秘密。(天网的算力都不够现在的LLM用的)
这画面很赛博,很带感,很适合拿去剪短视频,配上低沉旁白,再加一句经典台词。
时代变了。
可…


机器学习之前,先学会看数据


不要上来就挑模型
很多刚接触机器学习的人,上手的第一件事往往是选模型。
线性回归、随机森林、XGBoost,接着听说 LightGBM 表现更好,于是打开教程,复制代码,导入数据,训练,看一眼准确率,感觉整个流程跑通了。
看见屏幕上的数字,忍不住觉得已经跨过了门槛。(忍不住轻哼起来)
等到换一批真实数据再试,模型却经常一塌糊涂。
这样的过程在机器学习圈子里反复出现。
像刚拿到驾照的人,还…


数据表里没有一桩小事
上一篇我们反复申说,机器学习项目真正启动之前,最好先把数据这件头等大事端详清楚。
听上去像极了一句正确得令人打不起精神的唠叨。
好比出门前有人叮嘱你观测天象,下厨前提醒你刷锅净灶,写代码前告诫你先读懂需求文档。
道理桩桩件件都对,执行起来却常常被当作耳旁风,左耳进右耳出。
很多人接过数据以后,第一反应仍然是立刻让流程跑起来,片刻都不想耽搁。
导入 pandas,读取…


看见数据关系,才算真正开始看数据
前两篇说了很多看数据之前该做的事。
先弄清楚数据从哪里来,字段代表什么,标签怎么定义,缺失值为什么缺,异常值到底是错误还是信号,训练集和测试集有没有互相串门,线上数据会不会和训练数据分道扬镳。
这些事情听起来麻烦,做起来折腾,是因为这些本来就是非常琐碎的工作,甚至有一个专门的信息集采和清洗的职业(工资都很低,别去尝试)。
但是在机器学习项目里,越基础的地方越…
最新回复 (11)
  • Ye.S 05-06 11:23
    3

    大佬写的真好,向大佬学习。我也是河南小镇做题做的不好的做题家,大学的时候学的人工智能正好赶上chatgpt发布,从机器学习的预测红酒价格开始学,到后面的深度学习分类,检测,都是视觉相关的。也只会用asr跟tts,很多东西都是一知半解的。希望大佬多更几篇。我吸收消化一下。

  • 白芸汐 楼主 05-06 11:24
    4

    本周日会更新下一篇的内容,系列会从数据开始讲

  • Ye.S 05-06 11:28
    5

    非常不错,非常系统的讲解。我之前也做过车内驾仓的检测模型,也打过很长时间的标。

  • 是小橘耶 05-06 11:31
    6

    认真学习清华某位老师出版的西瓜书远远足够了,yyds

  • 白芸汐 楼主 05-06 11:35
    7

    ^-^^-^说^-^,大部分人根本不会去看的 ^-^

  • 牛马青年人 05-08 12:41
    8

    西瓜书不是南大周志华出版的吗,还是说清华也出了本? ^-^

  • 是小橘耶 05-08 12:50
    9

    是清华吧?我拒绝死去的记忆攻击我,本科学的忘差不多了 ^-^

  • KAIII 05-18 11:43
    10

    srds,西瓜书作者是南京大学的周志华老师,清华大学出版社出版 ^-^

  • 66yuanyuan66 05-27 13:57
    11

    求更新啊求更新!写的好好,我2026年才开始看机器学习,真是帮小白入门了,通俗易懂了好多 ^-^

  • 白芸汐 楼主 07-06 00:37
    12

    探索性数据分析
    前面几篇已经把很多坑摊开说过了。
    数据来源要查,字段含义要问,标签口径要定,缺失和异常要分清楚,相关性不能当圣旨,平均数不能当全景图,时间顺序更不能随便打乱。
    这些事情看起来零碎,实际都指向同一个动作。
    探索性数据分析。
    听起来有点像教材上的词汇,换成人话就是,别急着建模,先把数据翻一遍,看它到底长什么样,能说什么,不能说什么,哪里可信,哪里可疑,哪里需要我们继续深挖。
    很…
  • 流光zzz 07-06 00:41
    13

    追更追更,向佬学习,虽然本科有学但已经忘的差不多了,正好复习一下 ^-^

* 帖子来源Linux.do
返回