[开源免费] boss-zhipin-scraper: 基于 CDP 的 boss 直聘爬虫

echoX 2026-07-03 16:24 1

github 地址


https://github.com/eatmoreduck/boss-zhipin-scraper


解决了什么痛点



  1. 字体反爬:BOSS 直聘列表页的薪资是字体文件加密过的,直接抓 DOM 拿到的是假数据。这个工具走的是搜索 API ,接口本身就返回明文 salaryDesc,绕过字体那一层。

  2. 手动翻页太累:想批量看一类岗位、横向对比薪资和技能要求,靠人工翻根本看不全面。

  3. 不知道市场行情:光看一两个岗位没感觉,想看整体分布(薪资区间、经验/学历要求、高频技能词)。


技术上怎么做的


没有用 Selenium / Playwright ,而是通过 Chrome DevTools Protocol 直接连接本地一个已登录的 Chrome (持久隔离 profile ,不动你主浏览器的 Gmail / GitHub 登录态):



  • 复用真实登录态调搜索 API ,拿到明文薪资

  • 详情页带上列表 API 的 securityId / lid 上下文,避免风控

  • 每页抓完立刻落盘 + 按 job_id 去重,中途崩了不丢数据

  • 输出 JSON / CSV ,CSV 还会单独导一份详情表方便 Excel 筛选


抓完之后


跑一份聚合摘要:



  • 薪资区间分布、经验/学历要求、地区分布

  • 高频公司、技能标签、JD 高频词

  • 最后生成一段可直接复制的提示词,丢给 ChatGPT / Claude 帮你做简历关键词补齐、项目经历改写方向、面试准备清单


提示词只基于岗位数据.


仅供交流,个人使用无问题,爬取频率慢,大大降低风控频率


如果觉得有用,给个 ⭐ 就是最大的鼓励。有任何使用问题或想法欢迎在下面留言或者直接在 github 提 issue https://github.com/eatmoreduck/boss-zhipin-scraper/issues 。

最新回复 (7)
  • fankcoder 07-03 16:39
    1
    严肃学习
  • feiniu 07-03 17:34
    2
    爬取量大了会不会封账号
  • s3040608090 07-04 03:05
    3
    看看,之前用过几个 boss cli 直接封号了
  • s3040608090 07-04 03:06
    4
    @s3040608090 更正:之前用过几个 boss cli 直接触发风控了
  • cskeleton 07-04 04:29
    5
    我都是让 codex 视觉爬的
  • echoX 楼主 07-04 12:45
    6
    @s3040608090 #4
    有简单的反爬

    列表页( scripts/boss_cdp_raw.py:903-926 ):

    human_scroll():每页随机滚 3–6 次,15% 概率往上回滚(模拟回看),滚动距离随机 150–500px
    滚动间隔随机:30% 概率"停下来看"( 2–4s ),其余 0.5–1.5s
    human_mouse_jitter():40% 概率随机移动鼠标
    首页导航后等 6–10s ,翻页等 12–22s ( boss_cdp_raw.py:937, 1007 )
    详情页( scripts/boss_cdp_raw.py:1106-1128 ):

    随机滚 3–7 次,12% 概率回滚,停顿 0.8–1.8s 或 2–5s
    50% 概率挪鼠标
    详情间隔 10–25s ( boss_cdp_raw.py:1153 )

    降低爬取效率,同时也降低了被封概率
  • echoX 楼主 07-04 17:15
    7
    @feiniu #2 有少量的反爬措施,我爬一个关键词岗位的,50 来页的详情,没什么问题,再多我没测过
* 帖子来源V2EX
返回