从公众号文章到飞书文档,从 Twitter 到普通网页,谁才是你的最佳内容抓取助手?作为内容创作者和 AI 重度用户,我们每天都要处理各种网页内容——公众号爆款文章、飞书团队文档、Twitter 热门帖子、技术博客……但直接把链接丢给 AI,结果往往差强人意:要么遇到反爬机制一片空白,要么拿到一堆带广告和导航的混乱 HTML。
今天,我们来横向测评 4 款主流的网页内容抓取 Skill,帮你找到最适合自己的工具。
参赛选手
| Skill | 开发者 | 核心定位 | 安装命令 |
|---|---|---|---|
| markdown-proxy | joeseesun | 多通道智能路由抓取 | npx skills add joeseesun/markdown-proxy |
| agent-fetch | teng-lin | 本地轻量抓取工具 | npx agent-fetch |
| WebFetch | OpenClaw(内置) | 基础网页获取 | 无需安装 |
| defuddle CLI | defuddle | 专业正文提取 | npm install -g defuddle |
测评维度
我们从以下 5 个维度进行对比(⭐ 越多越好 / 越高越好):
- 安装难度 — 越容易越好
- 抓取成功率 — 覆盖更多场景
- 输出质量 — Markdown 干净程度
- 特殊平台支持 — 公众号 / 飞书 / Twitter 等
- 使用便捷度 — 是否开箱即用
详细测评
1. markdown-proxy ⭐⭐⭐⭐⭐
一句话评价:六边形战士,有脑子的抓取专家。
markdown-proxy 最大的亮点是智能路由。它不是盲目抓取,而是先判断 URL 类型,再选择最优通道:
URL 进来 ├── 微信公众号 → Playwright 无头浏览器 ├── 飞书文档 → 飞书 API 直取 ├── YouTube → 专用解析器 └── 其他网页 → r.jina.ai → defuddle.md → agent-fetch → defuddle CLI
实测表现:
| 测试 URL 类型 | 结果 | 耗时 |
|---|---|---|
| 公众号文章 | ✅ 完美提取,保留图片 | 8–12 秒 |
| 飞书文档 | ✅ API 直取,格式完整 | 3–5 秒 |
| Twitter / X | ✅ 推文内容完整 | 2–3 秒 |
| 普通技术博客 | ✅ 正文干净无广告 | 1–2 秒 |
优点:四层降级策略,几乎不会失败;自动提取 YAML frontmatter(标题、作者、时间);内置公众号反爬绕过(Playwright);零 API Key,开箱即用。
缺点:公众号抓取依赖 Python + Playwright,首次配置稍麻烦;飞书文档需要配置 App ID / Secret。
适合人群:需要处理多种类型网页的内容创作者、研究人员。
2. agent-fetch ⭐⭐⭐⭐
一句话评价:本地派隐士,稳定可靠的备胎。
agent-fetch 是一款本地运行的 URL 抓取工具,不依赖外部服务。定位很明确:当在线代理都挂了的时候,你还有它。
实测表现:
| 测试 URL 类型 | 结果 | 耗时 |
|---|---|---|
| 普通技术博客 | ✅ 正文干净 | 2–4 秒 |
| 新闻网站 | ✅ 提取成功 | 2–4 秒 |
| 公众号文章 | ❌ 反爬拦截 | — |
| 飞书文档 | ❌ 无法访问 | — |
优点:纯本地运行,隐私性好;无需注册账号;可作为 markdown-proxy 降级链路中的一环。
缺点:无法绕过反爬;不支持登录态页面;需要 Node.js 环境。
适合人群:注重隐私、主要抓取公开技术文档的开发者。
3. WebFetch(OpenClaw 内置)⭐⭐⭐
一句话评价:随手可用的基础款。
WebFetch 是 OpenClaw 内置的网页获取能力,无需安装任何 skill 即可使用,适合快速预览网页内容。
实测表现:
| 测试 URL 类型 | 结果 | 耗时 |
|---|---|---|
| 普通技术博客 | ⚠️ 有广告和导航噪音 | 1–2 秒 |
| 新闻网站 | ⚠️ 侧边栏内容混杂 | 1–2 秒 |
| 公众号文章 | ❌ 空白或验证码 | — |
| Twitter / X | ❌ 登录墙拦截 | — |
优点:零配置、直接可用;速度快。
缺点:输出质量不稳定;无法处理反爬和登录墙;正文提取不够精准。
适合人群:偶尔需要快速查看网页内容的轻度用户。
4. defuddle CLI ⭐⭐⭐⭐
一句话评价:专业正文提取,极简主义者。
defuddle 是专注于从混乱 HTML 中抽出干净正文的 CLI,算法向、工具向,适合「先要干净文章再交给 AI」的流程。
实测表现:
| 测试 URL 类型 | 结果 | 耗时 |
|---|---|---|
| 技术博客 | ✅ 正文精准 | 1–3 秒 |
| 新闻文章 | ✅ 去除广告成功 | 1–3 秒 |
| 复杂排版页面 | ⚠️ 可能丢失格式 | 1–3 秒 |
| 反爬页面 | ❌ 无法绕过 | — |
优点:正文提取算法优秀;输出格式干净;支持自定义选择器。
缺点:纯文本提取时图片链接需额外处理;无法单独搞定动态渲染与反爬;需单独安装。
适合人群:需要批量处理文章、对格式要求高的编辑者。
综合评分对比
| Skill | 安装难度 | 成功率 | 输出质量 | 特殊平台 | 便捷度 | 总分 |
|---|---|---|---|---|---|---|
| markdown-proxy | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 24 / 25 |
| agent-fetch | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐ | 19 / 25 |
| WebFetch | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐⭐ | 19 / 25 |
| defuddle CLI | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐ | 18 / 25 |
选购指南
- 选 markdown-proxy,如果你:需要处理公众号、飞书等特殊平台;追求最高抓取成功率;不想拼凑多个工具;希望一次安装、到处使用。
- 选 agent-fetch,如果你:注重隐私、不想依赖外部服务;主要抓取公开技术文档;需要作为备用链路存在。
- 选 WebFetch,如果你:只是偶尔查看网页;不想安装任何 skill;对输出质量要求不高。
- 选 defuddle CLI,如果你:需要批量处理大量文章;对正文提取精度要求极高;习惯命令行工作流。
写在最后
经过一周的密集测试,我们的结论是:markdown-proxy 是目前综合实力最强的网页内容抓取解决方案。它的智能路由设计非常巧妙——不试图用一个方法解决所有问题,而是根据 URL 类型选择最优通道。这种「有脑子」的设计,让它在复杂场景下表现远超其他工具。
如果你只能装一个 Skill 来处理网页内容,选它准没错。(实际以各工具官方文档与许可证为准;请遵守目标站点服务条款与爬虫政策。)
本文为测评专栏编辑观点,技能名称、命令与表现为整理自社区与实测笔记,可能随版本变化;不构成任何商业承诺。引用安装命令前请以官方仓库说明为准。