2026-04-03 · 约 12 分钟阅读

网页内容抓取哪家强?4大AI Skill横向测评

从公众号、飞书文档到 Twitter 与普通网页:横向测评 markdown-proxy、agent-fetch、OpenClaw 内置 WebFetch、defuddle CLI 四款内容抓取方案,覆盖安装、成功率、输出质量、特殊平台与上手成本。

从公众号文章到飞书文档,从 Twitter 到普通网页,谁才是你的最佳内容抓取助手?作为内容创作者和 AI 重度用户,我们每天都要处理各种网页内容——公众号爆款文章、飞书团队文档、Twitter 热门帖子、技术博客……但直接把链接丢给 AI,结果往往差强人意:要么遇到反爬机制一片空白,要么拿到一堆带广告和导航的混乱 HTML。

今天,我们来横向测评 4 款主流的网页内容抓取 Skill,帮你找到最适合自己的工具。

参赛选手

Skill开发者核心定位安装命令
markdown-proxyjoeseesun多通道智能路由抓取npx skills add joeseesun/markdown-proxy
agent-fetchteng-lin本地轻量抓取工具npx agent-fetch
WebFetchOpenClaw(内置)基础网页获取无需安装
defuddle CLIdefuddle专业正文提取npm install -g defuddle

测评维度

我们从以下 5 个维度进行对比(⭐ 越多越好 / 越高越好):

  1. 安装难度 — 越容易越好
  2. 抓取成功率 — 覆盖更多场景
  3. 输出质量 — Markdown 干净程度
  4. 特殊平台支持 — 公众号 / 飞书 / Twitter 等
  5. 使用便捷度 — 是否开箱即用

详细测评

1. markdown-proxy ⭐⭐⭐⭐⭐

一句话评价:六边形战士,有脑子的抓取专家。

markdown-proxy 最大的亮点是智能路由。它不是盲目抓取,而是先判断 URL 类型,再选择最优通道:

URL 进来
├── 微信公众号 → Playwright 无头浏览器
├── 飞书文档   → 飞书 API 直取
├── YouTube    → 专用解析器
└── 其他网页   → r.jina.ai → defuddle.md → agent-fetch → defuddle CLI

实测表现:

测试 URL 类型结果耗时
公众号文章✅ 完美提取,保留图片8–12 秒
飞书文档✅ API 直取,格式完整3–5 秒
Twitter / X✅ 推文内容完整2–3 秒
普通技术博客✅ 正文干净无广告1–2 秒

优点:四层降级策略,几乎不会失败;自动提取 YAML frontmatter(标题、作者、时间);内置公众号反爬绕过(Playwright);零 API Key,开箱即用。

缺点:公众号抓取依赖 Python + Playwright,首次配置稍麻烦;飞书文档需要配置 App ID / Secret。

适合人群:需要处理多种类型网页的内容创作者、研究人员。

2. agent-fetch ⭐⭐⭐⭐

一句话评价:本地派隐士,稳定可靠的备胎。

agent-fetch 是一款本地运行的 URL 抓取工具,不依赖外部服务。定位很明确:当在线代理都挂了的时候,你还有它。

实测表现:

测试 URL 类型结果耗时
普通技术博客✅ 正文干净2–4 秒
新闻网站✅ 提取成功2–4 秒
公众号文章❌ 反爬拦截
飞书文档❌ 无法访问

优点:纯本地运行,隐私性好;无需注册账号;可作为 markdown-proxy 降级链路中的一环。

缺点:无法绕过反爬;不支持登录态页面;需要 Node.js 环境。

适合人群:注重隐私、主要抓取公开技术文档的开发者。

3. WebFetch(OpenClaw 内置)⭐⭐⭐

一句话评价:随手可用的基础款。

WebFetch 是 OpenClaw 内置的网页获取能力,无需安装任何 skill 即可使用,适合快速预览网页内容。

实测表现:

测试 URL 类型结果耗时
普通技术博客⚠️ 有广告和导航噪音1–2 秒
新闻网站⚠️ 侧边栏内容混杂1–2 秒
公众号文章❌ 空白或验证码
Twitter / X❌ 登录墙拦截

优点:零配置、直接可用;速度快。

缺点:输出质量不稳定;无法处理反爬和登录墙;正文提取不够精准。

适合人群:偶尔需要快速查看网页内容的轻度用户。

4. defuddle CLI ⭐⭐⭐⭐

一句话评价:专业正文提取,极简主义者。

defuddle 是专注于从混乱 HTML 中抽出干净正文的 CLI,算法向、工具向,适合「先要干净文章再交给 AI」的流程。

实测表现:

测试 URL 类型结果耗时
技术博客✅ 正文精准1–3 秒
新闻文章✅ 去除广告成功1–3 秒
复杂排版页面⚠️ 可能丢失格式1–3 秒
反爬页面❌ 无法绕过

优点:正文提取算法优秀;输出格式干净;支持自定义选择器。

缺点:纯文本提取时图片链接需额外处理;无法单独搞定动态渲染与反爬;需单独安装。

适合人群:需要批量处理文章、对格式要求高的编辑者。

综合评分对比

Skill安装难度成功率输出质量特殊平台便捷度总分
markdown-proxy⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐24 / 25
agent-fetch⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐19 / 25
WebFetch⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐19 / 25
defuddle CLI⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐18 / 25

选购指南

写在最后

经过一周的密集测试,我们的结论是:markdown-proxy 是目前综合实力最强的网页内容抓取解决方案。它的智能路由设计非常巧妙——不试图用一个方法解决所有问题,而是根据 URL 类型选择最优通道。这种「有脑子」的设计,让它在复杂场景下表现远超其他工具。

如果你只能装一个 Skill 来处理网页内容,选它准没错。(实际以各工具官方文档与许可证为准;请遵守目标站点服务条款与爬虫政策。)

本文为测评专栏编辑观点,技能名称、命令与表现为整理自社区与实测笔记,可能随版本变化;不构成任何商业承诺。引用安装命令前请以官方仓库说明为准。