胖鼠采集(Fat Rat Collect) 是一款基于 WordPress 的内容采集与数据处理插件,适用于资讯站、内容聚合站及需要结构化采集网页内容的业务场景。插件支持通过规则配置完成网页内容提取、链接补全、图片处理、内容过滤、自动发布等操作,并提供调试工具与示例规则,便于快速上手和持续维护。
核心功能
- 微信公众号文章采集:支持公众号文章内容提取与清洗处理。
- 简书文章采集:支持正文、图片等内容采集。
- 列表采集与历史采集:支持从列表页批量获取文章链接并持续采集历史内容。
- 详情页采集:支持针对目标详情页提取标题、正文、图片等信息。
- 分页采集:支持多分页内容遍历,适用于历史数据抓取场景。
- 自动采集:支持定时或持续执行采集任务。
- 自动发布:支持将采集结果自动写入 WordPress 文章系统。
- 调试模式:支持在线调试采集规则,便于定位选择器与数据处理问题。
- 示例规则:提供可直接体验和参考的规则样例。
- 内容增强:支持 动态内容、自动标签、标签内链等扩展能力。
- 内容去重:支持重复文章识别与过滤。
- 特色图片处理:支持正文首图设置为特色图片。
- 图片本地化:支持将图片下载到本地媒体库,并兼容对象存储类插件。
- 数据处理:支持基于 HTML 和 jQuery 的内容过滤、替换与伪原创处理。
- 任意可见网页采集:支持自定义站点列表页与详情页采集规则。
- 相对链接补全:支持自动补全相对路径为完整链接。
- 图片链接类型处理:支持自定义图片链接格式。
- 详情分页数据采集:支持详情页内部翻页内容整合。
- 关键词随机插入:支持指定关键词或 A 标签关键词随机插入正文内容。
- 安装即用:完全基于 WordPress 实现,支持开源查阅与二次开发。
- 兼容说明:如 PHP 版本低于 7.1,请使用历史兼容分支
based_php_5.6,该分支已停止更新,不建议在新环境中使用。 - 合规提示:请在合法、合规、获得授权的前提下使用本插件。
胖鼠采集系统架构
- 系统由五个核心模块组成。
- ① 采集中心:用于创建与管理采集任务。
- ② 配置中心:用于维护采集规则、字段映射和处理逻辑。
- ③ 数据桶:用于查看、筛选、发布和管理采集结果。
- ④ 调试中心:用于在线调试规则与查看采集结果。
- ⑤ 工具箱:提供插件配套的辅助工具能力。
使用说明
- 采集任务通常会消耗较多系统资源,图片下载与媒体处理场景尤为明显。
- 建议首次使用时优先体验示例规则,确认环境配置正常后再创建自定义规则。
- 本插件适用于学习、研究与合法业务场景,使用者需自行承担实际使用中的合规责任。
