全能自媒体数据抓取神器:MediaCrawler,一键搞定七大平台!
在自媒体内容分析领域,高效获取多平台数据是刚需。今天推荐一款开源利器——MediaCrawler,它能轻松爬取小红书、抖音、快手、B站、微博、贴吧、知乎七大平台的公开内容,支持笔记/视频、评论及创作者主页数据抓取!
🔥 核心功能亮点
-
全平台覆盖
支持主流平台的关键词搜索、指定ID爬取、二级评论抓取和创作者主页爬取,覆盖所有核心场景:
| 平台 | 关键词搜索 | 指定帖子 | 二级评论 | 主页爬取 |
|——-|———-|———|——–|———|
| 小红书 | ✅ | ✅ | ✅ | ✅ |
| 抖音 | ✅ | ✅ | ✅ | ✅ |
| B站 | ✅ | ✅ | ✅ | ✅ | -
零逆向技术
基于 Playwright 浏览器自动化框架,通过保存登录态直接获取数据,无需破解加密算法,小白也能快速上手。 -
企业级扩展
- 登录态缓存:避免重复扫码
- IP代理池支持:防封禁设计
- 词云生成:自动可视化评论热点
🚀 极速上手教程
- 安装依赖(推荐uv工具):
cd MediaCrawler
uv sync # 同步环境
uv run playwright install # 安装浏览器驱动
- 执行爬取(以小红书为例):
- 关键词搜索模式:
shell
uv run main.py --platform xhs --lt qrcode --type search
- 指定帖子ID模式:
shell
uv run main.py --platform xhs --lt qrcode --type detail
扫码登录后自动运行!
- 数据保存
支持三种存储方式:
- MySQL(需执行
python db.py
初始化表) - CSV/JSON(自动保存到
data/
目录)
🏆 进阶利器:MediaCrawlerPro
专业版在原版上升级:
- 断点续爬:网络中断后自动接续
- 多账号轮换:突破单账号限制
- 去Playwright依赖:部署更轻量
- 桌面端工具:可视化下载管理
👉 立即体验
🌟 同类工具对比
| 项目 | 多平台支持 | 免逆向 | 评论爬取 | 词云分析 |
|—————|———–|——-|———|———|
| MediaCrawler | ✅ 7+ | ✅ | ✅ | ✅ |
| WeiboSpider | ❌ 单平台 | ❌ | ✅ | ❌ |
| BiliBili-Crawler| ❌ 单平台 | ❌ | ✅ | ❌ |
| Toutiao-Spider| ❌ 单平台 | ❌ | ✅ | ❌ |
MediaCrawler 是唯一支持全平台+免逆向+数据分析的开源方案!
提示:使用请遵守各平台协议,本工具仅限技术学习。
GitHub搜索:MediaCrawler(27k+⭐️),Pro版功能更强大!
暂无评论内容