Web爬虫 - 抓取网站内容的库

分类 - 设置更多关注

排序

按热度排序
661 3.7k 1.9k

T TuShare是实现对股票/期货等金融数据从**数据采集**、**清洗加工** 到 **数据存储**过程的工具
 
10.0 4.5
175 2.6k 597

? 🔞 全球最大成人网站PornHub爬虫 (Scrapy、MongoDB) 一天500w的海量数据
 
10.0 0.3
  1月前
Popular
1.5k 22.2k 5.8k

S Scrapy:一个快速高级的网站截图和网页采集框架
 
9.0 10.0
25 867 50

S Sukhoi 简约和强大的Web爬虫
 
3.4000000000000004 6.7
35 920 52

G Gain 采用asyncio, uvloop和aiohttp编写的Web爬虫框架
 
3.3000000000000003 0.3
  1月前
35 919 52

Gain:基于 asyncio, uvloop 和 aiohttp 的 Python 爬虫框架
 
3.3000000000000003 0.3
  1月前
112 911 448

豆瓣读书的爬虫
 
2.8000000000000003 0.0
  4月前
76 711 282

P PSpider - Python3下极为简洁的爬虫框架
 
2.3000000000000003 3.3000000000000003
  昨天
63 620 224

D django-dynamic-scraper - 通过Django管理界面创建爬虫
 
1.9 1.3
  1月前
52 612 174

P 爬取微信公众号文章
 
1.9 0.0
  1年前
126 503 119

C crawl-frontier-一个灵活前沿的web 抓取框架
 
1.5 0.0
30 475 77

F fake-useragent 伪装浏览器身份,常用于爬虫。这个项目的代码很少,可以阅读一下,看看 ua.random 是如何返回随机的浏览器身份的
 
1.4000000000000001 0.0
  4月前
41 346 49

M Malspider是一个网络爬虫框架,它检测网络依赖性的特点
 
1.1 0.0
54 329 207

M MSpider - 一个简单、容易使用的Spider使用gevent和js渲染器
 
1.0 0.0
  7月前
31 309 96

Z 知乎爬虫(验证码自动识别)
 
1.0 0.0
  7月前
35 291 153

P Python爬虫,京东自动登录,在线抢购商品
 
0.8999999999999999 0.2
  1月前
40 277 195

Q QQ空间爬虫(日志、说说、个人信息)
 
0.8999999999999999 0.0
  8月前
25 273 134

QQ Groups Spider(QQ 群爬虫)
 
0.8999999999999999 1.5
  25天前
29 261 336

Commentbox一个抓取网易云音乐精彩评论的爬虫
 
0.8999999999999999 0.0
  11月前