Web爬虫 - 抓取网站内容的库

分类 - 设置更多关注

排序

按热度排序
766 4.8k 2.3k

T TuShare是实现对股票/期货等金融数据从**数据采集**、**清洗加工** 到 **数据存储**过程的工具
 
10.0 0.7000000000000001
108 2.4k 276

G 各种不同语言实现的爬虫程序和爬虫框架集合
 
9.7 1.3
  15天前
164 2.3k 730

简易爬虫代理池
 
9.5 4.3
  昨天
Popular
1.6k 25.1k 6.4k

S Scrapy:一个快速高级的网站截图和网页采集框架
 
9.0 6.800000000000001
24 880 51

S Sukhoi 简约和强大的Web爬虫
 
2.8000000000000003 0.0
85 834 338

P PSpider - Python3下极为简洁的爬虫框架
 
2.6 2.3000000000000003
  9天前
170 747 434

E 实时获取新浪 / Leverfun 的免费股票以及 level2 十档行情 / 集思路的分级基金行情
 
2.3000000000000003 0.8
  11天前
69 679 242

D django-dynamic-scraper - 通过Django管理界面创建爬虫
 
2.1 0.0
  2月前
41 675 108

F fake-useragent 伪装浏览器身份,常用于爬虫。这个项目的代码很少,可以阅读一下,看看 ua.random 是如何返回随机的浏览器身份的
 
2.0 0.0
  2月前
55 639 188

P 爬取微信公众号文章
 
2.0 0.0
  2年前
138 592 129

C crawl-frontier-一个灵活前沿的web 抓取框架
 
1.7999999999999998 0.7000000000000001
61 581 317

P Python爬虫,京东自动登录,在线抢购商品
 
1.7999999999999998 1.2
  1月前
40 376 123

Z 知乎爬虫(验证码自动识别)
 
1.2 0.0
  1年前
32 364 175

QQ Groups Spider(QQ 群爬虫)
 
1.1 1.3
  19天前
43 363 57

M Malspider是一个网络爬虫框架,它检测网络依赖性的特点
 
1.1 0.0
45 361 234

Q QQ空间爬虫(日志、说说、个人信息)
 
1.1 0.0
  1年前
15 146 70

H hack12306.py 是一个 Python 3.x 版的12306.cn自动订票程序。利用splinter(一个开源的用来通过python自动化测试web的工具),让电脑自动操作网页。
 
1.1 10.0
56 336 211

M MSpider - 一个简单、容易使用的Spider使用gevent和js渲染器
 
1.0 0.0
  1年前
4 271 52

J 基于scrapy + splash的开源爬虫并在爬取中动态维护ip,解决ip和js问题
 
1.0 0.0
  2月前
31 266 419

Commentbox一个抓取网易云音乐精彩评论的爬虫
 
0.8999999999999999 0.0
  1年前