Web爬虫 - 抓取网站内容的库

分类 - 设置更多关注

排序

按热度排序
435 6k 956

P portia:Scrapy 可视化爬取
 
10.0 3.5
162 3.9k 1.1k

B 「一个」、「Time 时光」、「有道词典」、「微软必应词典」、「豆瓣电影」、「中央天气」、「小米天气」、「魅族天气」、「每日一文」、「12306」、「途牛」、「快递100」、「快递」应用 Api。仅供学习,禁止商业使用,侵权请联系删除。
 
10.0 1.3
  7天前
209 3.3k 1k

简易爬虫代理池
 
10.0 4.8
  24天前
217 2.6k 874

S 收集各种爬虫 (默认爬虫语言为 python)
 
10.0 0.3
  14天前
227 2.4k 702

X 新浪微博爬虫(分布式),部署简单,接口丰富,文档详细,视频支持,可灵活定制满足自己的需求。抓取内容(PC端)包括微博用户资料、特定关键词微博、用户主页所有微博、评论信息和转发信息。欢迎watch跟进
 
9.6 3.5
  1月前
1.7k 27.3k 6.8k

S Scrapy:一个快速高级的网站截图和网页采集框架
 
9.0 5.300000000000001
149 2k 743

J 基于搜狗微信搜索的微信公众号爬虫接口
 
8.4 0.8
98 937 362

P PSpider - Python3下极为简洁的爬虫框架
 
2.9 0.8
  11天前
192 920 488

E 实时获取新浪 / Leverfun 的免费股票以及 level2 十档行情 / 集思路的分级基金行情
 
2.8000000000000003 3.5
  1月前
24 882 52

S Sukhoi 简约和强大的Web爬虫
 
2.8000000000000003 0.0
48 895 140

F fake-useragent 伪装浏览器身份,常用于爬虫。这个项目的代码很少,可以阅读一下,看看 ua.random 是如何返回随机的浏览器身份的
 
2.7 0.0
  3月前
75 735 257

D django-dynamic-scraper - 通过Django管理界面创建爬虫
 
2.2 0.0
  6月前
140 688 138

C crawl-frontier-一个灵活前沿的web 抓取框架
 
2.1 10.0
73 681 365

P Python爬虫,京东自动登录,在线抢购商品
 
2.1 0.0
  5月前
56 667 196

P 爬取微信公众号文章
 
2.0 0.0
  2年前
37 435 213

QQ Groups Spider(QQ 群爬虫)
 
1.4000000000000001 0.0
  4月前
7 431 123

J 基于scrapy + splash的开源爬虫并在爬取中动态维护ip,解决ip和js问题
 
1.4000000000000001 0.0
  6月前
41 422 133

Z 知乎爬虫(验证码自动识别)
 
1.3 0.2
  昨天
46 396 251

Q QQ空间爬虫(日志、说说、个人信息)
 
1.2 0.0
  1年前