Web爬虫 - 抓取网站内容的库

分类 - 设置更多关注

排序

按热度排序
Popular
433 6k 936

P portia:Scrapy 可视化爬取
 
10.0 6.5
151 3.7k 1k

B 「一个」、「Time 时光」、「有道词典」、「微软必应词典」、「豆瓣电影」、「中央天气」、「小米天气」、「魅族天气」、「每日一文」、「12306」、「途牛」、「快递100」、「快递」应用 Api。仅供学习,禁止商业使用,侵权请联系删除。
 
10.0 0.8
  14天前
226 3.6k 895

? 🔞 全球最大成人网站PornHub爬虫 (Scrapy、MongoDB) 一天500w的海量数据
 
10.0 1.2
  22天前
304 3.3k 1.2k

Y 越来越多的网站具有反爬虫特性,有的用图片隐藏关键数据,有的使用反人类的验证码,建立反反爬虫的代码仓库,通过与不同特性的网站做斗争(无恶意)提高技术
 
10.0 0.2
  27天前
199 3.1k 940

简易爬虫代理池
 
10.0 4.0
  9天前
126 2.7k 318

G 各种不同语言实现的爬虫程序和爬虫框架集合
 
10.0 0.5
  21天前
Popular
221 2.3k 688

X 新浪微博爬虫(分布式),部署简单,接口丰富,文档详细,视频支持,可灵活定制满足自己的需求。抓取内容(PC端)包括微博用户资料、特定关键词微博、用户主页所有微博、评论信息和转发信息。欢迎watch跟进
 
9.5 6.2
  6天前
Popular
222 2.3k 685

Y 一个采用celery和requests构建的微博分布式爬虫
 
9.5 9.200000000000001
  6天前
1.7k 26.9k 6.7k

S Scrapy:一个快速高级的网站截图和网页采集框架
 
9.0 2.7
95 914 365

P PSpider - Python3下极为简洁的爬虫框架
 
2.8000000000000003 4.0
  3天前
24 883 52

S Sukhoi 简约和强大的Web爬虫
 
2.8000000000000003 0.0
187 875 478

E 实时获取新浪 / Leverfun 的免费股票以及 level2 十档行情 / 集思路的分级基金行情
 
2.7 4.3
  11天前
48 848 137

F fake-useragent 伪装浏览器身份,常用于爬虫。这个项目的代码很少,可以阅读一下,看看 ua.random 是如何返回随机的浏览器身份的
 
2.6 0.0
  2月前
75 723 251

D django-dynamic-scraper - 通过Django管理界面创建爬虫
 
2.2 0.0
  5月前
71 660 354

P Python爬虫,京东自动登录,在线抢购商品
 
2.1 0.0
  4月前
55 662 194

P 爬取微信公众号文章
 
2.0 0.0
  2年前
140 654 136

C crawl-frontier-一个灵活前沿的web 抓取框架
 
2.0 4.2
35 424 206

QQ Groups Spider(QQ 群爬虫)
 
1.3 0.0
  3月前
41 413 133

Z 知乎爬虫(验证码自动识别)
 
1.3 0.0
  1年前