Web爬虫 - 抓取网站内容的库

分类 - 设置更多关注

排序

按热度排序
390 5.2k 782

P portia:Scrapy 可视化爬取
 
10.0 2.2
622 3.4k 1.7k

T TuShare是实现对股票/期货等金融数据从**数据采集**、**清洗加工** 到 **数据存储**过程的工具
 
10.0 5.300000000000001
152 2.4k 491

? 🔞 全球最大成人网站PornHub爬虫 (Scrapy、MongoDB) 一天500w的海量数据
 
10.0 4.699999999999999
  5天前
Popular
1.5k 21.2k 5.6k

S Scrapy:一个快速高级的网站截图和网页采集框架
 
9.0 8.7
33 860 46

Gain:基于 asyncio, uvloop 和 aiohttp 的 Python 爬虫框架
 
3.5999999999999996 10.0
  7天前
33 851 44

G Gain 采用asyncio, uvloop和aiohttp编写的Web爬虫框架
 
3.5999999999999996 10.0
  7天前
92 998 341

一个爬取微信公众号文章的爬虫
 
3.1 0.0
  6月前
81 942 331

简易爬虫代理池
 
3.0 4.5
  7天前
77 882 309

J 基于搜狗微信搜索的微信公众号爬虫接口
 
2.7 0.7000000000000001
109 868 405

豆瓣读书的爬虫
 
2.7 0.0
  3月前
78 798 275

S 收集各种爬虫 (默认爬虫语言为 python)
 
2.5 5.300000000000001
  5天前
35 766 201

B 「一个」、「Time 时光」、「有道词典」、「微软必应词典」、「豆瓣电影」、「中央天气」、「小米天气」、「魅族天气」、「每日一文」、「12306」、「途牛」、「快递100」、「快递」应用 Api。仅供学习,禁止商业使用,侵权请联系删除。
 
2.5 1.2
  9天前
73 658 269

P PSpider - Python3下极为简洁的爬虫框架
 
2.1 4.5
  5天前
50 603 171

P 爬取微信公众号文章
 
1.7999999999999998 0.0
  1年前
59 586 218

D django-dynamic-scraper - 通过Django管理界面创建爬虫
 
1.7999999999999998 8.2
  15天前
123 466 114

C crawl-frontier-一个灵活前沿的web 抓取框架
 
1.4000000000000001 1.2
27 379 71

F fake-useragent 伪装浏览器身份,常用于爬虫。这个项目的代码很少,可以阅读一下,看看 ua.random 是如何返回随机的浏览器身份的
 
1.1 0.0
  2月前
39 335 48

M Malspider是一个网络爬虫框架,它检测网络依赖性的特点
 
1.0 0.0