Web爬虫 - 抓取网站内容的库

分类 - 设置更多关注

排序

按热度排序
190 2k 848

H zhihu-python 采用 Python2.7 编写,用来方便地获取知乎上各种内容的信息,并且可以方便地将答案备份导出为 txt 或 markdown 文件。由于知乎官方目前没有提供 api,所以有了此项目的存在。
 
0.0 0.0
  2年前
166 1.9k 612

Facebook页面的数据爬虫
 
0.0 0.0
  1年前
92 1.8k 227

G Grab:Web爬虫Python框架
 
0.0 0.8
149 1.6k 917

豆瓣读书的爬虫
 
0.0 0.0
  6月前
130 1.6k 233

S scrapely:一个纯python实现的HTML屏幕抓取库。
 
0.0 0.0
  1年前
61 1.6k 235

F fake-useragent 伪装浏览器身份,常用于爬虫。这个项目的代码很少,可以阅读一下,看看 ua.random 是如何返回随机的浏览器身份的
 
0.0 0.0
  5月前
224 1.5k 642

E 实时获取新浪 / Leverfun 的免费股票以及 level2 十档行情 / 集思路的分级基金行情
 
0.0 0.0
  2月前
103 1.3k 425

P PSpider - Python3下极为简洁的爬虫框架
 
0.0 0.7
  5天前
61 1.1k 239

L 链家网和贝壳网房价爬虫,采集北京上海广州深圳等21个中国主要城市的房价数据(小区,二手房,出租房,新房),稳定可靠快速!支持csv,MySQL, MongoDB,Excel, json存储,支持Python2和3,图表展示数据,注释丰富 🚁,点星支持
 
0.0 0.0
  4月前
12 100 17

Y 一个从Wikileaks AKP leak抓取可能的恶意软件的工具
 
0.0 0.0
  2年前
9 95 37

J 基于Python3的动态网站爬虫,使用selenium+phantomjs实现爬取动态网站, 本项目以爬取今日头条为例
 
0.0 0.0
  1年前
13 95 45

W 微博主题搜索分析,上海租房
 
0.0 0.0
  2年前
3 94 14

Y 这是一个使用Python3编写的动漫之家的漫画批量下载器。相比于我之前所写过的几个爬虫,这个爬虫也是我第一次尝试全异步实现的一个爬虫例子,使用了aiohttp和aiofile这两个异步实现库来做支撑,相对于单线程爬虫和多线程爬虫
 
4 89 22

S scrapy-redis的集群版,可以借助Redis集群实现海量网站的独立去重,避免单机内存不足的尴尬
 
0.0 0.0
  11月前
9 88 26

S scrapy-monitor,实现爬虫可视化,监控实时状态
 
0.0 0.0
  2年前
10 85 13

J Jabba-Webkit是一个无界面的 WebKit 浏览器,主要用来抓取Ajax网页
 
0.0 0.0
  4年前
11 84 56

使用python爬取mm图片
 
0.0 0.0
  2年前