Web爬虫 - 抓取网站内容的库

分类 - 设置更多关注

排序

按热度排序
131 1.5k 230

S scrapely:一个纯python实现的HTML屏幕抓取库。
 
0.0 0.0
  1年前
135 1.4k 302

O OnionScan,一个暗网的扫描和爬虫工具。可以用它来扫描暗网中的隐藏服务,并收集一些潜在的泄漏数据。除此之外,OnionScan也可以帮助你搜索出各种匿名服务的标识,例如比特币钱包地址、PGP密钥、以及电子邮件地址等等。
 
132 1.4k 778

豆瓣读书的爬虫
 
0.0 0.5
  1月前
61 1.3k 192

F fake-useragent 伪装浏览器身份,常用于爬虫。这个项目的代码很少,可以阅读一下,看看 ua.random 是如何返回随机的浏览器身份的
 
0.0 0.0
  3月前
211 1.2k 566

E 实时获取新浪 / Leverfun 的免费股票以及 level2 十档行情 / 集思路的分级基金行情
 
0.0 0.0
  5月前
103 1.1k 392

P PSpider - Python3下极为简洁的爬虫框架
 
0.0 5.300000000000001
  前天
12 100 17

Y 一个从Wikileaks AKP leak抓取可能的恶意软件的工具
 
0.0 0.0
  2年前
4 98 57

F 分布式爬虫打造搜索引擎代码+教程
 
0.0 0.0
  4月前
14 94 45

W 微博主题搜索分析,上海租房
 
0.0 0.0
  2年前
4 85 11

Y 这是一个使用Python3编写的动漫之家的漫画批量下载器。相比于我之前所写过的几个爬虫,这个爬虫也是我第一次尝试全异步实现的一个爬虫例子,使用了aiohttp和aiofile这两个异步实现库来做支撑,相对于单线程爬虫和多线程爬虫
 
11 85 13

J Jabba-Webkit是一个无界面的 WebKit 浏览器,主要用来抓取Ajax网页
 
0.0 0.0
  4年前
10 82 66

Y 一个爬取企查查网站中所有中国企业与公司基本信息的爬虫程序
 
0.0 0.0
  1年前
17 80 34

D DataSpider 方便的使用各种爬虫数据
 
0.0 0.0
  1年前
6 79 42

S 使用selenium + PhantomJs搭建的简单漫画爬虫工具
 
0.0 0.0
  1年前
5 76 21

简书网的用户抓取分析
 
0.0 0.0
  1年前
10 75 54

使用python爬取mm图片
 
0.0 0.0
  1年前
9 75 31

X xcrawler一个基于Python requests库的轻量级Web爬虫框架
 
0.0 0.0
  1年前
8 75 29

J 基于Python3的动态网站爬虫,使用selenium+phantomjs实现爬取动态网站, 本项目以爬取今日头条为例
 
0.0 0.0
  9月前