Web爬虫 - 抓取网站内容的库

分类 - 设置更多关注

排序

按热度排序
155 3.4k 406

G 各种不同语言实现的爬虫程序和爬虫框架集合
 
0.1 0.2
  1月前
278 3.4k 956

Y 一个采用celery和requests构建的微博分布式爬虫
 
0.1 0.2
  1月前
277 3.4k 953

X 新浪微博爬虫(分布式),部署简单,接口丰富,文档详细,视频支持,可灵活定制满足自己的需求。抓取内容(PC端)包括微博用户资料、特定关键词微博、用户主页所有微博、评论信息和转发信息。欢迎watch跟进
 
0.1 0.2
  1月前
202 3.1k 1k

J 基于搜狗微信搜索的微信公众号爬虫接口
 
0.1 0.0
238 2.5k 1.3k

X 此项目和QQ空间爬虫类似,主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注(详细见此)。
 
0.1 0.0
  1年前
181 2.2k 474

微博终结者爬虫
 
0.1 0.0
  1年前
176 2k 746

一个爬取微信公众号文章的爬虫
 
0.1 0.0
  2年前
81 1.8k 184

G Gain 采用asyncio, uvloop和aiohttp编写的Web爬虫框架
 
0.1 0.0
  1年前
199 3.3k 715

H Html内容/文章提取器,Python中的web爬虫
 
0.0 0.0
  3年前
357 3k 1.6k

S 使用scrapy,redis, mongodb,graphite实现的一个分布式网络爬虫,底层存储mongodb集群,分布式使用redis实现,爬虫状态显示使用graphite实现
 
0.0 0.0
  5年前
190 2k 847

H zhihu-python 采用 Python2.7 编写,用来方便地获取知乎上各种内容的信息,并且可以方便地将答案备份导出为 txt 或 markdown 文件。由于知乎官方目前没有提供 api,所以有了此项目的存在。
 
0.0 0.0
  2年前
167 1.9k 597

Facebook页面的数据爬虫
 
0.0 0.0
  1年前
131 1.6k 231

S scrapely:一个纯python实现的HTML屏幕抓取库。
 
0.0 0.0
  1年前
139 1.4k 313

O OnionScan,一个暗网的扫描和爬虫工具。可以用它来扫描暗网中的隐藏服务,并收集一些潜在的泄漏数据。除此之外,OnionScan也可以帮助你搜索出各种匿名服务的标识,例如比特币钱包地址、PGP密钥、以及电子邮件地址等等。
 
59 1.4k 210

F fake-useragent 伪装浏览器身份,常用于爬虫。这个项目的代码很少,可以阅读一下,看看 ua.random 是如何返回随机的浏览器身份的
 
0.0 0.0
  2月前
140 1.4k 818

豆瓣读书的爬虫
 
0.0 0.0
  3月前
214 1.3k 590

E 实时获取新浪 / Leverfun 的免费股票以及 level2 十档行情 / 集思路的分级基金行情
 
0.0 0.8
  7天前