阅读(261) (1)

简介

2019-03-22 11:22:39 更新

简介

colly是快如闪电而优雅的爬虫框架,提供简洁的API能够帮助你构建爬虫应用。使用Colly,你可以轻松地从网站中提取结构化数据,这些数据可用于广泛的应用程序,如数据挖掘,数据处理或归档。

特性

- 简单的API
- 快速(单核上> 1k请求/秒)
- 控制请求延迟和每个域名的最大并发数
- 自动cookie和session处理
- 同步/异步/并行抓取
- 高速缓存
- 对非unicode响应自动编码
- Robots.txt支持
- 分布式抓取
- 支持通过环境变量配置
- 随意扩展