1. 首页 > 电脑 >

json注释 json注释符号

用python写爬虫有哪些框架?

以下是搜索来源于网络:

json注释 json注释符号json注释 json注释符号


2)Crawley: 高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为JSON、XML等

31)Scrapy:很强大的爬虫框架,可以满足简单的页面爬取(比如可以明确获知 pattern的情况)。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如weibo的页面信息,这个框架就满足不了需求了。)Portia:可视化爬取网页内容

5)python-goose:ja写的文章提取工具

6)Beautiful Soup:名气大,整合了一些常用爬虫需求。缺点:不能加载JS。

7)mechanize:优点:可以加载JS。缺点:文档缺失。不过通过的example以及人肉尝试的方法,还是勉强能用的。

8)selenium:这是一个调用浏览器的driver,通过这个库你可以直接调用浏览器完成某些作,比如输入。

9)cola:一个分布式爬虫框架。项目整体设计有点糟,模块间耦合度较高。

最强大的框架毫无疑问是Scrapy,简单点的框架有pyspider,这是人开发的框架,带有WEB UI界4)news:提取、文章以及内容分析面。

框架功能强大,一般个人的小项目用不到框架,可以尝试一些简单的爬虫库,比如requests、pyppeteer、aio,后两者需要asyncio相关的知识。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 12345678@qq.com 举报,一经查实,本站将立刻删除。

联系我们

工作日:9:30-18:30,节假日休息