这几天我的笔记本电脑和台式机一起坏掉了,看看什么时候修好再来发博客。
在前一篇文章中我介绍了多线程爬取网站的方法。实际上,单线程一次一次地获取网站页面和所谓“爬取”大相径庭,更不如说是“没有浏览器的访问”,而当我们采用了并发多线程的时候就成为了“爬取”。爬取信息需要遵守互联网法律法规,这篇文章我将会介绍一些爬虫要遵循的一些基本规定。
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。在这样的背景下,网络爬虫(Internet Bot)应运而生。在本课程中我将会较为系统地介绍简单Python爬虫的制作。我们从爬取著名硬件测评网站TechPowerUp的GPU数据库开始。