2020年1月

前一篇文章中我介绍了多线程爬取网站的方法。实际上,单线程一次一次地获取网站页面和所谓“爬取”大相径庭,更不如说是“没有浏览器的访问”,而当我们采用了并发多线程的时候就成为了“爬取”。爬取信息需要遵守互联网法律法规,这篇文章我将会介绍一些爬虫要遵循的一些基本规定。

3840px--The_Earth_in_4k.webm.jpg

- 阅读剩余部分 -

在上一篇教程从零开始的爬虫教程(1)——从urllib开始中我简单地介绍了Python中使用urllib获取的方法,并介绍了根据已有链接列表批量获取网页的方法。但是在实际爬取TechPowerUp数据库的过程中,常常由于网络质量不佳,每次获取都需要大量的无效等待时间。在这篇教程中,我将会讲讲加速爬取的方法。注意,这篇文章不适用于Windows。我将会在不久后特别写一篇在Windows下加速爬取的方法。

google-logo-vendetta.jpg

- 阅读剩余部分 -

随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。在这样的背景下,网络爬虫(Internet Bot)应运而生。在本课程中我将会较为系统地介绍简单Python爬虫的制作。我们从爬取著名硬件测评网站TechPowerUp的GPU数据库开始。

1.jpg

- 阅读剩余部分 -