如何进行实时网络抓取？

- 从Web抓取开始

Web爬网是指从某些网站提取特定的HTML数据。简而言之，我们可以将网络爬虫视为一个特定的程序，旨在以定向和收集数据的方式抓取网站。但是，我们无法提前获取包含许多网页的网站中所有网页的URL地址。因此，关注我们的是如何从网站获取所有HTML网页。

- 通用Web爬虫算法

从一个名为种子的初始URL列表开始。
访问这些网址。
从页面中检索所需信息。
识别页面上的所有超链接。
将链接添加到URL队列，称为crawler frontier。
递归访问来自爬网程序边界的URL。

如何抓取网站

- 构建Web爬虫的两个主要步骤

要构建Web爬网程序，必须执行的步骤是下载Web页面。这并不容易，因为应考虑许多因素，例如如何更好地利用本地带宽，如何优化DNS查询，以及如何通过合理分配Web请求来释放服务器中的流量。我们获取Web后页面，HTML页面的复杂性分析紧随其后。事实上，我们无法直接获取所有HTML网页。此处还有另一个问题，即如何在动态网站的任何地方使用AJAX时检索由Javascript生成的内容。此外，互联网上频繁出现的蜘蛛陷阱会产生无数次请求或导致构造不良的爬虫崩溃。

虽然在构建网络爬虫时我们应该注意很多事情，但是，在大多数情况下，我们只想为特定网站创建一个抓取工具，而不是像Google抓取工具那样构建一个通用网站。因此，我们最好对目标网站的结构进行深入研究，并选择一些有价值的链接进行跟踪，以防止冗余或垃圾网址的额外成本。更重要的是，如果我们能够找到关于Web结构的正确爬行路径，我们可以尝试仅按照预定义的顺序从目标网站抓取我们感兴趣的内容。

例如，如果我们要抓取内容mindhack.cn，我们发现了两种我们感兴趣的页面：

1.文章列表，例如主页面，或带有/ page / \ d + /等的URL。

通过检查Firebug，我们可以发现每篇文章的链接都是h1下的“标签”。

2.文章内容，例如/ 2008/09/11 / machine-learning-and-ai-resources /，其中包括完整的文章内容。

因此，我们可以从主页面开始，并从入口页面检索其他链接 - wp-pagenavi。具体来说，我们需要定义一个路径：我们只关注下一页，这意味着我们可以从头到尾遍历所有页面，并且可以从重复判断中解脱出来。然后，列表页面中的具体文章链接将是我们要存储的URL。

- 一些爬行技巧