如何设计Crawler（一）实战页面分析

通过『三步握手』机制实现

socket(abstract layer)这一层实际并不存在，它是对下层的封装，从此不需要对底层进行直接操作，只需要使用socket的API就能够建立并管理相关的通信

HTML就是一种用于描述网页内容的标记语言比如下图右下角的图片在网页端就是通过左上部分的HTML代码表示出来的。打个比方，HTML就像是一种树状结构，它描述了人体【网页】的各个部位。

每个网站都有自己的crawler, 但是当爬完一个网站后，那个爬虫就被闲置，然后浪费了资源空间

解决方案：设计通用型的crawler

python爬虫易上手

python是一个非常简洁的语言，以它为基础的爬虫框架比如scrapy是很好的学习爬虫的工具 socket连接三握手
建立client和server的连接分析page要动手
如果你再分析下，你能发现下一页的link实际上只有ID在自增，所以你其实不需要list crawler，只需要不停的改变ID就能爬到下一页的数据 taskTable在我手
理解分布式的通用爬虫调度

4.爬虫扩展