FAQ
6个步骤中前2个涉及到如何使用xpath parse http网页成python认识的数据结构,然后提取你想要的column,这里需要懂一些html和css的基本知识,同时需要了解xpath这个parser的使用
第三点其实是我认为最难的地方,翻页的时候那么你就需要首先找到下一页的链接,然后翻到下一页后重新做一遍你在前一页做过的事情,那么这个循环到底要怎么设置呢?需要怎么利用scrapy框架做呢?
第4点要把相关的信息存到mongoDB,多亿mongodb的cinnection和基本的操作要会,mongodb使用分成server端和client端,server端需要先launch保持active的状态,然后再在client端操作。而且mongodb也要从scrapy那里获得处理好的数据
5点,mongodb的数据需不需要根据展示的要求再处理?展示的时候又需要html和css的知识,需要鸡懂基本的前端,我当时用的是一个最简单的框架,只需要填一些参数就能展示了,框架名字我不记得了,要回去找给你们。对前端感兴趣的朋友可以更深入一点
当你要present你的结果的时候 你的html显示的结果就狠重要了,ppt只是起辅助作用,用于讲解你的爬虫的整个过程。讲解完了后一般都需要您当场跑一遍你的爬虫的
自动换ip的部分倒没什么好讲的,是属于scrapy的一部分,你需要先去上网找到一些能用的ip地址,越多越好,然后hard coded到scrapy的配置文件里,然后再enable这个feature,scrapy就自动帮你每次随机选择一个ip使用
很多team通过爬虫的数据做成了search 或者推荐系统 这都是基于爬虫的产品。 也有人自己做成了站点,然后通过镶嵌google adwords赚钱
前期的项目分工和计划书写要靠大家自己完成。我知道万事开头难,各位前期如果有关于project规划和流程方面的问题可以来问我。同时也希望大家能尽量保证每周至少meeting一次的频率用于交流项目。
根据以往的经验,一开始定下一个积极基调的队伍有很大的可能走到最后完成项目。所以前两次的meetings在我看来很重要。我当年是组长,前期吆喝了5遍开会的事情没有人理我,导致我最后孤苦伶仃一个人做的项目,非常辛苦。在太阁的分享例会上,有几个小组特别活跃,分工特别好又自觉又努力。这些小组最后不仅仅成功完成了项目,而且也发展了战友般的友谊,我各种羡慕嫉妒恨。
太阁提供的这一系列crawler视频是非常好的『基本素材』,我本身由于实力弱的原因而且一个人的原因,最后勉勉强强完成了视频里面所有的内容,但这就已经让我收获颇丰,了解了scrapy的框架,了解了python中的workflow概念,知道了generator和iteartor的实际使用方式。并且对前端也有了最基本的了解。我的建议是大家一开始要快速的了解太阁视频中的内容相对于自己水平的难度。如果很有难度就以完成太阁视频内容为目标,如果觉得简单,可以以太阁视频为基础添加更多更fancy的features,或者自己选择合适酷炫的框架做crawler也行【如果你都是这个水平了,我也帮不上什么忙了,反倒是代码可以分享我一份让我学习下么?:) 】
前置要求
- html
- http / REST (put get etc)
- Python