网页爬虫学习笔记-零章 – 隔壁老王的杂货铺

爬虫：一段自动抓取互联网信息的程序，从互联网上抓取对于我们有价值的信息。Python 爬虫架构主要由五个部分组成，分别是调度器、URL管理器、网页下载器、网页解析器、应用程序（爬取的有价值数据）。

目前我在网上的学习的爬虫教程有两种：

第一种是通过Urllib 和 BeautifulSoup。主要针对直接爬取网页数据内容的场景，体现在不用对网页进行键鼠操作，且抓取的数据量较大。基本的操作流程逻辑是：1.将自己的Python代码通过参数伪装成正常的浏览器访问，2.通过改变对Url（及直接操作浏览器输入框网址）来抓取浏览器的所有内容，3.通过RE正则匹配去获得批量的数据，4.将数据保存输出。例如对豆瓣电影TOP250排行数据进行爬取，在豆瓣的这个网页中，只需要不断改变前后页就可以得到所有排行的数据，不需要模拟键鼠操作，只需要在输入框改变参数（https://movie.douban.com/top250?start=25&filter=），之后在网页元素中取出想要的数据，然后重复操作这个步骤即可。
第二种是通过Selenium。Selenium更像主流Python爬虫使用方法，其中涵盖很多函数可以对网页进行模拟键鼠的操作，相比第一种方法，对新手更加友好而且功能也更加强大。网上的抢票软件、自动签到和爬取信息很多都是通过Selenium实现的，而且也有丰富的资源。基本的操作流程逻辑是：1.依据你人工的在网页上的每一步行为，2.通过代码描述出来，3.让程序依次去执行并输出结果。

这是我基于自己的学习对两个包的主观比较，不下绝对的判断。大家还是需要依据自己的喜好来选择学习路径，毕竟条条大路通罗马😆，也欢迎阅读我后续Python爬虫的笔记