网页爬虫学习笔记-零章
网页爬虫学习笔记-零章

网页爬虫学习笔记-零章

爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。Python 爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。

目前我在网上的学习的爬虫教程有两种:

  • 第一种是通过Urllib 和 BeautifulSoup。主要针对直接爬取网页数据内容的场景,体现在不用对网页进行键鼠操作,且抓取的数据量较大。基本的操作流程逻辑是:1.将自己的Python代码通过参数伪装成正常的浏览器访问,2.通过改变对Url(及直接操作浏览器输入框网址)来抓取浏览器的所有内容,3.通过RE正则匹配去获得批量的数据,4.将数据保存输出。例如对豆瓣电影TOP250排行数据进行爬取,在豆瓣的这个网页中,只需要不断改变前后页就可以得到所有排行的数据,不需要模拟键鼠操作,只需要在输入框改变参数(https://movie.douban.com/top250?start=25&filter=),之后在网页元素中取出想要的数据,然后重复操作这个步骤即可。
  • 第二种是通过Selenium。Selenium更像主流Python爬虫使用方法,其中涵盖很多函数可以对网页进行模拟键鼠的操作,相比第一种方法,对新手更加友好而且功能也更加强大。网上的抢票软件、自动签到和爬取信息很多都是通过Selenium实现的,而且也有丰富的资源。基本的操作流程逻辑是:1.依据你人工的在网页上的每一步行为,2.通过代码描述出来,3.让程序依次去执行并输出结果。

这是我基于自己的学习对两个包的主观比较,不下绝对的判断。大家还是需要依据自己的喜好来选择学习路径,毕竟条条大路通罗马😆,也欢迎阅读我后续Python爬虫的笔记

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注