快捷搜索:

学习Python的第43天,我终于走上了研究爬虫的正确

前阵子一直看我文章的人都感觉到了,我有点迷茫。

虽然确定了以项目带动学习的思路,但是一直也不知道弄啥项目好。

所以前两天文章都有点水,只能靠我老婆的颜值吸引大家了。

学习Python的第43天,我终于走上了研究爬虫的正确

好在今天终于找到了方向。

课程介绍

在b站上发现了一个讲爬虫的视频,看了一会感觉非常适合我。

教程是面向成都工业大学2016级学生的数字媒体专业实训课程。

课程名称是:Python爬虫和数据可视化

这个教程有俩优点:

一个是内容非常新,疫情期间录制的,应该是至今为止我见到的最新的教程了。

再有,因为是面向学生讲的,大部分大学生的水平,嗯,都是从那时候过来的,大家心里都明白。

学习Python的第43天,我终于走上了研究爬虫的正确

简单来说,就是面向小白的,而且还考虑到以后学生就业的问题,所以内容可以说是很贴合实际了。

讲师叫李巍,他说自己上次非典时候还在上大学,看来跟我是同龄人。

现在人家当老师讲课,我却在下面当学生听课。

这就是社会对我的毒打吧。

学习Python的第43天,我终于走上了研究爬虫的正确

课程前面都是Python基础内容,这个对我没啥意义,直接开始从第15集《Python爬虫介绍》开始看就好了。

15集一开始,老师就说,以后主要讲项目,碰到具体问题再讲知识点。

不错,正符合我以项目带动学习的思路。


任务介绍

本次要做的任务是:爬取豆瓣电影Top250的基本信息,包括电影的名称、豆瓣评分、评价数、电影概况、电影链接等

我看了一下,这个内容一共需要讲26集,每集20分钟—40分钟不等,如果按照一天2-3集的速度看,嗯,这基本上又是半个月的时间了。

不过,如果要是用半个月能把豆瓣爬下来,貌似也很爽啊!

学习Python的第43天,我终于走上了研究爬虫的正确

下面这个页面我们应该很熟悉了,这三部电影请问还有没看过的老铁吗?

如果还有没看过的,快去看,就现在!

真的好,听我一句劝,看完你会感谢我的。

学习Python的第43天,我终于走上了研究爬虫的正确

爬虫初识

这里老师以电影天堂举例说明这网站的内容都是从豆瓣爬过来的,告诉我们爬虫无处不在。

说实话,我一直以为这网站已经没了呢,百度指数15万我是真没想到。

学习Python的第43天,我终于走上了研究爬虫的正确

还有天眼查更是典型案例了。

马爸爸竟然有82家公司,真的恐怖。

学习Python的第43天,我终于走上了研究爬虫的正确

天眼查的最主要业务数据采集、数据清洗、数据聚合,这就是爬虫的主要功能嘛。

爬虫已经有20年以上的历史,最近随着大数据又火起来了。

爬虫可以爬取图片、视频等,只要你能通过浏览器访问的数据,都可以通过爬虫获取。

爬虫的本质就是模拟浏览器打开网页,获取网页中我们想要的那部分数据。

学习Python的第43天,我终于走上了研究爬虫的正确

搜索引擎的本质实际上也是爬虫的应用。

学习Python的第43天,我终于走上了研究爬虫的正确

基本流程

以后的讲课内容,主要分为四步:

准备工作:通过浏览器查看分析目标网页,学习编程基础规范。

获取数据:通过HTTP库想目标站点发送请求,请求可以包含额外的header等信息,如果服务器能正常响应,会得到一个Response,便是所要获取的页面内容。

解析内容:得到的内容可能是HTML、json等格式,可以用页面解析库、正则表达式等进行解析。

保存数据:保存形式多样,可以存为文本,也可以保存到数据库,或者保存特定格式的文件。

嗯,感觉这个过程下来,全学明白的话,应该就能算个爬虫新秀了吧。

学习Python的第43天,我终于走上了研究爬虫的正确

作者简介:冯十一,40岁仍然坚持学习的哏儿都老男人。多平台签约作者,日更写作践行者,每周阅读一本书。欢迎关注@天津冯十一

您可能还会对下面的文章感兴趣: