学习Python的第43天，我终于走上了研究爬虫的正确

来源：财经网 2020-05-14 浏览

前阵子一直看我文章的人都感觉到了，我有点迷茫。

虽然确定了以项目带动学习的思路，但是一直也不知道弄啥项目好。

所以前两天文章都有点水，只能靠我老婆的颜值吸引大家了。

好在今天终于找到了方向。

课程介绍

在b站上发现了一个讲爬虫的视频，看了一会感觉非常适合我。

教程是面向成都工业大学2016级学生的数字媒体专业实训课程。

课程名称是：Python爬虫和数据可视化。

这个教程有俩优点：

一个是内容非常新，疫情期间录制的，应该是至今为止我见到的最新的教程了。

再有，因为是面向学生讲的，大部分大学生的水平，嗯，都是从那时候过来的，大家心里都明白。

简单来说，就是面向小白的，而且还考虑到以后学生就业的问题，所以内容可以说是很贴合实际了。

讲师叫李巍，他说自己上次非典时候还在上大学，看来跟我是同龄人。

现在人家当老师讲课，我却在下面当学生听课。

这就是社会对我的毒打吧。

课程前面都是Python基础内容，这个对我没啥意义，直接开始从第15集《Python爬虫介绍》开始看就好了。

15集一开始，老师就说，以后主要讲项目，碰到具体问题再讲知识点。

不错，正符合我以项目带动学习的思路。

任务介绍

本次要做的任务是：爬取豆瓣电影Top250的基本信息，包括电影的名称、豆瓣评分、评价数、电影概况、电影链接等。

我看了一下，这个内容一共需要讲26集，每集20分钟—40分钟不等，如果按照一天2-3集的速度看，嗯，这基本上又是半个月的时间了。

不过，如果要是用半个月能把豆瓣爬下来，貌似也很爽啊！

下面这个页面我们应该很熟悉了，这三部电影请问还有没看过的老铁吗？

如果还有没看过的，快去看，就现在！

真的好，听我一句劝，看完你会感谢我的。

爬虫初识

这里老师以电影天堂举例说明这网站的内容都是从豆瓣爬过来的，告诉我们爬虫无处不在。

说实话，我一直以为这网站已经没了呢，百度指数15万我是真没想到。

还有天眼查更是典型案例了。

马爸爸竟然有82家公司，真的恐怖。

天眼查的最主要业务数据采集、数据清洗、数据聚合，这就是爬虫的主要功能嘛。

爬虫已经有20年以上的历史，最近随着大数据又火起来了。

爬虫可以爬取图片、视频等，只要你能通过浏览器访问的数据，都可以通过爬虫获取。

爬虫的本质就是模拟浏览器打开网页，获取网页中我们想要的那部分数据。

搜索引擎的本质实际上也是爬虫的应用。

基本流程

以后的讲课内容，主要分为四步：

准备工作：通过浏览器查看分析目标网页，学习编程基础规范。

获取数据：通过HTTP库想目标站点发送请求，请求可以包含额外的header等信息，如果服务器能正常响应，会得到一个Response，便是所要获取的页面内容。

解析内容：得到的内容可能是HTML、json等格式，可以用页面解析库、正则表达式等进行解析。

保存数据：保存形式多样，可以存为文本，也可以保存到数据库，或者保存特定格式的文件。

嗯，感觉这个过程下来，全学明白的话，应该就能算个爬虫新秀了吧。

作者简介：冯十一，40岁仍然坚持学习的哏儿都老男人。多平台签约作者，日更写作践行者，每周阅读一本书。欢迎关注@天津冯十一

上一篇：如何优雅的让孩子看电视、玩电脑？这一个神器

下一篇：学爬虫的第48天，我打开bs4的大门，然后又被一脚

学习Python的第43天，我终于走上了研究爬虫的正确

您可能还会对下面的文章感兴趣：

推荐阅读