导读:网络爬虫也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理。在大数据时代,信息的采集是一项重要的工作,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高。

1.简介

a.什么是爬虫?

  • 简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。

b.为什么使用Python语言?

  • 简单易用、功能强大。

人生苦短,我用Python。

c.如何学习本套入门级爬虫教学?

  • 首先要学会最最最基本的python语言。

  • 了解一点简单的html与css。(左转移步w3cshool)

    • 这里强调一下,这一步学习是为了明白网页的构成。在后期学习中,会使你事半功倍。
  • 简单浏览一下我的教程。
    • 为什么说简单浏览呢,这个随着学习就会明白了。
  • 实战
    • 最后会写几个实战的案例,跟着案例从头到尾敲下来。思考出现的每一个问题,有精力的可以尝试变换不同写法。如果有问题的同学欢迎在文章下面的评论区留言。

2.安装

a.Python环境安装:

  • 请移步到Python下载

  • 新版Python在安装完毕后自动添加环境变量,如果没有添加请手动添加。

  • 配置pip源

    • 有些时候使用默认源下载速度堪忧,所以这时候为了保证下载速度能看的过去,我们自己需要手动修改默认源。

    • Linux用户:

    • vim ~/.pip/pip.conf #这一步是使用vim创建新文件,不要将这句拷贝到文件内。

    • #添加或者修改为如下内容:
      [global]
      index-url = https://pypi.tuna.tsinghua.edu.cn/simple
      [install]
      trusted-host=mirrors.aliyun.com
      #注意:新版的ubuntu系统需要使用https的pip源
      
  • Windows用户:

    • 在C盘自己账户下新建一个pip目录。
    • 切换到 C:\Users\xx账户\pip下
    • 新建文件pip.ini,里面内容同上。
  • 如果你不想改 pip -i 某个国内源地址
    • 例如: pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple
  • 国内源汇总(个人推荐清华源速度最稳定):
    • 清华 : https://pypi.tuna.tsinghua.edu.cn/simple
    • 豆瓣:http://pypi.douban.com/simple/
    • 阿里云:http://mirrors.aliyun.com/pypi/simple/
    • 中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/

b.安装一些第三方库

  • python之所以强大就是在于第三方库的众多。
  • 首先我们需要安装一些常用的库。
    • Win + R 键 输入cmd。
    • pip install requests
    • pip install lxml
    • pip install beautifulsoup4
    • pip install selenium

3.总结

  • 本篇教程讲解了爬虫的基础知识与需要配置的一些环境。
  • 下一篇我们开始进行爬虫的基础知识学习。

在祖国东南角在读大二软工Coder,希望成为一名Hacker and AIer。