2020.6.3 爬虫

发布于 2020-06-03  61 次阅读


Table of Contents

  • 确定爬取url网址
  • 请求url地址发出请求,获取网站响应内容
  • 从响应内容提取数据
    • 保存数据,继续找url网站开始循环执行
  • 爬虫请求模块

    • 标准库 urllib.request

      • 导入模块名:from urllib import request
      • 常用方法详解:
        • request.urlopen(url,timeout) 打开请求,可以打开request.Request
        • request.Request(url,header={}) 伪造请求头等参数
        • geturl() 返回实际数据url
        • getcode() 返回状态码,判断状态码来操作
    • 网址中文解析

      • urllib.parse
        • 常用方法 urlencode({dict})
          • urlencode把字典中的中文进行编码,自动添加&
      • urllib.parse 、
        • 常用方法 quote方法
          • string = quote(string) 返回一个编码之后的字符串
        • 常用方法 unquote方法
          • string = unquote(string) 解码
  • 4.扩展延伸知识

    • python open编码注意事项

      • html文件中,指定了编码 一般都是charset=utf-8
      • open(“filename”,”w”,encoding=”utf-8”)
      • Linux默认是utf-8
      • windows 一般是gbk
        • gbk gb2312 gb18030 最后一个最厉害
    • python 时刻记得range用法

      • range是有闭区间的,不包括结尾,从零开始
      • 切片类似长度,写到几就是几
    • 正则表达式 贪婪非贪婪模式

      • 推荐:非贪婪 *? +? ??
      • 贪婪是 * + ?
    • python 元组可以添加元素

      • tuple = ()
      • tuple += (1,2,3)

    5.知识内容个人梳理

    6.今天都复习了之前的什么内容