上一篇

2020.6.3 爬虫

发布于 2020-06-03 61 次阅读

Table of Contents

确定爬取url网址
请求url地址发出请求，获取网站响应内容
从响应内容提取数据
- 保存数据，继续找url网站开始循环执行

爬虫请求模块

标准库 urllib.request
- 导入模块名：from urllib import request
- 常用方法详解：
  - request.urlopen（url，timeout) 打开请求，可以打开request.Request
  - request.Request(url,header={}) 伪造请求头等参数
  - geturl() 返回实际数据url
  - getcode() 返回状态码，判断状态码来操作
网址中文解析
- urllib.parse
  - 常用方法 urlencode({dict})
    - urlencode把字典中的中文进行编码，自动添加&
- urllib.parse 、
  - 常用方法 quote方法
    - string = quote(string) 返回一个编码之后的字符串
  - 常用方法 unquote方法
    - string = unquote(string) 解码

4.扩展延伸知识

python open编码注意事项
- html文件中，指定了编码一般都是charset=utf-8
- open(“filename”,”w”,encoding=”utf-8”)
- Linux默认是utf-8
- windows 一般是gbk
  - gbk gb2312 gb18030 最后一个最厉害
python 时刻记得range用法
- range是有闭区间的，不包括结尾，从零开始
- 切片类似长度，写到几就是几
正则表达式贪婪非贪婪模式
- 推荐：非贪婪 *? +? ??
- 贪婪是 * + ?
python 元组可以添加元素
- tuple = ()
- tuple += (1,2,3)

5.知识内容个人梳理

6.今天都复习了之前的什么内容

上一篇文章

2020.6.3 Redis Day04

下一篇文章

2020.6.4 爬虫正则