Table of Contents
- 确定爬取url网址
- 请求url地址发出请求,获取网站响应内容
- 从响应内容提取数据
- 保存数据,继续找url网站开始循环执行
爬虫请求模块
-
标准库 urllib.request
- 导入模块名:from urllib import request
- 常用方法详解:
- request.urlopen(url,timeout) 打开请求,可以打开request.Request
- request.Request(url,header={}) 伪造请求头等参数
- geturl() 返回实际数据url
- getcode() 返回状态码,判断状态码来操作
-
网址中文解析
- urllib.parse
- 常用方法 urlencode({dict})
- urlencode把字典中的中文进行编码,自动添加&
- 常用方法 urlencode({dict})
- urllib.parse 、
- 常用方法 quote方法
- string = quote(string) 返回一个编码之后的字符串
- 常用方法 unquote方法
- string = unquote(string) 解码
- 常用方法 quote方法
- urllib.parse
4.扩展延伸知识
-
python open编码注意事项
- html文件中,指定了编码 一般都是charset=utf-8
- open(“filename”,”w”,encoding=”utf-8”)
- Linux默认是utf-8
- windows 一般是gbk
- gbk gb2312 gb18030 最后一个最厉害
-
python 时刻记得range用法
- range是有闭区间的,不包括结尾,从零开始
- 切片类似长度,写到几就是几
-
正则表达式 贪婪非贪婪模式
- 推荐:非贪婪 *? +? ??
- 贪婪是 * + ?
-
python 元组可以添加元素
- tuple = ()
- tuple += (1,2,3)
5.知识内容个人梳理
6.今天都复习了之前的什么内容
python open编码注意事项
- html文件中,指定了编码 一般都是charset=utf-8
- open(“filename”,”w”,encoding=”utf-8”)
- Linux默认是utf-8
- windows 一般是gbk
- gbk gb2312 gb18030 最后一个最厉害
python 时刻记得range用法
- range是有闭区间的,不包括结尾,从零开始
- 切片类似长度,写到几就是几
正则表达式 贪婪非贪婪模式
- 推荐:非贪婪 *? +? ??
- 贪婪是 * + ?
python 元组可以添加元素
- tuple = ()
- tuple += (1,2,3)
6.今天都复习了之前的什么内容