前言
爬取meizitu全站图片并下载到本地,可以根据配置定时爬取下载。 开源地址:https://gitee.com/SAnSAni/meizitu
meizitu
项目介绍
爬取meizitu全站图片并下载到本地,可以根据配置定时爬取下载。 配合linux定时任务Crontab,可以每天定时爬取图片~
安装教程
1.clone项目到本地
git clone https://gitee.com/SAnSAni/meizitu
2.执行python命令
Scrapy crawl meizitu
使用说明
- 设置下载路径 setting.py 文件下:
IMAGES_STORE = 'E:\PythonProject\\'
- 设置读取要爬取页数
def readFile(self):
//请本地自己创建一个文件名为page,文本为页数。默认1
read=open("E:\PythonProject\page.txt")
page=read.read()
read.close()
return page
//爬取完后页数+1重写文件
def writeFile(self,page):
write = open("E:\PythonProject\page.txt",'w')
write.write(page)
write.close()
3.py目录下为py发送邮件脚本
可以在执行完毕爬虫任务后邮件通知自己~
4.task.sh linux shell脚本 Crontab定时任务执行task.sh 在爬虫执行完毕后自动发送邮件,根据自身项目修改里面的项目地址
/usr/local/myspider/project/meizitu/scrapy crawl meizitu
python /usr/local/myspider/project/shell/sendHTML.py
具体代码另一篇文章介绍 https://sanii.cn/article/225
总结
喜欢可以点个star哦~
本文由 SAn 创作,采用 知识共享署名4.0 国际许可协议进行许可
本站文章除注明转载/出处外,均为本站原创或翻译,转载前请务必署名
最后编辑时间为:
2018/04/29 18:56