微信爬虫小程序
*抓取爬虫微信小程序,页面显示抓取的热门资讯,后台同时开源,增加一个咨询只需要实现一个接口即可,接口简单适合新手入门学习。已实现抓取热搜榜如下 百度,知乎,头条,微博,SAnBlog,妹子图
微信小程序 autohot(前端)
示例
介绍
抓取爬虫微信小程序,页面显示抓取的热门资讯,后台同时开源,增加一个咨询只需要实现一个接口即可,接口简单适合新手入门学习。 后台同时开源地址:https://gitee.com/SAnBlog/vx_autocrawler
说明
- 首页每个按钮均为不同热门,点击展示不同热门数据,数据一次性加载全部。
- 后台默认第一次抓取数据时缓存到内存(时效一个小时)。
- 接口返回图片url时展示图片,否则无。
使用
- 克隆本项目代码到本地
git clone https://gitee.com/SAnBlog/autohot.git
cd autohot
- 打开微信开发者工具;
- 添加项目->选择本项目目录->编译执行;
预览
界面简陋,请多包涵。 图片在image目录下
https://gitee.com/SAnBlog/vx_autohot/blob/master/image/1.png
https://gitee.com/SAnBlog/vx_autohot/blob/master/image/2.png
https://gitee.com/SAnBlog/vx_autohot/blob/master/image/3.png
资源
微信小程序 vx_autocrawler(后台)
介绍
微信小程序抓取爬虫项目后台,只需要实现一个接口即可实现一个抓取。无需管理调度,简单强大。
微信小程序
https://gitee.com/SAnBlog/vx_autohot
安装教程
- jdk8
- LomBok
功能
抓取调度部分使用爬虫框架,基于springboot Earth:https://gitee.com/SAnBlog/Earth
已实现抓取热搜榜如下 百度,知乎,头条,微博,SAnBlog,妹子图
示例
一个妹子图抓取的完整代码,如果想爬整站请参考Earth:https://gitee.com/SAnBlog/Earth
/**
* @Author: shouliang.wang
* @Date: 2019-02-21 21:09:25
* @Description: https://www.mzitu.com/xinggan/
*/
public class Mzitu2Processor implements IProcessor {
@Override
public void process(Response response) {
Document document = response.getDocument();
/**
* 图片地址提取规则
*/
List<ByteBean> resultList = Lists.newArrayList();
document.getElementsByTag("img").forEach(element -> {
String img = element.attr("data-original");
if (StringUtils.isNotEmpty(img)) {
String alt = element.attr("alt");
ByteBean byteBean = ByteBean.builder().name(UUID.randomUUID().toString().replace("-", "")).url(img).alias(alt).build();
resultList.add(byteBean);
}
});
response.getResultField().getFields().put(FieldEnum.BYTE, PipelineExt.builder().byteBeans(resultList).build());
}
@Override
public String name() {
return "mzitu";
}
}
vx_autocrawler-pi(树莓派shell)
介绍
基于微信小程序抓取爬虫项目后台修改,只需要实现一个接口即可实现一个抓取。无需管理调度,简单强大。
部署教程
效果图
https://img-1251747095.file.myqcloud.com/img/20200624210130.jpg
微信小程序
https://gitee.com/SAnBlog/vx_autocrawler
安装教程
- jdk8
- LomBok
功能
抓取调度部分使用爬虫框架,基于springboot Earth:https://gitee.com/SAnBlog/Earth
已实现抓取热搜榜如下 百度,知乎,头条,微博,SAnBlog,妹子图
示例
一个妹子图抓取的完整代码,如果想爬整站请参考Earth:https://gitee.com/SAnBlog/Earth
/**
* @Author: shouliang.wang
* @Date: 2019-02-21 21:09:25
* @Description: https://www.mzitu.com/xinggan/
*/
public class Mzitu2Processor implements IProcessor {
@Override
public void process(Response response) {
Document document = response.getDocument();
/**
* 图片地址提取规则
*/
List<ByteBean> resultList = Lists.newArrayList();
document.getElementsByTag("img").forEach(element -> {
String img = element.attr("data-original");
if (StringUtils.isNotEmpty(img)) {
String alt = element.attr("alt");
ByteBean byteBean = ByteBean.builder().name(UUID.randomUUID().toString().replace("-", "")).url(img).alias(alt).build();
resultList.add(byteBean);
}
});
response.getResultField().getFields().put(FieldEnum.BYTE, PipelineExt.builder().byteBeans(resultList).build());
}
@Override
public String name() {
return "mzitu";
}
}
本文由 SAn 创作,采用 知识共享署名4.0 国际许可协议进行许可
本站文章除注明转载/出处外,均为本站原创或翻译,转载前请务必署名
最后编辑时间为:
2020/10/16 16:22