如何利用EasySwoole多进程多协程redis队列实现爬虫

北溟有鱼QAQ（LuffyQAQ）
2020-02-22 11:29:38
Swoole
php swoole easyswoole

什么是爬虫？

爬虫是一种按照一定的规则，自动地抓取网上数据的程序或脚本

爬虫之前的准备？

根据初始页面，制定规则获取更多的需要爬取的页面
根据页面内容制定规则，爬取想要的东西

用到的组件及框架

EasySwoole框架 https://www.easyswoole.com/
redis连接池组件 https://www.easyswoole.com/Cn/Components/redisPool.html
协程HTTPClient组件 https://www.easyswoole.com/Cn/Components/HttpClient/install.html
QueryList规则采集工具 http://www.querylist.cc/docs/guide/v4/overview

根据页面内容制定规则

// 开始生产,根据内容，设置规则
libxml_use_internal_errors(true);
$ql = QueryList::html($body);
//获取当前页面所有的图片
$rules = [
	'src' => ['.list ul img', 'src'],
	'alt' => ['.list ul img', 'alt'],
         ];
//获取下个页面要爬取的地址链接
$nextUrl = $ql->find('.page .prev')->eq(1)->attr('href');
$imgList = $ql->rules($rules)->encoding('UTF-8','GB2312')->query()->getData()->all();

然后分别入队列

foreach ($imgList as $img)
{
	RedisQueue::getInstance()->push(CONSUME,$img);
}
//要爬取的页数,没有则停止生产
if(empty($nextUrl))
{
	\co::sleep(1);
	continue;
}
Logger::getInstance()->console($nextUrl);
//页面中的爬取链接不带host，要拼接上
RedisQueue::getInstance()->push(QueueName,'http://www.netbian.com'.$nextUrl);
\co::sleep(0.5);

其次就可以看到效果图了

爬取了大概三千多张图片，用时几分钟，本爬虫框架仅供学习参考，切不可以用于非法用途

此爬虫代码以开源，并在GitHub开源地址上，欢迎学习start

本文为北溟有鱼QAQ原创文章,转载无需和我联系,但请注明来自北溟有鱼QAQ https://www.amdzz.cn

上一篇： EasySwoole中利用redis实现消息队列
下一篇： Easyswoole下Crontab定时器如何实现奇偶数时间分别运行不用的定时任务

北溟有鱼QAQ博客

请先登录后发表评论

最新评论
总共0条评论

加入组织

1. 微信扫左侧二维码

2. 微信搜索 :北溟有鱼QAQ

微信公众号以及捐赠地址

热门标签

最新评论

Silence2021-09-07 15:35:06
评论Linux进程通信之消息队列
大佬真棒

鸡蛋羹2021-03-11 11:54:42
评论pcntl_exec函数的作用以及用法
windows.location.href="https://xueyuanju...

mobaijun2020-05-09 16:26:00
评论Nginx下实现授权访问下载
过来瞅瞅,大佬,抽空可以修改一下我的博客连接,最近更换了域名,修改为:https...

@揪2020-04-30 16:24:45
评论Nginx下实现授权访问下载
过来蹭一蹭

LuffyQAQ2019-11-06 17:09:49
评论EasySwoole中连接池为空的原因

qiaoanqiao2019-11-06 17:08:38
评论EasySwoole中连接池为空的原因
池子没了,我使用原生连接代替

LuffyQAQ2019-08-30 18:04:15
评论利用Swoole实现简单IM聊天
就是简单的实现，希望能对你有帮助

静笔译安生2019-08-30 17:57:51
评论利用Swoole实现简单IM聊天
牛逼

北溟有鱼QAQ(张松)2019-08-28 14:54:25
评论设计模式之单例模式

LuffyQAQ2019-08-28 14:52:59
评论设计模式之单例模式
6666666666666

LuffyQAQ2019-07-06 09:14:49
评论PHP常用字符串
第一篇博客，点个赞

友情链接

iuu's Blog 风雪之隅仙士可博客白俊遥博客 Rango博客依然范儿特西沈唁志博客 Siam博客喵星球小周博客杨攀遥的博客框架师洋漾游鱼够意思博客 Binz’s Blog CHARLES的小星球三叔的博客更多