我现在在写一个爬取全市餐厅的爬虫,精确到商圈
入口是:全市餐厅的列表页
我目前的做法是:
1.获取每个区所有餐厅的 url(是一个列表页)
2.通过区 url 列表页获取下属商圈的 url
3.同时将市-区-商圈,单独一个 mysql 表建立了联动
4.将商圈的 url 和 name 转 json 放入 redis 队列
5.多线程 lpop 出来之后获取商圈所需要的信息
现在遇到的问题是:
再一次重新爬取,我没法区分商圈内哪些餐厅以前爬取过
leader 的意思是修改我的逻辑
不使用 redis,直接存 mysql,加个标志
每次用 select top 取出来,然后操作完再 update 标志,记录爬过
然后每次从 mysql 取,遇到爬过的就略过
我现在有点犹豫:
各位帮我解解?
入口是:全市餐厅的列表页
我目前的做法是:
1.获取每个区所有餐厅的 url(是一个列表页)
2.通过区 url 列表页获取下属商圈的 url
3.同时将市-区-商圈,单独一个 mysql 表建立了联动
4.将商圈的 url 和 name 转 json 放入 redis 队列
5.多线程 lpop 出来之后获取商圈所需要的信息
现在遇到的问题是:
再一次重新爬取,我没法区分商圈内哪些餐厅以前爬取过
leader 的意思是修改我的逻辑
不使用 redis,直接存 mysql,加个标志
每次用 select top 取出来,然后操作完再 update 标志,记录爬过
然后每次从 mysql 取,遇到爬过的就略过
我现在有点犹豫:
各位帮我解解?
