爬取两万多租房数据，告诉你广州房租现状

发布时间：2018-12-24 16:43:25 所属栏目：教程来源：zone7

导读：副标题#e# 概述前言统计结果爬虫代码实现爬虫分析实现后记前言建议在看这篇文章之前，请看完这三篇文章，因为本文是依赖于前三篇文章的：爬虫利器初体验(1) 听说你的爬虫又被封了?(2) 爬取数据不保存，就是耍流氓(3) 八月份的时候，由于脑洞大开，

先解析首页 url

def head_url_callback(self, response): 
    soup = BeautifulSoup(response.body, "html5lib") 
    dl = soup.find_all("dl", attrs={"id": "rentid_D04_01"})  # 获取各地区的 url 地址的 dl 标签 
    my_as = dl[0].find_all("a")  # 获取 dl 标签中所有的 a 标签， 
    for my_a in my_as: 
        if my_a.text == "不限":  # 不限地区的,特殊处理 
            self.headUrlList.append(self.baseUrl) 
            self.allUrlList.append(self.baseUrl) 
            continue 
        if "周边" in my_a.text:  # 清除周边地区的数据 
            continue 
        # print(my_a["href"]) 
        # print(my_a.text) 
        self.allUrlList.append(self.baseUrl + my_a["href"]) 
        self.headUrlList.append(self.baseUrl + my_a["href"]) 
    print(self.allUrlList) 
    url = self.headUrlList.pop(0) 
    yield Request(url, callback=self.all_url_callback, dont_filter=True)

再解析非首页 url

（编辑：惠州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/12

首页

尾页