西宁做网站_制作网站_网站开发流程_番禺网站公司

佛山做网站

青岛软件开发公司、昌平网站建设、永久使用、不限域名、山西建站

开发者账号?

西宁做网站_制作网站_网站开发流程_番禺网站公司

import scrapyclass MainSpider(scrapy.Spider):name = "main"# allowed_domains = ["www.xxx.com"]# 定义第一页的页面链接,会自动爬取start_urls = ["https://pic.yesky.com/c/6_25152.shtml"]# 定义一个页面连接模板page_url = 'https://pic.yesky.com/c/6_25152_%d.shtml'# 定义一个页码变量, 从2开始, 因为第一页已经自动发送请求了page_num = 2def parse(self, response):# 获得所有的li元素并将这些li存入列表中,封装为Selector对象返回li_list = response.xpath('//ul[@class="classification_listContent"]/li')# 循环获得所有li标签下的第二个a标签的文本for li in li_list:# 获得每个图片的描述img_name = li.xpath('./a[2]/text()').extract_first()print(img_name)# 可以将爬取到的数据存入item对象中# 判断要爬取的页面数量大于等于5时# 则不再进行爬取新的页面if self.page_num <= 5:# 拼接页面的链接new_page_url = format(self.page_url % self.page_num)# 拼接完成后页码加一,用于下一次爬取,下一个页面的数据self.page_num += 1# 使用  yield scrapy.Request(请求的url, 对返回数据进行处理的回调函数)# 手动向一个URL地址发送请求# 传入两个参数,一个请求的URL地址,一个回调函数# 当请求成功时,会将响应的数据传给自身的parse函数继续执行里面的逻辑代码yield scrapy.Request(url=new_page_url, callback=self.parse)
				   桂林seo优化个人主页制作汕头建站江苏建站建网站建设河东做网站网站建设知识罗湖网站建设公司南山做网站公司东莞网站优化衡阳seo自主建站网站建设在哪里网站建设ppt网站建设心得电子商务网站模板校园app开发网站架设株洲网站排名优化web开发安卓开发自适应网站建设日照建站咸阳软件开发海淀网站建设网站公司金湖网站建设苏州建网站上海门户网站建设免费个人网站建站巴中网站建设
                 

猜你喜欢