博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
phantomjs 抓取房产信息
阅读量:7054 次
发布时间:2019-06-28

本文共 1856 字,大约阅读时间需要 6 分钟。

    抓取https://sf.taobao.com/item_list.htm信息

 

    

    

    driver=webdriver.PhantomJS(service_args=['--ssl-protocol=any'])      or    driver = webdriver.PhantomJS( service_args=['--ignore-ssl-errors=true'])     cur_driver=webdriver.PhantomJS(service_args=['--ssl-protocol=any', '--load-images=false'])           service_args=['--load-images=false']
 

 

  抓取代码

# coding=utf-8import osimport refrom selenium import webdriver# from selenium.common.exceptions import TimeoutExceptionimport selenium.webdriver.support.ui as uiimport timefrom datetime import datetimefrom selenium.webdriver.common.action_chains import ActionChainsimport IniFile# from threading import Threadfrom pyquery import PyQuery as pqimport LogFileimport mongoDBimport urllibclass taobao(object):    def __init__(self):              self.driver = webdriver.PhantomJS(service_args=['--ssl-protocol=any'])        self.driver.set_page_load_timeout(10)        self.driver.maximize_window()        self.url ='https://sf.taobao.com/item_list.htm'    def scrapy_date(self):        try:            self.driver.get(self.url)            selenium_html = self.driver.execute_script("return document.documentElement.outerHTML")            doc = pq(selenium_html)            Elements = doc('ul[class="sf-pai-item-list"]').find('li[class="pai-item pai-status-doing"]')            for element in Elements.items():                priceinfo = element('div[class="info-section"]').find('p').text().encode('utf8').strip()                title = element('div[class="header-section "]').find('p').text().encode('utf8').strip()                print title                print priceinfo                print '--------------------------------------------------------------------------------'        except Exception, e:            print e.message        finally:            passobj = taobao()obj.scrapy_date()

   抓取结果

 

转载地址:http://unlol.baihongyu.com/

你可能感兴趣的文章
js,jquery获取url参数
查看>>
Java基础学习总结(36)——Java注释模板
查看>>
erange.heetian.com 回显任意账号
查看>>
OBJ文件格式简介
查看>>
实验三 有限自动机的构造与识别
查看>>
python的学习笔记之——time模块常用内置函数
查看>>
计算机是如何工作的
查看>>
【c++】必须在类初始化列表中初始化的几种情况
查看>>
阿拉伯数字1与英语字母l造成的代码bug
查看>>
深度学习常见的专业术语
查看>>
2018-2019-2 20165334《网络对抗技术》Exp2 后门原理与实践
查看>>
HTML提交方式post和get区别(实验)
查看>>
Java 11.do语句
查看>>
学习理论之感知器与最大间隔分类器
查看>>
Be Nice!要善良
查看>>
二、ansible配置简要介绍
查看>>
解决docker容器中无ifconfig命令和ping命令问题
查看>>
CHAR、TCHAR、WCHAR_T之间的区别与问题
查看>>
sql小计合计
查看>>
安装Java
查看>>