python下 selenium與chrome結(jié)合進(jìn)行網(wǎng)頁(yè)爬取,怎么設(shè)置代理IP
設(shè)置代理的話,可以使用這種方式,代碼是我剛才測(cè)試過(guò)的,親測(cè)可用from selenium import webdriver
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--proxy-server=http://171.37.135.94:8123')
chrome = webdriver.Chrome(chrome_options=chrome_options)
chrome.get('http://httpbin.org/ip')
print(chrome.page_source)
chrome.quit()
不過(guò)話說(shuō)回來(lái),本來(lái)用selenium的話抓取速度就很慢了,加上代理的話(如果代理不穩(wěn)定)可能還會(huì)慢出一大截。
網(wǎng)上抓取和解析html的框架一抓一大把,各種工具直接拿來(lái)用就行了,比較省心。 首先速度/效率很成問(wèn)題,有一次下載電影海報(bào)的時(shí)候,由于是crontab定期執(zhí)行,也沒(méi)做優(yōu)化,開(kāi)的php進(jìn)程太多,直接把內(nèi)存撐爆了。
塞夏17740836164: 如何用python的selenium提取頁(yè)面所有資源加載的鏈接 -
薛城區(qū)誤差: ______ 最近需要寫(xiě)一個(gè)爬蟲(chóng),邏輯上有一個(gè)環(huán)節(jié)是取得一個(gè)頁(yè)面的所有資源加載鏈接(html5頁(yè)面) (ps:python下的確是是有個(gè)第三方包叫Ghost.py可以取得,但是嘗試后效果并不好,估計(jì)是因?yàn)镚host.py的webkit對(duì)html5的支持并不好.) 選擇用...
塞夏17740836164: python 下用selenium打開(kāi)phantomjs出錯(cuò),請(qǐng)問(wèn)如何處理 -
薛城區(qū)誤差: ______ python的js解析,發(fā)現(xiàn)使用Selenium+PhantomJS的方案還是比較適合我的,以下是環(huán)境配置教程. Selenium及PhantomJS介紹: Selenium是一個(gè)用于Web應(yīng)用程序測(cè)試的工具,Selenium測(cè)試直接運(yùn)行在瀏覽器中,就像真正的用戶在操作一樣...
塞夏17740836164: python安裝完pip后,怎么安裝selenium包 -
薛城區(qū)誤差: ______ 直接使用pip install selenium這個(gè)命令安裝即可
塞夏17740836164: 如何通過(guò)安裝包安裝selenium -
薛城區(qū)誤差: ______ 安裝成功后,會(huì)在你的python目錄下產(chǎn)生產(chǎn)生一個(gè)selenium文件夾 C:\Python27\Lib\site-packages\selenium-2.53.5-py2.7.egg 里面有2個(gè)文件夾EGG-INFO和selenium 如果有這個(gè)就基本代表安裝成功了 樓主也可以在py程序里用from selenium import selenium試試,運(yùn)行成功則代表安裝是成功的
塞夏17740836164: 如何查看python selenium的api -
薛城區(qū)誤差: ______ 你可以直接查看源碼,當(dāng)然網(wǎng)上也有歸納出來(lái)的api,這個(gè)地址你看看能訪問(wèn)不:https://selenium-python.readthedocs.org/api.html 這里面有所有的python selenium api.希望對(duì)你有用
塞夏17740836164: Python selenium 元素不可見(jiàn),怎么解決 -
薛城區(qū)誤差: ______ 可能是以下幾種情況:1、這個(gè)元素被點(diǎn)擊的時(shí)候不在頁(yè)面可見(jiàn)范圍內(nèi) 解決方法:使用顯式等待方法等待元素可見(jiàn)或者可點(diǎn)擊.2、這個(gè)元素還未加載出來(lái) 解決方法:使用sleep休眠幾秒等待加載3、這個(gè)可被點(diǎn)擊的元素被其他元素/蒙層所覆蓋了 解決方法:對(duì)于下拉菜單鼠標(biāo)懸停等使用ActionChains類(lèi)解決4、在Iframe里 解決方法:將焦點(diǎn)轉(zhuǎn)至iframe里
塞夏17740836164: 如何用android studio進(jìn)行selenium測(cè)試 -
薛城區(qū)誤差: ______ 展開(kāi)全部1、首先肯定是配置環(huán)境了,一步一步來(lái)吧,先下載需要的工具:下載一個(gè)Python的環(huán)境,我這里用的Python3.4,一會(huì)我上傳上來(lái),大家可以直接下載.最好用3.4以及以上的版本,這樣可以不用pip單獨(dú)安裝什么的,可以聯(lián)網(wǎng)直接安裝...
塞夏17740836164: 用python,selenium,打開(kāi)網(wǎng)頁(yè)或者點(diǎn)擊按鈕會(huì)向服務(wù)器發(fā)送很多請(qǐng)求,用python如何獲 -
薛城區(qū)誤差: ______ 你可以在chrome上加一個(gè)代理,比如tiny proxy,它是純python寫(xiě)的.你改一改就可以奕成抓包程序, 自然就可以獲得返回的請(qǐng)求. 另外在selenium里,也應(yīng)該可以獲得響應(yīng)結(jié)果.它通過(guò)chrome驅(qū)動(dòng),我沒(méi)有仔細(xì)看過(guò)代碼,webkit內(nèi)核是直接通過(guò)toHtml,或者是類(lèi)似的命令可以獲得響應(yīng)結(jié)果的. selenium應(yīng)該也可以. 猜可以通過(guò)javascript驅(qū)動(dòng)selenium,獲得響應(yīng)結(jié)果.
塞夏17740836164: Python + Selenium 怎么用 Firefox 加載 URL -
薛城區(qū)誤差: ______ #!/usr/bin/python3.4# -*- coding: utf-8 -*- from selenium import webdriver import time# http://www.cnblogs.com/fnng/p/3238685.html# 打開(kāi)火狐瀏覽器 browser = webdriver.Firefox()# 輸入網(wǎng)址 browser.get("http://www.baidu.com")# 根據(jù)各自網(wǎng)...
塞夏17740836164: 求推薦一個(gè)python+selenium做web自動(dòng)化的平臺(tái). -
薛城區(qū)誤差: ______ 1,系統(tǒng)平臺(tái)的話,建議用Mac的,因?yàn)樵谠撓到y(tǒng)平臺(tái)下 selenium支持的瀏覽器多(Mozilla Suite Firefox Seamonkey Opera Camino Safari ) ,同時(shí)在mac下python是已經(jīng)隨系統(tǒng) 安裝好的 2,開(kāi)發(fā)平臺(tái)的話,建議用他本公司的 Selenium Remote Control (RC),支持多種系統(tǒng)平臺(tái)、多種瀏覽器、多種開(kāi)發(fā)語(yǔ)言(包括python)
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--proxy-server=http://171.37.135.94:8123')
chrome = webdriver.Chrome(chrome_options=chrome_options)
chrome.get('http://httpbin.org/ip')
print(chrome.page_source)
chrome.quit()
不過(guò)話說(shuō)回來(lái),本來(lái)用selenium的話抓取速度就很慢了,加上代理的話(如果代理不穩(wěn)定)可能還會(huì)慢出一大截。
網(wǎng)上抓取和解析html的框架一抓一大把,各種工具直接拿來(lái)用就行了,比較省心。 首先速度/效率很成問(wèn)題,有一次下載電影海報(bào)的時(shí)候,由于是crontab定期執(zhí)行,也沒(méi)做優(yōu)化,開(kāi)的php進(jìn)程太多,直接把內(nèi)存撐爆了。
相關(guān)評(píng)說(shuō):
薛城區(qū)誤差: ______ 最近需要寫(xiě)一個(gè)爬蟲(chóng),邏輯上有一個(gè)環(huán)節(jié)是取得一個(gè)頁(yè)面的所有資源加載鏈接(html5頁(yè)面) (ps:python下的確是是有個(gè)第三方包叫Ghost.py可以取得,但是嘗試后效果并不好,估計(jì)是因?yàn)镚host.py的webkit對(duì)html5的支持并不好.) 選擇用...
薛城區(qū)誤差: ______ python的js解析,發(fā)現(xiàn)使用Selenium+PhantomJS的方案還是比較適合我的,以下是環(huán)境配置教程. Selenium及PhantomJS介紹: Selenium是一個(gè)用于Web應(yīng)用程序測(cè)試的工具,Selenium測(cè)試直接運(yùn)行在瀏覽器中,就像真正的用戶在操作一樣...
薛城區(qū)誤差: ______ 直接使用pip install selenium這個(gè)命令安裝即可
薛城區(qū)誤差: ______ 安裝成功后,會(huì)在你的python目錄下產(chǎn)生產(chǎn)生一個(gè)selenium文件夾 C:\Python27\Lib\site-packages\selenium-2.53.5-py2.7.egg 里面有2個(gè)文件夾EGG-INFO和selenium 如果有這個(gè)就基本代表安裝成功了 樓主也可以在py程序里用from selenium import selenium試試,運(yùn)行成功則代表安裝是成功的
薛城區(qū)誤差: ______ 你可以直接查看源碼,當(dāng)然網(wǎng)上也有歸納出來(lái)的api,這個(gè)地址你看看能訪問(wèn)不:https://selenium-python.readthedocs.org/api.html 這里面有所有的python selenium api.希望對(duì)你有用
薛城區(qū)誤差: ______ 可能是以下幾種情況:1、這個(gè)元素被點(diǎn)擊的時(shí)候不在頁(yè)面可見(jiàn)范圍內(nèi) 解決方法:使用顯式等待方法等待元素可見(jiàn)或者可點(diǎn)擊.2、這個(gè)元素還未加載出來(lái) 解決方法:使用sleep休眠幾秒等待加載3、這個(gè)可被點(diǎn)擊的元素被其他元素/蒙層所覆蓋了 解決方法:對(duì)于下拉菜單鼠標(biāo)懸停等使用ActionChains類(lèi)解決4、在Iframe里 解決方法:將焦點(diǎn)轉(zhuǎn)至iframe里
薛城區(qū)誤差: ______ 展開(kāi)全部1、首先肯定是配置環(huán)境了,一步一步來(lái)吧,先下載需要的工具:下載一個(gè)Python的環(huán)境,我這里用的Python3.4,一會(huì)我上傳上來(lái),大家可以直接下載.最好用3.4以及以上的版本,這樣可以不用pip單獨(dú)安裝什么的,可以聯(lián)網(wǎng)直接安裝...
薛城區(qū)誤差: ______ 你可以在chrome上加一個(gè)代理,比如tiny proxy,它是純python寫(xiě)的.你改一改就可以奕成抓包程序, 自然就可以獲得返回的請(qǐng)求. 另外在selenium里,也應(yīng)該可以獲得響應(yīng)結(jié)果.它通過(guò)chrome驅(qū)動(dòng),我沒(méi)有仔細(xì)看過(guò)代碼,webkit內(nèi)核是直接通過(guò)toHtml,或者是類(lèi)似的命令可以獲得響應(yīng)結(jié)果的. selenium應(yīng)該也可以. 猜可以通過(guò)javascript驅(qū)動(dòng)selenium,獲得響應(yīng)結(jié)果.
薛城區(qū)誤差: ______ #!/usr/bin/python3.4# -*- coding: utf-8 -*- from selenium import webdriver import time# http://www.cnblogs.com/fnng/p/3238685.html# 打開(kāi)火狐瀏覽器 browser = webdriver.Firefox()# 輸入網(wǎng)址 browser.get("http://www.baidu.com")# 根據(jù)各自網(wǎng)...
薛城區(qū)誤差: ______ 1,系統(tǒng)平臺(tái)的話,建議用Mac的,因?yàn)樵谠撓到y(tǒng)平臺(tái)下 selenium支持的瀏覽器多(Mozilla Suite Firefox Seamonkey Opera Camino Safari ) ,同時(shí)在mac下python是已經(jīng)隨系統(tǒng) 安裝好的 2,開(kāi)發(fā)平臺(tái)的話,建議用他本公司的 Selenium Remote Control (RC),支持多種系統(tǒng)平臺(tái)、多種瀏覽器、多種開(kāi)發(fā)語(yǔ)言(包括python)