爬蟲全紀(jì)錄——WEB協(xié)議基礎(chǔ)之HTTP/HTTPS協(xié)議(2)
1.1 客戶端連接至服務(wù)器
客戶端,通常為瀏覽器,與服務(wù)器建立TCP套接字連接。例如,通過HTTP協(xié)議訪問oakcms.cn。
1.2 發(fā)送HTTP請求
客戶端通過TCP套接字向服務(wù)器發(fā)送文本請求報(bào)文,報(bào)文包含請求方法、URL、協(xié)議版本、請求頭部和請求數(shù)據(jù)。
1.3 服務(wù)器響應(yīng)請求
服務(wù)器解析請求,定位請求資源,將資源副本寫入TCP套接字供客戶端讀取。響應(yīng)包含狀態(tài)行、響應(yīng)頭部、空行和響應(yīng)數(shù)據(jù)。
1.4 釋放TCP連接
連接釋放取決于連接模式:若為close,服務(wù)器主動(dòng)關(guān)閉連接,客戶端被動(dòng)關(guān)閉;若為keepalive,連接保持一段時(shí)間,可繼續(xù)接收請求。
1.5 客戶端解析HTML內(nèi)容
客戶端瀏覽器解析狀態(tài)行以檢查請求是否成功,并解析響應(yīng)頭,獲取HTML文檔及其字符集信息。瀏覽器讀取響應(yīng)數(shù)據(jù)HTML,格式化并顯示內(nèi)容。
HTTPS工作原理涉及加密通信,具體包括:
2.1 客戶端發(fā)起HTTPS請求
用戶在瀏覽器輸入https網(wǎng)址,并連接至服務(wù)器的443端口。
2.2 服務(wù)端配置
服務(wù)器需持有公鑰和私鑰對,可以是自簽名證書或通過受信任機(jī)構(gòu)申請。公鑰用于加密,私鑰用于解密。
2.3 傳送證書
證書即為公鑰,包含證書信息,如頒發(fā)機(jī)構(gòu)和過期時(shí)間。
2.4 客戶端解析證書
客戶端TLS驗(yàn)證證書有效性,如機(jī)構(gòu)和過期時(shí)間,異常時(shí)彈出警告。驗(yàn)證通過后生成隨機(jī)值加密發(fā)送給服務(wù)器。
2.5 傳送加密信息
客戶端發(fā)送用服務(wù)器公鑰加密的隨機(jī)值,作為后續(xù)通信的加密密鑰。
2.6 服務(wù)端解密信息
服務(wù)端用私鑰解密客戶端發(fā)送的隨機(jī)值,生成對稱加密密鑰,并用該密鑰加密數(shù)據(jù)。
2.7 傳輸加密后的信息
服務(wù)端將加密數(shù)據(jù)發(fā)送至客戶端,數(shù)據(jù)在客戶端可被還原。
2.8 客戶端解密信息
客戶端使用先前生成的私鑰解密服務(wù)端傳輸?shù)臄?shù)據(jù),獲取解密內(nèi)容。第三方監(jiān)聽無法獲取解密信息。
什么叫做HTTP端口
Ports):從0到1023,它們緊密綁定于一些服務(wù)。通常這些端口的通訊明確表明了某種服務(wù)的協(xié)議。例如:80端口實(shí)際上總是HTTP通訊。 2) 注冊端口(Registered Ports):從1024到49151。它們松散地綁定于一些服務(wù)。也就是說有許多服務(wù)綁定于這些端口,這些端口同樣用于許多其它目的。例如:許多系統(tǒng)處理動(dòng)態(tài)端口從1024左右開始。 3) ...
網(wǎng)絡(luò)術(shù)語有哪些。。。
Internet:Internet是由遍布全世界的大大小小網(wǎng)絡(luò)組成的一個(gè)松散結(jié)合的全球互聯(lián)網(wǎng)絡(luò)。目前Internet上的主機(jī)數(shù)已多達(dá)數(shù)千萬個(gè)。WWW:WWW是World Wide Web的簡稱,譯為萬維網(wǎng)或全球網(wǎng),是指在因特網(wǎng)上以超文本為基礎(chǔ)形成的信息網(wǎng)。它為用戶提供了一個(gè)可以輕松駕馭的圖形化界面,用戶通過它可以查閱Internet上的...
電腦蠕蟲病毒哪里傳蠕蟲病毒的傳播方式
新“愛蟲”(Vbs.Newlove)病毒同愛蟲(Vbs.loveletter)病毒一樣,通過outlook傳播,打開病毒郵件附件您會觀察到計(jì)算機(jī)的硬盤燈狂閃,系統(tǒng)速度顯著變慢,計(jì)算機(jī)中出現(xiàn)大量的擴(kuò)展名為vbs的文件。所有快捷方式被改變?yōu)榕c系統(tǒng)目錄下wscript.exe建立關(guān)聯(lián),進(jìn)1步消耗系統(tǒng)資源,造成系統(tǒng)崩潰。損失估計(jì):全球超過100億美元。 4、紅色...
搜索引擎的工作原理
搜索引擎的基本工作原理包括如下三個(gè)過程:首先在互聯(lián)網(wǎng)中發(fā)現(xiàn)、搜集網(wǎng)頁信息;同時(shí)對信息進(jìn)行提取和組織建立索引庫;再由檢索器根據(jù)用戶輸入的查詢關(guān)鍵字,在索引庫中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評價(jià),對將要輸出的結(jié)果進(jìn)行排序,并將查詢結(jié)果返回給用戶。1、抓取網(wǎng)頁。每個(gè)獨(dú)立的搜索引擎都有自己...
誰發(fā)明的互聯(lián)網(wǎng)?
互聯(lián)網(wǎng)基礎(chǔ)協(xié)議——TCP\/IP協(xié)議和互聯(lián)網(wǎng)架構(gòu)的聯(lián)合設(shè)計(jì)者之一,谷歌全球副總裁、Internet 互聯(lián)網(wǎng)奠基人之一。上世紀(jì)70年代,溫頓·瑟夫(Vint Cerf)曾經(jīng)參與互聯(lián)網(wǎng)的早期開發(fā)與建設(shè),并為此獲得了“互聯(lián)網(wǎng)之父”的美譽(yù)。 1997年12月,克林頓總統(tǒng)向瑟夫博士和他的同事Robert E. Kahn頒發(fā)了美國國家技術(shù)獎(jiǎng)?wù)?表彰他們對于互聯(lián)...
大熊貓直播在哪里看全球動(dòng)物園直播入口
*直播入口:https:\/\/www.houstonzoo.org\/explore\/webcams\/leafcutter-ant-cam\/ 直播時(shí)段:北京時(shí)間21:00~次日9:00 圣迭戈動(dòng)物園 作為全世界最大的動(dòng)物園,圣迭戈動(dòng)物園在新冠疫情期間也對公眾關(guān)閉了,不久前還傳出了全球首例大猩猩感染病毒的新聞。不過為了展現(xiàn)動(dòng)物園的雄厚實(shí)力,這里有一些冷門物種的直播非常有趣——...
昆蟲記是什么
法布爾把畢生從事昆蟲研究的成果和經(jīng)歷用大部分散文的形式記錄下來,詳細(xì)觀察了昆蟲的生活和為生活以及繁衍種族所進(jìn)行的斗爭,以人文精神統(tǒng)領(lǐng)自然科學(xué)的龐雜實(shí)據(jù),蟲性、人性交融,使昆蟲世界成為人類獲得知識、趣味、美感和思想的文學(xué)形態(tài),將區(qū)區(qū)小蟲的話題書寫成多層次意味、全方位價(jià)值的巨制鴻篇,這樣的作品在世界上誠屬...
啥是昆蟲600字以上
昆蟲和花一起進(jìn)化,因?yàn)樵S多花靠蟲傳粉。某些昆蟲提供重要產(chǎn)品,如蜜、絲、蠟、染料、色素,因而對人有益,但由於取食各類有機(jī)物,對農(nóng)業(yè)造成巨大危害。害蟲毀壞自然界或貯存的谷物或木材,在谷物、家畜和人之間傳播微生物。6000字都有了! 參考資料: http:\/\/baike.baidu.com\/view\/2694.html?wtp=tt 本回答被...
《昆蟲記》的主要內(nèi)容,主要人物思想,主題思想,你的評論
法布爾把畢生從事昆蟲研究的成果和經(jīng)歷用大部分散文的形式記錄下來,詳細(xì)觀察了昆蟲的生活和為生活以及繁衍種族所進(jìn)行的斗爭,以人文精神統(tǒng)領(lǐng)自然科學(xué)的龐雜實(shí)據(jù),蟲性、人性交融,使昆蟲世界成為人類獲得知識、趣味、美感和思想的文學(xué)形態(tài),將區(qū)區(qū)小蟲的話題書寫成多層次意味、全方位價(jià)值的巨制鴻篇,這樣的作品在世界上誠屬...
bt軟件bt是什么意思
n是之1,2,3,……n中的n就是無限的意思。比特,是一個(gè)下載軟件來的 5,BT是什么意思呀 1.BitTorrent(簡稱BT)是一個(gè)文件分發(fā)協(xié)議,它通過URL識別內(nèi)容并且和網(wǎng)絡(luò)無縫結(jié)合。 BitTorrent它對比HTTP\/FTP協(xié)議,MMS\/RTSP流媒體協(xié)議等下載方式的優(yōu)勢在于,一個(gè)文件的下載者們下載的同時(shí)也在不斷互相上傳數(shù)據(jù),使文件源(可以...
相關(guān)評說:
恩施市軸向: ______ url = "www.baidu.com" response = requests.get(url=url, headers=share_web_header) item = {} item['uri'] = url item['request_method'] = 'GET' item['request_header'] = response.request.headers item['request_body'] = '' item['response_header'] = response.headers item['response_body'] = response.text print(item)
恩施市軸向: ______ 首先我們可以先獲取要下載圖片的整個(gè)頁面信息. getjpg.py #coding=utf-8 import urllib def getHtml(url): page = urllib.urlopen(url) html = page.read() return html print html Urllib 模塊提供了讀取web頁面數(shù)據(jù)的接口,我們可以像讀取本地文件一樣...
恩施市軸向: ______ /** 使用curl 采集hao123.com下的所有鏈接.*/ include_once('function.php');$ch = curl_init(); curl_setopt($ch, CURLOPT_URL, '');// 只需返回HTTP header curl_setopt($ch, CURLOPT_HEADER, 1);// 頁面內(nèi)容我們并不需要// curl_setopt($ch, ...
恩施市軸向: ______ 用正則表達(dá)式匹配到url,然后通過一個(gè)循環(huán)或遞歸,再獲取那個(gè)子url.
恩施市軸向: ______ 爬蟲族存在的證據(jù)包括:1)它們的活動(dòng)被寫入WEB服務(wù)器的日志中:有時(shí),服務(wù)器會記錄請求的信息,而這些信息中可以看到由爬蟲發(fā)出的請求2)爬蟲對WEB服務(wù)器的網(wǎng)站表現(xiàn)出不同的請求頻率及行為模式:通常來說,爬蟲會比真正的用戶更頻繁地發(fā)出請求,而且可能會以與真正用戶不同的行為模式進(jìn)行抓取. 什么證據(jù)證明爬蟲族存在 在本期的《阿林斯生命的證明》(2016年3月15日)中,我們介紹了爬蟲族在地球上的十條證據(jù).有許多古代神話提到了對人類有敵意的爬蟲類人物. 例如,古印度神話描述了爬蟲類惡魔從水中出現(xiàn)并摧毀村莊和城鎮(zhèn),這些古代神話被認(rèn)為是指爬蟲類.
恩施市軸向: ______ 1. 獲取html頁面 其實(shí),最基本的抓站,兩句話就可以了 [python] view plaincopy import urllib2 content = urllib2.urlopen('').read() 這樣可以得到整個(gè)html文檔,關(guān)鍵的問題是我們可能需要從這個(gè)文檔中獲取我們需要的有用信息,而不是整個(gè)文檔....
恩施市軸向: ______ java的使用關(guān)鍵commons-configuration-1.6.jar包來讀取xml配置信息 String file="interface.xml"; XMLConfiguration config = new XMLConfiguration(file);//接口名稱 List<String> NameList = config.getList("concrete-interface.interface.interface-...
恩施市軸向: ______ 每個(gè)WEB請求都有個(gè)header頭,這個(gè)頭文件中包含一個(gè)名為http_agent的值,網(wǎng)絡(luò)爬出給的這個(gè)值是特定值,所以你可以根據(jù)它的特定值來定制它訪問時(shí)所能到達(dá)的頁面.這個(gè)是SEO相關(guān)的額知識點(diǎn),設(shè)計(jì)到http相關(guān)知識點(diǎn)
恩施市軸向: ______ 使用 gb2312 編碼...