www.tjgcgs88.cn-狠狠久久亚洲欧美专区不卡,久久精品国产99久久无毒不卡,噼里啪啦国语版在线观看,zσzσzσ女人极品另类

  • <strike id="qgi8o"><td id="qgi8o"></td></strike>
  • <ul id="qgi8o"><acronym id="qgi8o"></acronym></ul>
  • <li id="qgi8o"></li>
    <ul id="qgi8o"></ul>
    <strike id="qgi8o"><rt id="qgi8o"></rt></strike>
    <ul id="qgi8o"><center id="qgi8o"></center></ul>
  • <kbd id="qgi8o"></kbd>

    nutch和elasticsearch的區(qū)別 nutch2.3支持 elasticsearch嗎

    網(wǎng)絡(luò)爬蟲(chóng)架構(gòu)在Nutch+Hadoop之上,是一個(gè)典型的分布式離線(xiàn)批量處理架構(gòu),有非常優(yōu)異的吞吐量和抓取性能并提供了大量的配置定制選項(xiàng)。由于網(wǎng)絡(luò)爬蟲(chóng)只負(fù)責(zé)網(wǎng)絡(luò)資源的抓取,所以,需要一個(gè)分布式搜索引擎,用來(lái)對(duì)網(wǎng)絡(luò)爬蟲(chóng)抓取到的網(wǎng)絡(luò)資源進(jìn)行實(shí)時(shí)的索引和搜索。

    搜 索引擎架構(gòu)在ElasticSearch之上,是一個(gè)典型的分布式在線(xiàn)實(shí)時(shí)交互查詢(xún)架構(gòu),無(wú)單點(diǎn)故障,高伸縮、高可用。對(duì)大量信息的索引與搜索都可以在近 乎實(shí)時(shí)的情況下完成,能夠快速實(shí)時(shí)搜索數(shù)十億的文件以及PB級(jí)的數(shù)據(jù),同時(shí)提供了全方面的選項(xiàng),可以對(duì)該引擎的幾乎每個(gè)方面進(jìn)行定制。支持RESTful 的API,可以使用JSON通過(guò)HTTP調(diào)用它的各種功能,包括搜索、分析與監(jiān)控。此外,還為Java、PHP、Perl、Python以及Ruby等各 種語(yǔ)言提供了原生的客戶(hù)端類(lèi)庫(kù)。

    網(wǎng)絡(luò)爬蟲(chóng)通過(guò)將抓取到的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化提取之后提交給搜索引擎進(jìn)行索引,以供查詢(xún)分析使用。由于搜索引擎的設(shè)計(jì)目標(biāo)在于近乎實(shí)時(shí)的復(fù)雜的交互式查詢(xún),所以搜索引擎并不保存索引網(wǎng)頁(yè)的原始內(nèi)容,因此,需要一個(gè)近乎實(shí)時(shí)的分布式數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)網(wǎng)頁(yè)的原始內(nèi)容。

    分布式數(shù)據(jù)庫(kù)架構(gòu)在Hbase+Hadoop之上,是一個(gè)典型的分布式在線(xiàn)實(shí)時(shí)隨機(jī)讀寫(xiě)架構(gòu)。極強(qiáng)的水平伸縮性,支持?jǐn)?shù)十億的行和數(shù)百萬(wàn)的列,能夠?qū)W(wǎng)絡(luò)爬蟲(chóng)提交的數(shù)據(jù)進(jìn)行實(shí)時(shí)寫(xiě)入,并能配合搜索引擎,根據(jù)搜索結(jié)果實(shí)時(shí)獲取數(shù)據(jù)。

    網(wǎng) 絡(luò)爬蟲(chóng)、分布式數(shù)據(jù)庫(kù)、搜索引擎均運(yùn)行在普通商業(yè)硬件構(gòu)成的集群上。集群采用分布式架構(gòu),能擴(kuò)展到成千上萬(wàn)臺(tái)機(jī)器,具有容錯(cuò)機(jī)制,部分機(jī)器節(jié)點(diǎn)發(fā)生故障不 會(huì)造成數(shù)據(jù)丟失也不會(huì)導(dǎo)致計(jì)算任務(wù)失敗。不但高可用,當(dāng)節(jié)點(diǎn)發(fā)生故障時(shí)能迅速進(jìn)行故障轉(zhuǎn)移,而且高伸縮,只需要簡(jiǎn)單地增加機(jī)器就能水平線(xiàn)性伸縮、提升數(shù)據(jù) 存儲(chǔ)容量和計(jì)算速度。

    網(wǎng)絡(luò)爬蟲(chóng)、分布式數(shù)據(jù)庫(kù)、搜索引擎之間的關(guān)系:

    1、網(wǎng)絡(luò)爬蟲(chóng)將抓取到的HTML頁(yè)面解析完成之后,把解析出的數(shù)據(jù)加入緩沖區(qū)隊(duì)列,由其他兩個(gè)線(xiàn)程負(fù)責(zé)處理數(shù)據(jù),一個(gè)線(xiàn)程負(fù)責(zé)將數(shù)據(jù)保存到分布式數(shù)據(jù)庫(kù),一個(gè)線(xiàn)程負(fù)責(zé)將數(shù)據(jù)提交到搜索引擎進(jìn)行索引。

    2、搜索引擎處理用戶(hù)的搜索條件,并將搜索結(jié)果返回給用戶(hù),如果用戶(hù)查看網(wǎng)頁(yè)快照,則從分布式數(shù)據(jù)庫(kù)中獲取網(wǎng)頁(yè)的原始內(nèi)容。

    整體架構(gòu)如下圖所示:

    爬蟲(chóng)集群、分布式數(shù)據(jù)庫(kù)集群、搜索引擎集群在物理部署上,可以部署到同一個(gè)硬件集群上,也可以分開(kāi)部署,形成1-3個(gè)硬件集群。

    網(wǎng)絡(luò)爬蟲(chóng)集群有一個(gè)專(zhuān)門(mén)的網(wǎng)絡(luò)爬蟲(chóng)配置管理系統(tǒng)來(lái)負(fù)責(zé)爬蟲(chóng)的配置和管理,如下圖所示:

    搜 索引擎通過(guò)分片(shard)和副本(replica)實(shí)現(xiàn)了高性能、高伸縮和高可用。分片技術(shù)為大規(guī)模并行索引和搜索提供了支持,極大地提高了索引和搜 索的性能,極大地提高了水平擴(kuò)展能力;副本技術(shù)為數(shù)據(jù)提供冗余,部分機(jī)器故障不影響系統(tǒng)的正常使用,保證了系統(tǒng)的持續(xù)高可用。

    有2個(gè)分片和3份副本的索引結(jié)構(gòu)如下所示:

    一個(gè)完整的索引被切分為0和1兩個(gè)獨(dú)立部分,每一部分都有2個(gè)副本,即下面的灰色部分。

    在 生產(chǎn)環(huán)境中,隨著數(shù)據(jù)規(guī)模的增大,只需簡(jiǎn)單地增加硬件機(jī)器節(jié)點(diǎn)即可,搜索引擎會(huì)自動(dòng)地調(diào)整分片數(shù)以適應(yīng)硬件的增加,當(dāng)部分節(jié)點(diǎn)退役的時(shí)候,搜索引擎也會(huì)自 動(dòng)調(diào)整分片數(shù)以適應(yīng)硬件的減少,同時(shí)可以根據(jù)硬件的可靠性水平及存儲(chǔ)容量的變化隨時(shí)更改副本數(shù),這一切都是動(dòng)態(tài)的,不需要重啟集群,這也是高可用的重要保 障。

    相關(guān)評(píng)說(shuō):

  • 尹狠18272652395: 請(qǐng)問(wèn)nutch的工作流程是什么?
    新和縣帶式: ______ Nutch的工作流程: 1. 創(chuàng)建一個(gè)新的WebDB (admin db -create). 2. 把開(kāi)始抓取的跟Url 放入WebDb (inject). 3. 從WebDb的新 segment 中生成 fetchlist (generate). 4. 根據(jù) fetchlist 列表抓取網(wǎng)頁(yè)的內(nèi)容 (fetch). 5. 根據(jù)抓取回來(lái)的網(wǎng)頁(yè)鏈接url...
  • 尹狠18272652395: nutch2.1二次開(kāi)發(fā),怎么重復(fù)抓取網(wǎng)頁(yè) -
    新和縣帶式: ______ 1.首先nutch的配置已經(jīng)在博客里面寫(xiě)好了,如果還不知道,建議現(xiàn)看下,然后再讀這篇文章.2.用一個(gè)SequenceFile.Reader來(lái)讀取排序的輸入.SequenceFile.Reader m_reader = m_reader = new SequenceFile.Reader(fs, content, conf);3.用...
  • 尹狠18272652395: java如何手動(dòng)編寫(xiě)數(shù)據(jù)爬蟲(chóng)?
    新和縣帶式: ______ ?Nutch是一個(gè)使用java編寫(xiě),在Apache許可下發(fā)行的爬蟲(chóng) 如果覺(jué)的我答案有用,請(qǐng)點(diǎn)贊.
  • 尹狠18272652395: nutch爬取網(wǎng)頁(yè)時(shí)發(fā)生問(wèn)題怎么解決 -
    新和縣帶式: ______ 1、nutch只能抓取到的是簡(jiǎn)單頁(yè)面的內(nèi)容,即不包括該頁(yè)面加載后又執(zhí)行的js請(qǐng)求、ajax請(qǐng)求、內(nèi)嵌iframe等頁(yè)面. 2、像抓上次nutch抓不到的頁(yè)面,往往需要抓包分析的程序定制開(kāi)發(fā),僅依靠nutch是搞不定的了. 再思考下吧.
  • 尹狠18272652395: nutch與分類(lèi)/聚類(lèi)算法 -
    新和縣帶式: ______ nutch中的源碼用到了hadoop的mapreduce編程模式,和mahount里面的編程思想一致.不過(guò)個(gè)人覺(jué)得nutch就是通用搜索引擎的一個(gè)原型,從爬取、建索引到檢索一整套都實(shí)現(xiàn)了,還有自己的數(shù)據(jù)庫(kù),與機(jī)器學(xué)習(xí)算法的關(guān)聯(lián)不太好說(shuō)吧. 建議你學(xué)學(xué)solr吧,可以把做好的索引放進(jìn)自己的數(shù)據(jù)庫(kù)(如mysql),然后從數(shù)據(jù)庫(kù)里提取有用的數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)hive中,使用mahount進(jìn)行訓(xùn)練.個(gè)人理解上述機(jī)器學(xué)習(xí)方法,可以做推薦引擎,根據(jù)用戶(hù)喜好推送相關(guān)內(nèi)容.
  • 尹狠18272652395: 如何在Spring中注入ElasticSearch實(shí)例 -
    新和縣帶式: ______ 在企業(yè)級(jí)項(xiàng)目開(kāi)發(fā)中,大多數(shù)公司都會(huì)集成Spring來(lái)簡(jiǎn)化開(kāi)發(fā)成本,要使用Spring自然少不了一大堆需要依賴(lài)注入的Bean,通常情況下,我們會(huì)選擇在spring的xml中,配置一些類(lèi)的實(shí)例,...
  • 尹狠18272652395: kibana配置elasticsearchurl選項(xiàng) 怎么才能配置靈活 -
    新和縣帶式: ______ elasticsearch的config文件夾里面有兩個(gè)配置文件:elasticsearch.yml和logging.yml,第一個(gè)是es的基本配置文件,第二個(gè)是日志配置文件,es也是使用log4j來(lái)記錄日志的,所以logging.yml里的設(shè)置按普通log4j配置文件來(lái)設(shè)置就行了.下面主要講...
  • 尹狠18272652395: 怎樣用ANT去啟動(dòng)ECLIPSE - CSDN論壇 -
    新和縣帶式: ______ 用 Eclipse3.1 來(lái)創(chuàng)建 Ant 腳本如果你使用 Eclipse 來(lái)編寫(xiě) Ant,建議使用 Eclipse 3.1 以后的版本.除了以前 Ant 編輯器提供的語(yǔ)法高亮,提示語(yǔ)法錯(cuò)誤等功能外,Eclipse3.1 版本增加...
  • 尹狠18272652395: 移動(dòng)云的云主機(jī)ESC是什么?
    新和縣帶式: ______ 云主機(jī) ECS全稱(chēng)Elastic Compute Serve,是移動(dòng)云研發(fā)的一種按需獲取的云端服務(wù)器,為您提供高可靠、彈性擴(kuò)展的計(jì)算資源服務(wù)
  • 国产精品二区三区免费播放心| 国产高清在线精品二区| 国产色欲AV一区二区三区| 欧洲人激情毛片无码视频| 中文字幕无码不卡免费视频| 大伊香蕉精品视频在线天堂| 中文字幕无码不卡在线| 国产9色在线 | 欧美白雪公主成人h版| 国产综合色视频久久|