国产欧美精品一区二区,中文字幕专区在线亚洲,国产精品美女网站在线观看,艾秋果冻传媒2021精品,在线免费一区二区,久久久久久青草大香综合精品,日韩美aaa特级毛片,欧美成人精品午夜免费影视

基于Hadoop的分布式并行增量爬蟲(chóng)技術(shù)研究
DOI:
CSTR:
作者:
作者單位:

河南科技大學(xué)信息工程學(xué)院,河南洛陽(yáng),河南科技大學(xué)信息工程學(xué)院,河南洛陽(yáng),河南科技大學(xué)信息工程學(xué)院,河南洛陽(yáng)

作者簡(jiǎn)介:

通訊作者:

中圖分類(lèi)號:

基金項目:

國家自然科學(xué)基金(No.61772174,61370220),河南省科技創(chuàng )新杰出人才計劃項目(No.174200510011),河南省高校科技創(chuàng )新團隊支持計劃項目(No.15IRTSTHN010)


Research on Distributed Parallel Incremental Crawlers Technology Based on Hadoop
Author:
Affiliation:

College of Information Engineering,Henan University of Science and Technology,Luoyang,,College of Information Engineering,Henan University of Science and Technology,Luoyang

Fund Project:

  • 摘要
  • |
  • 圖/表
  • |
  • 訪(fǎng)問(wèn)統計
  • |
  • 參考文獻
  • |
  • 相似文獻
  • |
  • 引證文獻
  • |
  • 資源附件
  • |
  • 文章評論
    摘要:

    面對多媒體社交網(wǎng)絡(luò )中在線(xiàn)視頻的爆炸式增長(cháng),使用單機模式下爬蟲(chóng)提取新視頻頁(yè)面的效率低下,為此,提出一種基于Map/Reduce的并行算法,大大提高了爬蟲(chóng)的效率。但是為了進(jìn)一步改善數據冗余問(wèn)題,減少過(guò)時(shí)頁(yè)面的更新,改進(jìn)了一種精度感知增量更新算法,利用監控技術(shù)監控網(wǎng)頁(yè)變化情況,分析網(wǎng)頁(yè)更新模式,增加新鮮度評估和降維處理,使用混合整數二次規劃方法為發(fā)生更改的網(wǎng)頁(yè)制定最優(yōu)的刷新策略。實(shí)驗證明,相比單機模式下定期頻繁的刷新策略,該并行增量方法以原刷新代價(jià)的36.7%獲得了79%的信息精確度,爬蟲(chóng)效率提高了167倍。

    Abstract:

    In response to the explosive growth of online video in multimedia social networks, the use of crawlers in stand-alone mode to extract new video pages is inefficient. a parallel algorithm based on Map/Reduce is proposed, which greatly improves the crawler efficiency. But in order to further handle the problem of data redundancy and reduce outdated page updates, a Improved Accuracy-aware incremental updating algorithm is proposed. The monitoring technique is used to monitor the web page changes, analyze the web page update mode, increase the freshness assessment and dimensionality reduction, and use the improved Mixed Integer Quadratic Programming(MIQP) so to make the optimal Refresh strategy. Experiments show that compared with the frequent refresh strategy in the stand-alone mode, the parallel incremental method achieves 79% of the information accuracy with the original refresh rate of 36.7%, and the crawler efficiency is improved by 167 times.

    參考文獻
    相似文獻
    引證文獻
引用本文

劉芳云,張志勇,李玉祥.基于Hadoop的分布式并行增量爬蟲(chóng)技術(shù)研究計算機測量與控制[J].,2018,26(10):269-275.

復制
分享
文章指標
  • 點(diǎn)擊次數:
  • 下載次數:
  • HTML閱讀次數:
  • 引用次數:
歷史
  • 收稿日期:2018-04-08
  • 最后修改日期:2018-04-25
  • 錄用日期:2018-04-26
  • 在線(xiàn)發(fā)布日期: 2018-10-16
  • 出版日期:
文章二維碼
陆丰市| 巩留县| 龙海市| 临邑县| 南安市| 获嘉县| 台北县| 远安县| 罗山县| 博白县| 乌兰浩特市| 富宁县| 仪陇县| 綦江县| 东宁县| 布拖县| 河南省| 刚察县| 汾西县| 玉屏| 道孚县| 祥云县| 普洱| 若尔盖县| 桂平市| 岳阳县| 磐石市| 台南市| 颍上县| 阜阳市| 平舆县| 泸定县| 江北区| 崇信县| 汤阴县| 丹凤县| 青龙| 凤阳县| 饶平县| 红原县| 裕民县|