關(guān)鍵詞:主題爬蟲 主題相關(guān)度
摘要:本文通過對分布式技術(shù)和主題網(wǎng)絡(luò)爬蟲的研究,設(shè)計了一個能處理海量數(shù)據(jù)的分布式主題爬蟲。設(shè)計內(nèi)容主要包括分布式主題網(wǎng)絡(luò)爬蟲的各個功能模塊及其實現(xiàn)方法。如頁面的主題相關(guān)度判定方法、URL去重過濾方法等。主要使用了Hadoop技術(shù)和向量空間模型。該分布式主題爬蟲的研究與設(shè)計為后面分布式主題爬蟲的實現(xiàn)奠定了基礎(chǔ)。
計算機光盤軟件與應(yīng)用雜志要求:
{1}文章正文的標(biāo)題、表格、圖、公式以及腳注應(yīng)分別連續(xù)編號。
{2}參考文獻:本刊參考文獻附于文末,執(zhí)行國家標(biāo)準(zhǔn)《信息與文獻參考文獻著錄規(guī)則》GB7714—2015的規(guī)定,序號用數(shù)字加方括號表示,如[1]、[2]...
{3}中文摘要為150-300字。摘要的內(nèi)容應(yīng)包括目的、方法、實驗結(jié)果和結(jié)論;綜述性、評論性文章可寫指示性摘要。摘要中不應(yīng)出現(xiàn)“本文、我們、作者”之類的詞語。
{4}請作者提交附件,注明姓名,職稱,所在學(xué)術(shù)機構(gòu),通訊地址,電話,電子郵箱。
{5}基金項目名稱應(yīng)按照國家有關(guān)部門規(guī)定的正式名稱填寫,多項基金項目應(yīng)依次列出,其間以分號隔開。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社