關(guān)鍵詞:降維 文本分類 主成分分析 信息增益率 特征選擇
摘要:由于文本分類中的特征空間高維稀疏,傳統(tǒng)單一的降維方法難以滿足實(shí)際大數(shù)據(jù)分類需求。針對這種情況,提出一種兩階段的混合特征選擇方法。第一階段計算每個特征詞的信息增益率并進(jìn)行排序,然后根據(jù)設(shè)定的閾值進(jìn)行特征詞的選擇。第二階段利用主成分分析方法將第一階段輸出的仍保持高維特性的高維特征空間映射到低維新特征空間。實(shí)驗(yàn)結(jié)果表明,與單一的傳統(tǒng)方法比較,混合特征選擇方法實(shí)現(xiàn)了二次降維,不但減少了計算開銷,還提高了分類性能。
計算機(jī)應(yīng)用與軟件雜志要求:
{1}文章關(guān)鍵要素,需有英文摘要。
{2}文章主題明確,數(shù)據(jù)可靠,書寫準(zhǔn)確,圖表清晰,文字簡練,內(nèi)容齊全完整。來稿應(yīng)含以下部分:中英文題名、中英文摘要、中英文關(guān)鍵詞、中圖分類號(本編輯部亦可代查)、正文以及必要的圖表、參考文獻(xiàn)。
{3}文稿要一稿一投,嚴(yán)禁各類侵權(quán)行為。
{4}前言應(yīng)充分說明研究工作的背景、意義、本文擬解決的問題、采用的方法和手段,引出重要文獻(xiàn),全面評述相關(guān)研究工作,突出本工作的重要性和創(chuàng)新性,不要忽視國內(nèi)同行的工作。
{5}稿件注釋一律采用 “腳注”。注釋規(guī)則請參下附《注釋規(guī)范》,請投稿者嚴(yán)格遵循。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社