關(guān)鍵詞:立場檢測 主題短語 關(guān)系矩陣 句向量
摘要:微博立場檢測是判斷一段微博文本針對某一目標(biāo)話題所表達的觀點態(tài)度是支持、中立或反對.隨著社交媒體的發(fā)展,從海量的微博數(shù)據(jù)中挖掘其蘊含的立場信息成為一項重要的研究課題.但是現(xiàn)有的方法往往將其視作情感分類任務(wù),沒有對目標(biāo)話題和微博文本之間的關(guān)系特征進行分析,在基于深度學(xué)習(xí)的分類框架上,擴展并提出了基于Bert-Condition-CNN的立場檢測模型,首先為提高話題在文本中的覆蓋率,對微博文本進行了主題短語的提取構(gòu)成話題集;然后使用Bert預(yù)訓(xùn)練模型獲取文本的句向量,并通過構(gòu)建話題集和微博文本句向量之間的關(guān)系矩陣Condition層來體現(xiàn)兩個文本序列的關(guān)系特征;最后使用CNN對Condition層進行特征提取,分析不同話題對立場信息的影響并實現(xiàn)對立場標(biāo)簽的預(yù)測.該模型在自然語言處理與中文計算會議(NLPCC2016)的數(shù)據(jù)集中取得了較好的效果,通過主題短語擴展后的Condition層有效地提升了立場檢測的準(zhǔn)確度.
計算機系統(tǒng)應(yīng)用雜志要求:
{1}參考文獻按GB/T 7714-2005《文后參考文獻著錄規(guī)則》采用順序編碼制著錄,依照其在文中出現(xiàn)的先后順序用阿拉伯?dāng)?shù)字加方括號標(biāo)出。
{2}文責(zé)自負(fù)。概不接受抄襲稿件。本刊概不退稿,請作者自留底稿。
{3}請勿一稿多投,三個月內(nèi)未接到本刊錄用通知可另行處理。
{4}文題:力求簡明、醒目,反映出文章的主題。中文文題一般以20個漢字以內(nèi)為宜。
{5}正文應(yīng)層次清楚,方便閱讀,行文符合規(guī)范。正文中的各級標(biāo)題分別為:“1”、“1.1”、“1.1.1”等。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社