久热精品在线视频,思思96精品国产,午夜国产人人精品一区,亚洲成在线a

<s id="x4lik"><u id="x4lik"></u></s>

      <strong id="x4lik"><u id="x4lik"></u></strong>

      基于弱標(biāo)注數(shù)據(jù)的漢語分詞領(lǐng)域移植

      朱運; 李正華; 黃德朋; 張民 蘇州大學(xué)計算機科學(xué)與技術(shù)學(xué)院; 江蘇蘇州215006

      關(guān)鍵詞:漢語分詞 領(lǐng)域移植 弱標(biāo)注數(shù)據(jù) 

      摘要:近年來,基于神經(jīng)網(wǎng)絡(luò)的分詞模型在封閉領(lǐng)域文本上取得了很高的性能。然而,在領(lǐng)域移植場景下,即測試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)的領(lǐng)域差異較大時,分詞的性能會顯著下降。該文嘗試?yán)米詣荧@取的弱標(biāo)注數(shù)據(jù)來提升領(lǐng)域移植場景下的分詞性能。首先,對目前性能最好的BiLSTM-CRF分詞模型進(jìn)行擴展,引入適用于弱標(biāo)注數(shù)據(jù)的損失函數(shù);進(jìn)而提出一種簡單有效的數(shù)據(jù)篩選方法,從海量弱標(biāo)注數(shù)據(jù)中篩選和目前領(lǐng)域更相關(guān)的數(shù)據(jù);最后,該文發(fā)現(xiàn)數(shù)據(jù)預(yù)處理和在神經(jīng)網(wǎng)絡(luò)中引入傳統(tǒng)特征均可以有效提高分詞性能。在SIGHAN Bakeoff 2010和ZhuXian標(biāo)注測試集上的實驗結(jié)果表明,該文所提方法可有效提升漢語分詞領(lǐng)域移植性能,平均F值提高了3.6%。

      中文信息學(xué)報雜志要求:

      {1}本刊對刊發(fā)的文章?lián)碛邪鏅?quán),不得擅自轉(zhuǎn)載、改編。凡轉(zhuǎn)載、改編務(wù)經(jīng)我刊同意,違者必究。

      {2}作者簡介包括:姓名、性別、出生年月、畢業(yè)學(xué)校及所學(xué)專業(yè)、工作單位、職務(wù)職稱、現(xiàn)從事的研究工作情況。

      {3}來稿若屬國家自然科學(xué)基金項目或省部基金項目,請在文稿中標(biāo)明其基金來源和編號,我刊可以優(yōu)先審核發(fā)表。

      {4}正文內(nèi)連續(xù)敘述中的序號采用①……;②……;③……。分級超過3級后用網(wǎng)括號如:“①”,“②”表示,并采用連排。

      {5}附注請一律使用當(dāng)頁腳注的形式,以帶圈①……⑩的方式編號,使用每頁重新編號的方式。

      注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社

      中文信息學(xué)報

      北大期刊
      1-3個月下單

      關(guān)注 16人評論|0人關(guān)注
      相關(guān)期刊
      服務(wù)與支付