久热精品在线视频,思思96精品国产,午夜国产人人精品一区,亚洲成在线a

<s id="x4lik"><u id="x4lik"></u></s>

      <strong id="x4lik"><u id="x4lik"></u></strong>

      基于均值漂移算法的文本聚類數(shù)目優(yōu)化研究

      趙華茗; 余麗; 中國科學院文獻情報中心; 北京100190

      關鍵詞:均值漂移 文本聚類 聚類數(shù) 聚類有效性 

      摘要:【目的】探索最佳文本聚類數(shù)目的優(yōu)化方法,為提升文本聚類算法的有效性和質(zhì)量提供參考?!痉椒ā拷Y合TF-IDF和Word2Vec算法,提取TopN關鍵詞向量作為語料庫文本特征表達;結合均值漂移算法、聚類有效性指標(Silhouette)和均方誤差(MSE)指標,確定最佳文本聚類數(shù)目?!窘Y果】Top 4 500關鍵詞向量規(guī)模能較好呈現(xiàn)文本特征;基于均值漂移算法確定的最佳文本聚類數(shù)與人工研判優(yōu)化的聚類數(shù)相符?!揪窒蕖窟x取的實驗數(shù)據(jù)集合不夠充足,缺少在其他領域的應用對比?!窘Y論】本文方法可以在無監(jiān)督方式下高質(zhì)量完成文本聚類個數(shù)的確定。

      數(shù)據(jù)分析與知識發(fā)現(xiàn)雜志要求:

      {1}所有作者的作者簡介(姓名、工作單位、職稱、研究方向);通訊作者請再提供電子郵箱。

      {2}稿件文責自負。編輯部有權對來稿進行文字和技術性刪改,對實質(zhì)性內(nèi)容的修改,則應征求作者同意。

      {3}標題序號:可按四級小標題的格式寫:一、(一)、1、(1);一級、二級標題另起段,正文另起段;三級、四級小標題另起段,但正文接排;正文內(nèi)序號用①……②……等。

      {4}參考文獻:(1)正文格式:作者,發(fā)表年(多版次文獻請同時提供第 1 版的發(fā)表時間),頁碼,外加圓括號。(2)文末格式:中、外文獻分開,各按音序排列。

      {5}摘要應反映論文的目的、方法及主要結果、結論,并充分反映論文的創(chuàng)新點,表達簡明、語義確切,以100 ~300 字為宜。

      注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社

      數(shù)據(jù)分析與知識發(fā)現(xiàn)

      CSSCI南大期刊
      1-3個月下單

      關注 8人評論|1人關注
      相關期刊
      服務與支付