背景知識:詞庫的作用
IK 分詞器是一款基於詞典匹配的中文分詞器,其準確性和召回率與 IK 使用的詞庫也有不小的關係。
這裏我們先了解一下詞典匹配法的作用流程:
預先準備一個大規模的詞典,用算法在文本中尋找詞典裏的最長匹配項。這種方法實現簡單且速度快。
但面臨歧義切分和未登錄詞挑戰:同一序列可能有不同切分方式(例如“北京大學生”可以切成“北京大學/生”或“北京/大學生”),需要規則或算法消除
之前介紹 IK 字段級別字典 使用的時候,對於字典的更新只是支持詞典庫的新增,並不支持對存量詞典庫的修改或者刪除。經過這段時間的開發,已經可以兼容詞典庫的更新,主要通過 IK reload API 來實現。
IK reload API
IK reload API 通過對詞典庫的全量重新加載來實現詞典庫的更新或者刪除。用户可以通過下面的命令實現:
# 測試索引準備
PUT my-index-000