博客 / 詳情

返回

【技術白皮書】第五章:信息抽取技術的未來發展趨勢和麪臨的挑戰


5.信息抽取技術的未來發展趨勢和麪臨的挑戰

5.1 NER技術的未來發展趨勢和麪臨的挑戰

論文《 Survey on Deep Learning for Named Entity Recognition》總結了NER技術面臨的挑戰和未來發展方向。隨着建模語言的進步和實際應用的需求,NER會得到研究人員更多的關注。另一方面,NER通常被視為下游應用程序的預處理組件。這意味着特定的NER任務由下游應用程序的需求定義,例如,命名實體的類型以及是否需要檢測嵌套實體。

以下是NER研究的以下進一步探索方向。

1.細粒度NER和邊界檢測。
雖然許多現有研究(《Neural architectures for named entity recognition》、《End-to-end sequence labeling via bidirectional lstm-cnns-crf》、《Robust lexical features for improved neural network named-entity recognition》)都集中在一般領域的粗粒度NER上,但論文期望在特定領域對細粒度NER進行更多研究,以支持各種實際的word應用(《Software-specific named entity recognition in software engineering social content》)。細粒度NER面臨的挑戰是命名實體類型的顯著增加,以及允許一個命名實體具有多個命名實體類型所帶來的複雜性。這需要重新訪問常見的NER方法,其中實體邊界和類型同時被檢測,例如,通過使用B-I-E-S-(實體類型)和O作為解碼標籤。值得考慮的是,將命名實體邊界檢測定義為一項專用任務,以檢測命名實體邊界,同時忽略命名實體類型。

邊界檢測和命名實體類型分類的解耦實現了邊界檢測的通用和魯棒的解決方案,這些解決方案可以在不同領域共享,併為命名實體類型分類提供了專用的領域特定方法。正確的實體邊界還能有效地緩解實體鏈接到知識庫中的錯誤傳播。已經有一些研究,認為實體邊界檢測是NER中的中間步驟(即子任務)。據論文所知,目前還沒有專門針對實體邊界檢測的工作來提供一個魯棒的識別器。論文期待着在未來這一研究方向的突破。

2.聯合NER和實體鏈接。
實體鏈接(EL)也稱為命名實體規範化或消歧,旨在參考知識庫為文本中提到的實體分配唯一身份,例如通用領域的維基百科和生物醫學領域的統一醫學語言系統(UMLS)。大多數現有工作將NER和EL單獨作為流水線(pipeline)設置中的兩個獨立任務來解決。論文認為,成功鏈接的實體(例如,通過知識庫中的相關實體)所攜帶的語義顯著豐富。也就是説,鏈接實體有助於成功檢測實體邊界和正確分類實體類型。值得探索聯合執行NER和EL,甚至實體邊界檢測、實體類型分類和實體鏈接的方法,以便每個子任務都能從其他子任務的部分輸出中受益,並減少流水線(pipeline)設置中不可避免的錯誤傳播。

3.有輔助資源的非正式文本上基於DL的NER
基於非正式文本或用户生成內容的DL-NER的性能仍然很低。這需要在這方面進行更多的研究。特別是,論文注意到,NER的性能顯著受益於輔助資源的可用性,例如用户語言中的位置名稱詞典。雖然沒有提供強有力的證據表明,涉及地名詞典,作為額外的特徵可以導致NER在通用領域的性能提升,但論文認為輔助資源往往是必要的,以更好地瞭解用户生成的內容。問題是如何為用户生成的內容或特定領域的文本上的NER任務獲取匹配的輔助資源,以及如何有效地將輔助資源合併到基於深度學習的NER中。

4.基於DL的NER的可伸縮性。
使神經網絡模型更具可伸縮性仍然是一個挑戰。此外,當數據量增加時,仍然需要優化參數指數增長的解決方案(《A review on deep learning for recommender systems: challenges and remedies》)。一些基於DL的NER模型以巨大的計算能力為代價取得了良好的性能。例如,ELMo表示用3×1024維向量表示每個單詞,模型在32個GPU上訓練了5周(《Contextual string embeddings for sequence labeling》)。Google BERT表示在64個雲TPU上進行訓練。然而,如果終端用户無法訪問強大的計算資源,他們就無法對這些模型進行微調。開發平衡模型複雜性和可伸縮性的方法將是一個有前途的方向。另一方面,模型壓縮和剪枝技術也可以用來減少模型學習所需的空間和計算時間。

5.NER的深度遷移學習。
許多以實體為中心的應用程序求助於現成的NER系統來識別命名實體。然而,由於語言特徵的差異以及註釋的差異,在一個數據集上訓練的模型可能無法在其他文本上很好地工作。儘管有一些研究將深度遷移學習應用於NER,但這個問題尚未得到充分探討。未來應致力於如何通過探索以下研究問題,有效地將知識從一個領域轉移到另一個領域:(a)開發一個能夠跨不同領域工作的魯棒識別器;(b) 探索NER任務中的zero-shot, one-shot 和 few-shot learning;(c) 提供解決跨域設置中的域不匹配和標籤不匹配的解決方案。

6.一個易於使用的工具包,用於基於DL的NER。
最近,Röder等人開發了GERBIL(《GERBIL - benchmarking named entity recognition and linking consistently》),它為研究人員、最終用户和開發人員提供了易於使用的界面,用於對實體註釋工具進行基準測試,目的是確保可重複和可架構的實驗。然而,它不涉及最新的基於DL的技術。Ott介紹了FAIRSEQ(《fairseq: A fast, extensible toolkit for sequence modeling》),這是一個快速、可擴展的序列建模工具包,特別是用於機器翻譯和文本描述。Dernoncourt等人實現了一個名為NeuroNER的框架(《NeuroNER: an easy-to-use program for named-entity recognition based on neural networks》),它只依賴於循環神經網絡的一個變體。近年來,許多深度學習框架(例如TensorFlow、PyTorch和Keras)被設計為通過高級編程接口為設計、訓練和驗證深度神經網絡提供構建模塊。論文設想,一個易於使用的NER工具包可以指導開發人員使用一些標準化模塊來完成它:數據處理、輸入表示、上下文編碼器、標記解碼器和有效性度量。論文相信,專家和非專家都可以從這些工具包中受益。

7.數據標註。
受監督的NER系統,包括基於深度學習的NER,在訓練中需要大量帶標註的數據。然而,數據標註非常耗時和昂貴。對於許多資源匱乏的語言和特定領域來説,這是一個巨大的挑戰,因為需要相關領域專家來執行數據標註的任務。
由於語言的模糊性,標註的質量和一致性都是主要問題。例如,同一個命名實體可以用不同的類型進行註釋。例如,““Baltimore defeated the Yankees”一句中的“Baltimore”,在MUC-7中被標記為位置,在CoNLL03中被標記為組織。在CoNLL03和ACE數據集中,“Empire State ”和“Empire State Building”都被標記為位置,導致實體邊界混亂。由於數據標註的不一致性,即使兩個數據集中的文檔來自同一個域,在一個數據集中訓練的模型在另一個數據集中也可能無法很好地工作。
為了使數據註釋更加複雜,Katiyar和Cardie(《Nested named entity recognition revisited》)報告説嵌套實體相當常見:GENIA語料庫中17%的實體嵌入到另一個實體中;在ACE語料庫中,30%的句子包含嵌套實體。需要開發適用於嵌套實體和細粒度實體的通用註釋方案,其中一個命名實體可以被分配多種類型。

8.非正式文本和沒見過的實體。
正式文件(如新聞文章)的數據集報告了不錯的結果。然而,在用户生成的文本上,最佳準確率分數略高於40%。非正式文本(如推文、評論、用户論壇)的NER比正式文本更具挑戰性,因為其簡短並有噪聲。許多用户生成的文本也是特定領域的。在許多應用場景中,NER系統必須處理用户生成的文本,例如電子商務和銀行中的客户支持。評估NER系統的魯棒性和有效性的另一個有趣維度是,它能夠在新出現的文本中識別不尋常的、以前沒見過的實體。

5.2實體關係抽取技術的未來發展趨勢和麪臨的挑戰

在北京林業大學的論文《實體關係抽取方法研究綜述》中提出:目前,實體關係抽取技術日漸成熟,但依然需要研究人員投入大量精力進行不斷探索,通過對現有實體關係抽取研究工作進行總結,在以後的研究中可以從5個方面展開相關的研究。

1.從二元關係抽取到多元關係抽取的轉化。
當前的關係抽取系統主要集中在2個實體之間的二元關係抽取,但並非所有的關係都是二元的,如有些關係實例需要考慮時間和地點等信息,所以會考慮更多的論元。目前已有相關論文提出針對多元關係抽取的方法,但該方法與二元關係抽取模型相比,在準確率和召回率上仍有較大的差距。如何根據上下文信息,識別跨越句子的多元實體關係,提高關係抽取的準確率和智能化,這促使研究者不斷投入更多的精力。

2.開放領域的實體關係抽取的深入研究。
目前的研究工作大多面向特定的關係類型或者特定領域,而使用特定的語料庫,很難做到其他領域的自動遷移。雖然,一些研究者針對開放領域的關係抽取進行了研究,提出了一系列的方法用於實體關係抽取,然而這類方法和特定領域相比仍有一定的差距。如何不斷提高系統的準確率、可移植性以及可擴展性,這都激勵着研究人員投入更多的精力和時間,促進開放領域的實體關係抽取的發展。

3.遠程監督關係抽取方法得到不斷改進。
目前,由於遠程監督的方法仍然存在錯誤標籤和誤差傳播2個主要問題,研究者多是基於這些問題對深度學習的關係抽取模型加以改進。為了避免產生過多的錯誤標籤,人們主要採用多示例、注意力機制的方法等方法減少噪音數據。目前已有相關方法融合增強學習和遠程監督方法的優點,不斷地減少錯誤標籤,進而降低負類數據對關係抽取模型的影響。針對誤差傳播的問題,研究者多是對句子的語義信息進行深入挖掘,而對句子語法信息卻少有涉及。如何有效地解決遠程監督產生的錯誤標籤和誤差傳播,如何有效地融合語法和語義信息,這些問題將激勵着研究者不斷改進相關算法,不斷提高深度學習方法的性能。

4.深度學習有監督方法的性能提升。
近年來,越來越多的研究人員關注於聯合學習和基於圖結構的抽取方法。聯合學習將命名實體識別和關係抽取作為一個任務,減少了錯誤信息的積累和傳播,也減少了冗餘信息對模型的影響。而針對關係重疊和實體間潛在特徵等問題,基於圖結構的抽取方法提供了一些新的思路。然而這2種方法的性能還需進一步改進,不斷促進信息抽取領域的發展。

5.工業級實體關係抽取系統的繼續研發。
關係抽取現已被廣泛應用於智能搜索、智能問答、個性化推薦、內容分發、權限管理,人力資源管理等領域。通過對學術研究和市場需求進行深入地融合,不斷提高實體關係抽取的可靠性、置信度、執行效率等,促進關係抽取模型的性能進一步得到提升,為人們的生活提供更多便利。

5.3事件抽取技術的未來發展趨勢和麪臨的挑戰

在文本挖掘中,事件提取是一項重要且具有挑戰性的任務,它主要從描述事件的相關文本中學習事件的結構化表示。事件提取主要分為兩個子任務:事件檢測和參數提取。事件抽取的核心是識別文本中與事件相關的詞,並將其分類。基於深度學習模型的事件提取方法自動提取特徵,避免了手工設計特徵的繁瑣工作。事件提取任務被構造為一個端到端系統,使用具有豐富語言特徵的詞向量作為輸入,以減少底層NLP工具造成的錯誤。以前的方法側重於研究有效特徵,以獲取候選觸發器、候選參數的詞彙、句法和語義信息。此外,他們還探討了觸發器和與同一觸發器相關的多個實體之間的依賴關係,以及與同一實體相關的多個觸發器之間的關係。根據事件提取的特點和目前的研究現狀,論文總結了以下技術挑戰。

事件抽取語料庫面臨的挑戰

1.事件提取數據集構建。
事件提取任務複雜,現有的預訓練模型缺乏對事件提取任務的學習。現有的事件提取數據集只有少量的標記數據,手工標註事件提取數據集的時間成本較高。因此,構建大規模事件提取數據集或設計自動構建事件提取數據集也是未來的研究趨勢。

2.新的數據集。
事件提取的數據集很小。深度學習結合外部資源,構建大規模數據集,取得了良好的效果。由於標記數據集的構建困難,且數據集規模較小,如何更好地利用深度學習,藉助外部資源有效地提取事件,也是一個迫切的研究方向。

3.事件提取模式。
事件提取方法可分為封閉域事件提取方法和開放域事件提取方法。沒有模式的事件提取方法的效果很難評估,基於模板的事件提取方法需要根據不同的事件類型設計不同的事件模式。因此,如何設計一個通用的事件抽取基於事件特徵的模式是克服構建事件抽取數據集和類間知識共享困難的重要手段。

事件提取模型的挑戰

1.依賴學習
目前,基於BERT的事件提取方法已經成為主流。然而,事件提取不同於訓練前由BERT模型學習的任務。參數提取需要考慮事件參數角色之間的關係,以提取同一事件類型下的不同角色。它需要事件提取模型來學習文本的語法依賴關係。因此,建立事件參數之間的依賴關係是全面、準確地提取每種事件類型的參數亟待解決的問題。

2.端到端學習模型
與傳統方法相比,基於聯合模型的深度學習方法的優勢在於聯合表示形式。事件提取取決於實體的標籤。因此,本文認為,建立基於深度學習的端到端自主學習模型是一個值得研究和探索的方向,如何設計多任務多聯動的學習模型是一個重大挑戰。

3.多事件提取。
根據事件提取的粒度不同,事件提取可分為句子級事件提取和文檔級事件提取。關於句子級事件抽取的研究已經很多。然而,文檔級事件提取仍處於探索階段,文檔級事件提取更接近實際應用。因此,如何設計文本的多事件抽取方法具有重要的研究意義。

4.域事件提取。
域文本通常包含大量的技術術語,這增加了域事件提取的難度。因此,如何設計有效的方法來理解領域文本中深層的語義信息和上下文對應關係已成為亟待解決的問題。


參考文獻:
  • Jing Li, Aixin Sun, Jianglei Han, and Chenliang Li,“A Survey on Deep Learning for Named Entity Recognition,” IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2020
  • 李冬梅,張揚,李東遠,林丹瓊 .實體關係抽取方法研究綜述[J]. 計算機研究與發展,2020,57(7)
  • Qian Li, Jianxin Li, Jiawei Sheng, Shiyao Cui, Jia Wu,Yiming Hei, Hao Peng,Shu Guo, Lihong Wang, Amin Beheshti, and Philip S ,“A Compact Survey on Event Extraction: Approaches and Applications,“ IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, VOL. 14, NO. 9, NOVEMBER 2021
user avatar
0 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.