摘要:民航安全自愿報告系統收集的海量故障報告以非結構化文本形式存儲,不便于相關(guān)人員針對大量不正常事件加以分析并采取控制措施;命名實(shí)體識別技術(shù)可以將海量非結構化文本中的關(guān)鍵要素進(jìn)行檢測和識別,抽取成類(lèi)別分明的結構化信息,作為進(jìn)一步分析不正常事件并加以控制的基礎工作;將機場(chǎng)不正常事件報告作為研究對象,提出了一種基于神經(jīng)網(wǎng)絡(luò )的中文命名實(shí)體識別模型,對文本進(jìn)行了結構化處理;針對隨機選用的訓練樣本一些實(shí)體類(lèi)別分布比較稀疏和人工標注費時(shí)費力的問(wèn)題,提出了基于模型預測分數的樣本選擇策略,實(shí)現了預標注樣本的高效篩選;經(jīng)過(guò)實(shí)驗驗證,該模型與BiLSTM_CRF模型、BiLSTM_self-attention_CRF模型相比F1值均提高了約6個(gè)百分點(diǎn),該樣本選擇策略明顯提高了人工標注效率,篩選出足夠多的含有稀疏實(shí)體的樣本。