自然語言處理
入門基礎知識
Date: Apr. 5th, 2020
Lecturer: Chia
目次
-
基礎概念
-
發展歷程
-
基本術語
基礎概念
-
自然語言處理 (Natural Language Processing)
-
結合「語言學」和「計算機科學」的綜合學科。
-
研究目標
-
讓電腦來處理、理解、運用人類語言,達到人機間的有效通訊。
-
什麼是NLP?
程式語言 VS. 自然語言
基礎概念
-
自然語言理解 NLU
-
將人類語言轉成內部計算表示式。
-
牽涉以下學科:音韻學、詞法學、句法學、語義學、語用學。
-
-
自然語言生成 NLG
-
將內部計算表示式轉成人類語言。
-
NLG的三個Level
-
NLP的技術類型
基礎概念
-
詞彙分析 (lexical analysis)
-
分詞 (Segment)
-
詞性標註 (Part-of-speech Tagging, POS Tagging)
-
-
句法分析 (syntactic analysis)
-
句法分析樹
-
-
語義分析 (semantic analysis)
-
語意角色標註(semantic role labeling)
-
NLP的三個層面
基礎概念
- 輿論分析:島民衛星
- 知識圖譜:Google knowledge graph
NLP的研究任務
基礎概念
- 斷詞錯誤
NLP的困難與挑戰
- 推理錯誤
- 語言的演化
- 安史之亂(唐)
- 安屎之亂(2018)
發展歷程
- NLP的發展歷程,從哲學的經驗主義和理性主義說起。
- 經驗主義:基於統計的NLP
- 理性主義:基於規則的NLP
萌芽期 (1956年以前)
早期:「經驗主義(基於統計)」
喬姆斯基時期出現轉變:「理性主義(基於規則)」算是完勝
1950末-1960中:「經驗主義」漸漸東山再起
- 普遍認為:只有詳盡的歷史語料才能帶來靠譜的結論。
- 著名的理論與算法誕生:貝葉斯方法、隱馬爾可夫、最大熵、支援向量機…
- 世界上第一個百萬字的英語電子語料庫誕生:布朗語料庫 (Brown Corpus)
發展歷程
- NLP的發展歷程,從哲學的經驗主義和理性主義說起。
- 經驗主義:基於統計的NLP
- 理性主義:基於規則的NLP
快速發展期 (1980~1999年)
1990年代以來:「經驗主義(基於統計)」大放異彩
- 機器翻譯領域取得突破,因為引入基於語料庫的方法。
- 1990末-2000初:基於規則和統計技術開始融合,NLP再次繁榮。
發展歷程
- NLP的發展歷程,從哲學的經驗主義和理性主義說起。
- 經驗主義:基於統計的NLP
- 理性主義:基於規則的NLP
突飛猛進期 (2000年至今)
- 2006年:Hinton成功設計第一個多層結構的神經網路演算法:深度學習。
-
下列的NLP任務中取得不錯成果:命名實體識別 (Named Entity Recognition, NER)、詞性標註 (Part-of-speech Tagging, POS Tagging)、情感分析 (Sentiment Analysis)、機器翻譯、問答系統
-
基本術語
- 字詞(word)
- 具有獨立語意或扮演特定語法功能、有意義的最小語言單位。
- 中、英文皆有分詞的需求。
- 歧義分詞較難處理。
- Ex:「美國會通過對台售武法案」
- ->「美國/會/通過對台售武法案」
- ->「美/國會/通過對台售武法案」
- Ex:「美國會通過對台售武法案」
分詞/斷詞(Segment)
基本術語
- 指動詞、名詞、形容詞…等詞性的標註。
- 目的:表徵詞的一種隱藏狀態。
詞性標註 (Part-of-speech Tagging, POS Tagging)
命名實體識別 (Named Entity Recognition, NER)
- 從文本中識別具有特定類別的實體
- Ex: 人名、地名、機構名、專有名詞…
基本術語
- 利用語言學專家的知識來構建,最終生成句法分析樹。
- 目的:解析句子中各個成分的依賴關係。(考慮上下文)
句法分析 (Syntax Parsing)
指代消解 (Anaphora Resolution)
- 中文的代詞出現頻率很高,作用為用來表徵前文出現過的人名、地名等。
基本術語
- 對語言建立基於機率統計的模型。
- 核心目的:找到最符合語言習慣的表達(機率最大)
- Ex: N-Grams model,採用馬爾科夫假設:一個詞的出現僅依賴與它前面出現的有限的一個或者幾個詞。
語言模型 (Language Model, LM)
感謝聆聽
Note
NLP_concept.history.phrase
By BessyHuang
NLP_concept.history.phrase
- 348