自然語言處理

入門基礎知識

Date: Apr. 5th, 2020

Lecturer: Chia

目次

  • 基礎概念

  • 發展歷程

  • 基本術語

基礎概念

  • 自然語言處理 (Natural Language Processing)

  • 結合「語言學」和「計算機科學」的綜合學科。

  • 研究目標

    • 讓電腦來處理、理解、運用人類語言,達到人機間的有效通訊。

什麼是NLP?

程式語言 VS. 自然語言

基礎概念

  • 自然語言理解 NLU

    • 將人類語言轉成內部計算表示式。

    • 牽涉以下學科:音韻學、詞法學、句法學、語義學、語用學。

  • 自然語言生成 NLG

    • 將內部計算表示式轉成人類語言。

    • NLG的三個Level

NLP的技術類型

基礎概念

  1. 詞彙分析 (lexical analysis)

    • 分詞 (Segment)

    • 詞性標註 (Part-of-speech Tagging, POS Tagging)

  2. 句法分析 (syntactic analysis)

    • 句法分析樹

  3. 語義分析 (semantic analysis)

    • 語意角色標註(semantic role labeling)

NLP的三個層面

基礎概念

  • 輿論分析:島民衛星
  • 知識圖譜:Google knowledge graph

NLP的研究任務

基礎概念

  • 斷詞錯誤

NLP的困難與挑戰

  • 推理錯誤
  • 語言的演化
    • 安史之亂(唐)
    • 安屎之亂(2018)

發展歷程

  • NLP的發展歷程,從哲學的經驗主義和理性主義說起。
    • 經驗主義:基於統計的NLP
    • 理性主義:基於規則的NLP

萌芽期 (1956年以前)

早期:「經驗主義(基於統計)」

喬姆斯基時期出現轉變:「理性主義(基於規則)」算是完勝

1950末-1960中:「經驗主義」漸漸東山再起

  • 普遍認為:只有詳盡的歷史語料才能帶來靠譜的結論。
  • 著名的理論與算法誕生:貝葉斯方法、隱馬爾可夫、最大熵、支援向量機…
  • 世界上第一個百萬字的英語電子語料庫誕生:布朗語料庫 (Brown Corpus)

發展歷程

  • NLP的發展歷程,從哲學的經驗主義和理性主義說起。
    • 經驗主義:基於統計的NLP
    • 理性主義:基於規則的NLP

快速發展期 (1980~1999年)

1990年代以來:「經驗主義(基於統計)」大放異彩

  • 機器翻譯領域取得突破,因為引入基於語料庫的方法。
  • 1990末-2000初:基於規則和統計技術開始融合,NLP再次繁榮。

發展歷程

  • NLP的發展歷程,從哲學的經驗主義和理性主義說起。
    • 經驗主義:基於統計的NLP
    • 理性主義:基於規則的NLP

突飛猛進期 (2000年至今)

  • 2006年:Hinton成功設計第一個多層結構的神經網路演算法:深度學習。
    • 下列的NLP任務中取得不錯成果:命名實體識別 (Named Entity Recognition, NER)、詞性標註 (Part-of-speech Tagging, POS Tagging)、情感分析 (Sentiment Analysis)、機器翻譯、問答系統

基本術語

  • 字詞(word)
    • 具有獨立語意或扮演特定語法功能、有意義的最小語言單位。
  • 中、英文皆有分詞的需求。
  • 歧義分詞較難處理。
    • Ex:「美國會通過對台售武法案」
      • ->「美國/會/通過對台售武法案」
      • ->「美/國會/通過對台售武法案」

分詞/斷詞(Segment)

基本術語

  • 指動詞、名詞、形容詞…等詞性的標註。
  • 目的:表徵詞的一種隱藏狀態。

詞性標註 (Part-of-speech Tagging, POS Tagging)

命名實體識別 (Named Entity Recognition, NER)

  • 從文本中識別具有特定類別的實體
    • Ex: 人名、地名、機構名、專有名詞…

基本術語

  • 利用語言學專家的知識來構建,最終生成句法分析樹。
  • 目的:解析句子中各個成分的依賴關係。(考慮上下文)

句法分析 (Syntax Parsing)

指代消解 (Anaphora Resolution)

  • 中文的代詞出現頻率很高,作用為用來表徵前文出現過的人名、地名等。

基本術語

  • 對語言建立基於機率統計的模型。
  • 核心目的:找到最符合語言習慣的表達(機率最大)
    • Ex: N-Grams model,採用馬爾科夫假設:一個詞的出現僅依賴與它前面出現的有限的一個或者幾個詞。

語言模型 (Language Model, LM)

感謝聆聽

Note

Made with Slides.com