Natural Language Processing (NLP)

Какво е NLP?

Natural Language Processing

  • Под-разделение на AI, което дава възможност на компютрите да разбират човешки език
  • Компютрите могат да работят перфектно със структурирана информация като бази данни или таблици
  • Но човешкият език не може да бъде поставен в рамка с точно определени правила и синтаксис
  • Много думи имат различни значения, които зависи от контекста
  • Чрез алгоритмите за NLP човешкият език може да се превърне в разбираем и за компютрите

NLP Pipeline

"London is the capital and most populous city of England and the United Kingdom. Standing on the River Thames in the south-east of the island of Great Britain, London has been a major settlement for two millennia. It was founded by the Romans, who named it Londinium."

Какво искаме да разбере компютъра:

  • Лондон е столицата на Англия и UK
  • Лондон е разположен около река Темза
  • Основан е от римляните

Стъпка 1: Разбиване на праграфа на изречения

  1. “London is the capital and most populous city of England and the United Kingdom.”
  2. “Standing on the River Thames in the south-east of the island of Great Britain, London has been a major settlement for two millennia.”
  3. “It was founded by the Romans, who named it Londinium.”

Първата и най-лесна част е да разделим параграфа на отделни изречения. 

Стъпка 2: Разбиване на изреченията на думи

“London”, “is”, “ the”, “capital”, “and”, “most”, “populous”, “city”, “of”, “England”, “and”, “the”, “United”, “Kingdom”, “.”

Стъпка 3: Определяне на каква част от речта съответства всяка дума

Стъпка 4: Лематизация на текста

(или намиране на базовата форма на всяка дума)

  • Думите имат различни форми. Например глаголите могат да бъдат в сегашно или минало време, съществителните имена да са в единствено или множествено число и т.н.
  • При NLP този проблем се решава чрез използването на таблици с различните форми на лемите

Стъпка 5: Премахване на "шума"

  • В човешкия език се срещат доста ненужни за компютрите думи, които не носят особено голям смисъл за разбирането на изречението
  • Те служат за пояснения и благозвучие на езика

Стъпка 6: Намиране на зависимости

  • Следващият етап е намирането на зависимостите между различните думи в изречението.

Стъпка 7: Named Entity Recognition (NER)

  • Named Entity Recognition откриват информация за обекти от реалността.

Стъпка 8: Намиране на връзка между изреченията

  • “It was founded by the Romans, who named it Londinium.”

Благодаря за вниманието!

Made with Slides.com