Natural Language Processing (NLP)
Какво е NLP?

Natural Language Processing
- Под-разделение на AI, което дава възможност на компютрите да разбират човешки език
- Компютрите могат да работят перфектно със структурирана информация като бази данни или таблици
- Но човешкият език не може да бъде поставен в рамка с точно определени правила и синтаксис
- Много думи имат различни значения, които зависи от контекста
- Чрез алгоритмите за NLP човешкият език може да се превърне в разбираем и за компютрите
NLP Pipeline
"London is the capital and most populous city of England and the United Kingdom. Standing on the River Thames in the south-east of the island of Great Britain, London has been a major settlement for two millennia. It was founded by the Romans, who named it Londinium."
Какво искаме да разбере компютъра:
- Лондон е столицата на Англия и UK
- Лондон е разположен около река Темза
- Основан е от римляните
Стъпка 1: Разбиване на праграфа на изречения
- “London is the capital and most populous city of England and the United Kingdom.”
- “Standing on the River Thames in the south-east of the island of Great Britain, London has been a major settlement for two millennia.”
- “It was founded by the Romans, who named it Londinium.”
Първата и най-лесна част е да разделим параграфа на отделни изречения.
Стъпка 2: Разбиване на изреченията на думи
“London”, “is”, “ the”, “capital”, “and”, “most”, “populous”, “city”, “of”, “England”, “and”, “the”, “United”, “Kingdom”, “.”
Стъпка 3: Определяне на каква част от речта съответства всяка дума


Стъпка 4: Лематизация на текста
(или намиране на базовата форма на всяка дума)
- Думите имат различни форми. Например глаголите могат да бъдат в сегашно или минало време, съществителните имена да са в единствено или множествено число и т.н.
- При NLP този проблем се решава чрез използването на таблици с различните форми на лемите

Стъпка 5: Премахване на "шума"
- В човешкия език се срещат доста ненужни за компютрите думи, които не носят особено голям смисъл за разбирането на изречението
- Те служат за пояснения и благозвучие на езика

Стъпка 6: Намиране на зависимости
- Следващият етап е намирането на зависимостите между различните думи в изречението.


Стъпка 7: Named Entity Recognition (NER)
- Named Entity Recognition откриват информация за обекти от реалността.

Стъпка 8: Намиране на връзка между изреченията
- “It was founded by the Romans, who named it Londinium.”

Благодаря за вниманието!
Natural Language Processing (NLP)
By Martin Markov
Natural Language Processing (NLP)
- 15