Introdução ao NLTK

Instalar o Python

pip install NLTK

pip install matplotlib

import nltk

nltk.download('punkt')

 

texto = 'A briga para ser o vice-líder de vendas no país é a mais acirrada dos últimos anos. Ford Ka e Hyundai HB20 disputam, carro a carro, o posto. O Chevrolet Onix, no entanto, segue sem ser ameaçado na ponta. Em março, o Ka ultrapassou o HB20 no acumulado do ano. A diferença, no entanto, é de apenas 13 unidades.'

 

nltk.tokenize.word_tokenize(texto, language='portuguese')

nltk.tokenize.sent_tokenize(texto, language='portuguese')

Tokeninzação

Tagging

nltk.pos_tag(texto)

Corpus

nltk.download('machado')

 

from nltk.corpus import machado
texto_machado = machado.words('romance/marm05.txt')

 

from string import punctuation

 

nltk.download('stopwords')

stopwords = nltk.corpus.stopwords.words('portuguese') + list(punctuation)

 

palavras = [i for i in nltk.tokenize.word_tokenize(texto) if i not in stopwords]

Stopwords

Frequência

frequencia = nltk.probability.FreqDist(palavras)

 

 

Stemming

nltk.download('rslp')

 

stemmer = nltk.stem.RSLPStemmer()

stemmer.stem("copiar")

stemmer.stem("paisagem")

 

http://www.inf.ufrgs.br/~viviane/rslp/index.htm

Stemming

from nltk.stem import SnowballStemmer

print(SnowballStemmer.languages)

stemmer = SnowballStemmer('portuguese')

stemmer.stem("paisagem")

Referências

https://www.youtube.com/watch?v=siVUal-TeMc

 

https://www.youtube.com/watch?v=PAk7B3Ytxzs

 

https://www.youtube.com/watch?v=ZMCdN1-FSVE

 

https://www.youtube.com/watch?v=IqPWZL5f-7g&list=PLcTXcpndN-Sl9eYrKM6jtcOTgC52EJnqH

 

 

Introdução ao NLTK

By Johni Douglas Marangon

Introdução ao NLTK

  • 754