dr Bogna Zacny

Katedra Inżynierii Wiedzy

Wydział Informatyki i Komunikacji

Czy komputer potrafi czytać?

Agenda

  • Python
    • obiekty
    • operacje
  • Analiza tekstu
    • Przygotowanie tekstu
    • Istotność słów

Python

Język programowania wysokiego poziomu, ogólnego przeznaczania

 

Charakteryzuje się przejrzystością i zwięzłością

 

Skrypty nie są kompilowane tylko interpretowane przez dedykowany interpreter

Typy danych

Atomowe 

 

Kolekcje

Typy danych

Atomowe

Typy danych

Atomowe

tekstowe

a = 'p'
b = '1'
c = '.'

Typy danych

Atomowe

tekstowe

a = 'p'
b = '1'
c = '.'

liczbowe

a = 123
b = 12.3
c = 0.8721

Typy danych

Kolekcje

Typy danych

Kolekcje

lista =>[ ]
a = ['mój', 'samochód', 'mój', 'wybór']
b = ['Meritum', 'ZSTiO', 2019]
c = [1, 1, 2, 3, 4.5, 1201, 1]

Typy danych

Kolekcje

lista =>[ ]
a = ['mój', 'samochód', 'mój', 'wybór']
b = ['Meritum', 'ZSTiO', 2019]
c = [1, 1, 2, 3, 4.5, 1201, 1]
d = 'Meritum'

Typy danych

Kolekcje

lista =>[ ]
a = ['mój', 'samochód', 'mój', 'wybór']
b = ['Meritum', 'ZSTiO', 2019]
c = [1, 1, 2, 3, 4.5, 1201, 1]
zbiór =>{ }
a = {'samochód', 'mój', 'wybór'}
b = {'Meritum', 'ZSTiO', 2019}
c = {1, 2, 3, 4.5, 1201}

Typy danych

Kolekcje

lista =>[ ]
a = ['mój', 'samochód', 'mój', 'wybór']
b = ['Meritum', 'ZSTiO', 2019]
c = [1, 1, 2, 3, 4.5, 1201, 1]
zbiór =>{ }
a = {'samochód', 'mój', 'wybór'}
b = {'Meritum', 'ZSTiO', 2019}
c = {1, 2, 3, 4.5, 1201}
słowik =>{:}
a = {'imię': 'Jan', 'nazwisko': 'Nowak', 'wiek': 23}
b = {'dok1': ['mój', 'samochód', 'mój', 'wybór'],
     'dok2': ['mocna', 'herbata', 'na', 'nastrój']}

dok1 = {'mój': 2, 'samochód': 1, 'wybór': 1}

Iteracja

Pętla iteracyjna

 

Pętla repetycyjna

for

 

while

Iteracja

for 
for i in range(5):
    print(i)

Pętla iteracyjna

Iteracja

for 
for i in range(5):
    print(i)

Pętla iteracyjna

0
1
2
3
4

Iteracja

for 
for i in [11, 22, 33]:
    print(i)

Pętla iteracyjna

11
22
33

Iteracja

for 
for i in 'ABC':
    print(i)

Pętla iteracyjna

A
B
C

Iteracja

for 

Pętla iteracyjna

lista = [0,0,0,0,0,0,0,0,0,0]

for i in range(10):
    lista[i] = i

print(lista)

Iteracja

for 

Pętla iteracyjna

lista = [0,0,0,0,0,0,0,0,0,0]

for i in range(10):
    lista[i] = i

print(lista)
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

Iteracja

Pętla iteracyjna - tworzenie kolekcji

Iteracja

Pętla iteracyjna - tworzenie kolekcji

lista = [0,0,0,0,0,0,0,0,0,0]

for i in range(10):
    lista[i] = i

print(lista)
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

Iteracja

lista = [i for i in range(10)]
print(lista)

Pętla iteracyjna - tworzenie kolekcji

lista = [0,0,0,0,0,0,0,0,0,0]

for i in range(10):
    lista[i] = i

print(lista)
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

Iteracja

lista = [i for i in range(10)]
print(lista)

Pętla iteracyjna - tworzenie kolekcji

{0: 100, 1: 101, 2: 102, 3: 103, 4: 104,
 5: 105, 6: 106, 7: 107, 8: 108, 9: 109}
słownik = {i: i + 100 for i in range(10)}
print(słownik)

Instrukcja warunkowa

Instrukcja warunkowa

if
if x > 0:
    print('Liczba jest dodatnia')

Instrukcja warunkowa

if
if x > 0:
    print('Liczba jest dodatnia')
if else
if x > 0:
    print('Liczba jest dodatnia')
else:
    print('Liczba jest ujemna')

Instrukcja warunkowa

if
if x > 0:
    print('Liczba jest dodatnia')
if else
if x > 0:
    print('Liczba jest dodatnia')
else:
    print('Liczba jest ujemna')
if elif else
if x > 0:
    print('Liczba jest dodatnia')
elif x == 0:
    print('Zero')
else:
    print('Liczba jest ujemna')

Analiza tekstu

półautomatyczny proces mający na celu wydobycie z zasobów  tekstowych informacji

Analiza tekstu

bezbarwne zielone idee wściekle śpią

Noam Chomsky

Analiza tekstu

Wydrze wydrzę wydrze wydrze wydrze wydrzę

Analiza tekstu

Wydrze wydrzę wydrze wydrze wydrze wydrzę

Buffalo buffalo Buffalo buffalo buffalo buffalo Buffalo buffalo

Analiza tekstu

Wydrze wydrzę wydrze wydrze wydrze wydrzę

Buffalo buffalo Buffalo buffalo buffalo buffalo Buffalo buffalo

The Buffalo bisons that Buffalo bisons intimidate, intimidate Buffalo bisons.

Przygotowanie tekstu

przekształcenie dokumentów źródłowych do postaci odpowiedniej do dalszej analizy

  • tokenizacja
  • normalizacja
  • lematyzcja

Przygotowanie tekstu

dokA: "Mocna herbata jest zła na zły nastrój!"
dokB: "Mocna kawa jest dobra na zły nastrój!"

Przygotowanie tekstu

Tokenizacja

dokA = ["Mocna", "herbata", "jest", "zła", "na", "zły", "nastrój!"]

docB = ["Mocna", "kawa", "jest", "dobra", "na", "zły", "nastrój!"]

Przygotowanie tekstu

Normalizacja

dokA = ["Mocna", "herbata", "jest", "zła", "na", "zły", "nastrój!"]

docB = ["Mocna", "kawa", "jest", "dobra", "na", "zły", "nastrój!"]

Przygotowanie tekstu

Normalizacja

dokA = ["mocna", "herbata", "jest", "zła", "na", "zły", "nastrój!"]

docB = ["mocna", "kawa", "jest", "dobra", "na", "zły", "nastrój!"]

Przygotowanie tekstu

Normalizacja

dokA = ["mocna", "herbata", "jest", "zła", "na", "zły", "nastrój!"]

docB = ["mocna", "kawa", "jest", "dobra", "na", "zły", "nastrój!"]

Przygotowanie tekstu

Normalizacja

dokA = ["mocna", "herbata", "jest", "zła", "na", "zły", "nastrój"]

docB = ["mocna", "kawa", "jest", "dobra", "na", "zły", "nastrój"]

Przygotowanie tekstu

Lematyzacja

dokA = ["mocna", "herbata", "jest", "zła", "na", "zły", "nastrój"]

docB = ["mocna", "kawa", "jest", "dobra", "na", "zły", "nastrój"]

Przygotowanie tekstu

Lematyzacja

dokA = ["mocna", "herbata", "jest", "zły", "na", "zły", "nastrój"]

docB = ["mocna", "kawa", "jest", "dobra", "na", "zły", "nastrój"]

Istotność słów

Jak znaleźć tekst dla słowa kluczowego?

Istotność słów

dokA = ["mocna", "herbata", "jest", "zły", "na", "zły", "nastrój"]

docB = ["mocna", "kawa", "jest", "dobra", "na", "zły", "nastrój"]

Które słowa występują najczęściej?

Istotność słów

dokA = ["mocna", "herbata", "jest", "zły", "na", "zły", "nastrój"]

docB = ["mocna", "kawa", "jest", "dobra", "na", "zły", "nastrój"]

zbiórAB = {'mocna', 'kawa', 'herbata', 'jest', 'nastrój', 'dobra', 'zły', 'na'}

Które słowa występują najczęściej?

Istotność słów

wekA = {'mocna': 1, 'kawa': 0, 'herbata': 1, 'jest': 1, 'nastrój': 1, 'dobra': 0, 'zły': 2, 'na': 1}
wekB = {'mocna': 1, 'kawa': 1, 'herbata': 0, 'jest': 1, 'nastrój': 1, 'dobra': 1, 'zły': 1, 'na': 1}
 

Które słowa występują najczęściej?

Istotność słów

Które słowa występują najczęściej?

dobra herbata jest kawa mocna na nastrój zły
dokA 0 1 1 0 1 1 1 2
dokB 1 0 1 1 1 1 1 1

Istotność słów

Które słowa występują najczęściej?

dobra herbata jest kawa mocna na nastrój zły
dokA 0 1 1 0 1 1 1 2
dokB 1 0 1 1 1 1 1 1

Jak znaleźć tekst dla słowa kluczowego?

Istotność słów

Miara ważności TF-IDF

TF-IDF (term frequency-inverse document frequency) polega na ustalaniu względnej częstotliwości słów w danym, lokalnym dokumencie i porównaniu z odwróconą częstotliwością słowa w całej kolekcji dokumentów.

Istotność słów

Miara ważności TF-IDF

TF-IDF (term frequency-inverse document frequency) polega na ustalaniu względnej częstotliwości słów w danym, lokalnym dokumencie i porównaniu z odwróconą częstotliwością słowa w całej kolekcji dokumentów.

Istotność słów

Miara ważności TF-IDF

TF-IDF (term frequency-inverse document frequency) polega na ustalaniu względnej częstotliwości słów w danym, lokalnym dokumencie i porównaniu z odwróconą częstotliwością słowa w całej kolekcji dokumentów.

Istotność słów

TF - częstotliwość słów w dokumencie

dobra herbata jest kawa mocna na nastrój zły
dokA 0 1 1 0 1 1 1 2
dokB 1 0 1 1 1 1 1 1
tf(słowo, dok) = \frac{n_{słowo}}{n_{dok}}

Istotność słów

TF - częstotliwość słów w dokumencie

dobra herbata jest kawa mocna na nastrój zły Suma
dokA 0 1 1 0 1 1 1 2 7
dokB 1 0 1 1 1 1 1 1 7

Istotność słów

TF - częstotliwość słów w dokumencie

dobra herbata jest kawa mocna na nastrój zły Suma
dokA 0 1 1 0 1 1 1 2 7
dokB 1 0 1 1 1 1 1 1 7
tf(dobra, dok1) = 0/7

Istotność słów

TF - częstotliwość słów w dokumencie

dobra herbata jest kawa mocna na nastrój zły Suma
dokA 0 1 1 0 1 1 1 2 7
dokB 1 0 1 1 1 1 1 1 7
tf(herbata, dok1) = 1/7

Istotność słów

TF - częstotliwość słów w dokumencie

dobra herbata jest kawa mocna na nastrój zły Suma
dokA 0 0,14 1 0 1 1 1 2 7
dokB 1 0 1 1 1 1 1 1 7
tf(jest, dok1) = 1/7

Istotność słów

TF - częstotliwość słów w dokumencie

dobra herbata jest kawa mocna na nastrój zły Suma
dokA 0 0,14 0,14 0 1 1 1 2 7
dokB 1 0 1 1 1 1 1 1 7
tf(kawa, dok1) = 0/7

Istotność słów

TF - częstotliwość słów w dokumencie

dobra herbata jest kawa mocna na nastrój zły Suma
dokA 0 0,14 0,14 0 1 1 1 2 7
dokB 1 0 1 1 1 1 1 1 7
tf(mocna, dok1) = 1/7

Istotność słów

TF - częstotliwość słów w dokumencie

dobra herbata jest kawa mocna na nastrój zły Suma
dokA 0 0,14 0,14 0 0,14 1 1 2 7
dokB 1 0 1 1 1 1 1 1 7
tf(na, dok1) = 1/7

Istotność słów

TF - częstotliwość słów w dokumencie

dobra herbata jest kawa mocna na nastrój zły Suma
dokA 0 0,14 0,14 0 0,14 0,14 1 2 7
dokB 1 0 1 1 1 1 1 1 7
tf(nastrój, dok1) = 1/7

Istotność słów

TF - częstotliwość słów w dokumencie

dobra herbata jest kawa mocna na nastrój zły Suma
dokA 0 0,14 0,14 0 0,14 0,14 0,14 2 7
dokB 1 0 1 1 1 1 1 1 7
tf(zły, dok1) = 2/7

Istotność słów

TF - częstotliwość słów w dokumencie

dobra herbata jest kawa mocna na nastrój zły Suma
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29 1
dokB 1 0 1 1 1 1 1 1 7

Istotność słów

TF - częstotliwość słów w dokumencie

dobra herbata jest kawa mocna na nastrój zły Suma
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29 1
dokB 1 0 1 1 1 1 1 1 7

Istotność słów

TF - częstotliwość słów w dokumencie

dobra herbata jest kawa mocna na nastrój zły Suma
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29 1
dokB 0,14 0 0,14 0,14 0,14 0,14 0,14 0,14 1

Istotność słów

TF - częstotliwość słów w dokumencie

dobra herbata jest kawa mocna na nastrój zły
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29
dokB 0,14 0 0,14 0,14 0,14 0,14 0,14 0,14

Istotność słów

IDF - odwrócona częstotliwość słowa w całej kolekcji dokumentów

dobra herbata jest kawa mocna na nastrój zły
dokA 0 1 1 0 1 1 1 2
dokB 1 0 1 1 1 1 1 1
idf(słowo) = ln(\frac{m}{n})

m - liczba dokumentów
n - liczba dokumentów zawierających słowo

Istotność słów

IDF - odwrócona częstotliwość słowa w całej kolekcji dokumentów

dobra herbata jest kawa mocna na nastrój zły
dokA 0 1 1 0 1 1 1 2
dokB 1 0 1 1 1 1 1 1
2

Istotność słów

IDF - odwrócona częstotliwość słowa w całej kolekcji dokumentów

dobra herbata jest kawa mocna na nastrój zły
dokA 0 1 1 0 1 1 1 2
dokB 1 0 1 1 1 1 1 1
2

Istotność słów

IDF - odwrócona częstotliwość słowa w całej kolekcji dokumentów

dobra herbata jest kawa mocna na nastrój zły
dokA 0 1 1 0 1 1 1 2
dokB 1 0 1 1 1 1 1 1
2 1

Istotność słów

IDF - odwrócona częstotliwość słowa w całej kolekcji dokumentów

dobra herbata jest kawa mocna na nastrój zły
dokA 0 1 1 0 1 1 1 2
dokB 1 0 1 1 1 1 1 1
2 1 1

Istotność słów

IDF - odwrócona częstotliwość słowa w całej kolekcji dokumentów

dobra herbata jest kawa mocna na nastrój zły
dokA 0 1 1 0 1 1 1 2
dokB 1 0 1 1 1 1 1 1
2 1 1 2

Istotność słów

IDF - odwrócona częstotliwość słowa w całej kolekcji dokumentów

dobra herbata jest kawa mocna na nastrój zły
dokA 0 1 1 0 1 1 1 2
dokB 1 0 1 1 1 1 1 1
2 1 1 2 1

Istotność słów

IDF - odwrócona częstotliwość słowa w całej kolekcji dokumentów

dobra herbata jest kawa mocna na nastrój zły
dokA 0 1 1 0 1 1 1 2
dokB 1 0 1 1 1 1 1 1
2 1 1 2 1 2

Istotność słów

IDF - odwrócona częstotliwość słowa w całej kolekcji dokumentów

dobra herbata jest kawa mocna na nastrój zły
dokA 0 1 1 0 1 1 1 2
dokB 1 0 1 1 1 1 1 1
2 1 1 2 1 2 2

Istotność słów

IDF - odwrócona częstotliwość słowa w całej kolekcji dokumentów

dobra herbata jest kawa mocna na nastrój zły
dokA 0 1 1 0 1 1 1 2
dokB 1 0 1 1 1 1 1 1
2 1 1 2 1 2 2 2

Istotność słów

IDF - odwrócona częstotliwość słowa w całej kolekcji dokumentów

dobra herbata jest kawa mocna na nastrój zły
dokA 0 1 1 0 1 1 1 2
dokB 1 0 1 1 1 1 1 1
2 1 1 2 1 2 2 2 2

Istotność słów

IDF - odwrócona częstotliwość słowa w całej kolekcji dokumentów

dobra herbata jest kawa mocna na nastrój zły
2 1 1 2 1 2 2 2 2
idf(słowo) = ln(\frac{m}{n})

Istotność słów

IDF - odwrócona częstotliwość słowa w całej kolekcji dokumentów

dobra herbata jest kawa mocna na nastrój zły
2 1 1 2 1 2 2 2 2
idf(dobra) = ln(\frac{2}{1})

Istotność słów

IDF - odwrócona częstotliwość słowa w całej kolekcji dokumentów

dobra herbata jest kawa mocna na nastrój zły
2 0,69
idf(dobra) = ln(\frac{2}{1})

Istotność słów

IDF - odwrócona częstotliwość słowa w całej kolekcji dokumentów

dobra herbata jest kawa mocna na nastrój zły
2 0,69 1 2 1 2 2 2 2
idf(herbata) = ln(\frac{2}{1})

Istotność słów

IDF - odwrócona częstotliwość słowa w całej kolekcji dokumentów

dobra herbata jest kawa mocna na nastrój zły
2 0,69 0,69
idf(herbata) = ln(\frac{2}{1})

Istotność słów

IDF - odwrócona częstotliwość słowa w całej kolekcji dokumentów

dobra herbata jest kawa mocna na nastrój zły
2 0,69 0,69 2 1 2 2 2 2
idf(jest) = ln(\frac{2}{2})

Istotność słów

IDF - odwrócona częstotliwość słowa w całej kolekcji dokumentów

dobra herbata jest kawa mocna na nastrój zły
2 0,69 0,69 0
idf(jest) = ln(\frac{2}{2})

Istotność słów

IDF - odwrócona częstotliwość słowa w całej kolekcji dokumentów

dobra herbata jest kawa mocna na nastrój zły
2 0,69 0,69 0 1 2 2 2 2
idf(kawa) = ln(\frac{2}{1})

Istotność słów

IDF - odwrócona częstotliwość słowa w całej kolekcji dokumentów

dobra herbata jest kawa mocna na nastrój zły
0,69 0,69 0 0,69 0 0 0 0

Istotność słów

TF-IDF

TFIDF(słowo) = tf(słowo, dok) * idf(słowo)

Istotność słów

TF-IDF

dobra herbata jest kawa mocna na nastrój zły
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29
dokB 0,14 0 0,14 0,14 0,14 0,14 0,14 0,14
dobra herbata jest kawa mocna na nastrój zły
0,69 0,69 0 0,69 0 0 0 0

TF

IDF

TFIDF(słowo) = tf(słowo, dok) * idf(słowo)

Istotność słów

TF-IDF

dobra herbata jest kawa mocna na nastrój zły
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29
dokB 0,14 0 0,14 0,14 0,14 0,14 0,14 0,14
0,69 0,69 0 0,69 0 0 0 0

TF

IDF

dokA
dokB

Istotność słów

TF-IDF

dobra herbata jest kawa mocna na nastrój zły
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29
dokB 0,14 0 0,14 0,14 0,14 0,14 0,14 0,14
0,69 0,69 0 0,69 0 0 0 0

TF

IDF

dokA
dokB

Istotność słów

TF-IDF

dobra herbata jest kawa mocna na nastrój zły
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29
dokB 0,14 0 0,14 0,14 0,14 0,14 0,14 0,14
0,69 0,69 0 0,69 0 0 0 0

TF

IDF

dokA
dokB

Istotność słów

TF-IDF

dobra herbata jest kawa mocna na nastrój zły
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29
dokB 0,14 0 0,14 0,14 0,14 0,14 0,14 0,14
0,69 0,69 0 0,69 0 0 0 0

TF

IDF

dokA 0
dokB

Istotność słów

TF-IDF

dobra herbata jest kawa mocna na nastrój zły
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29
dokB 0,14 0 0,14 0,14 0,14 0,14 0,14 0,14
0,69 0,69 0 0,69 0 0 0 0

TF

IDF

dokA 0
dokB

Istotność słów

TF-IDF

dobra herbata jest kawa mocna na nastrój zły
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29
dokB 0,14 0 0,14 0,14 0,14 0,14 0,14 0,14
0,69 0,69 0 0,69 0 0 0 0

TF

IDF

dokA 0 0,1
dokB

Istotność słów

TF-IDF

dobra herbata jest kawa mocna na nastrój zły
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29
dokB 0,14 0 0,14 0,14 0,14 0,14 0,14 0,14
0,69 0,69 0 0,69 0 0 0 0

TF

IDF

dokA 0 0,1
dokB

Istotność słów

TF-IDF

dobra herbata jest kawa mocna na nastrój zły
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29
dokB 0,14 0 0,14 0,14 0,14 0,14 0,14 0,14
0,69 0,69 0 0,69 0 0 0 0

TF

IDF

dokA 0 0,1 0
dokB

Istotność słów

TF-IDF

dobra herbata jest kawa mocna na nastrój zły
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29
dokB 0,14 0 0,14 0,14 0,14 0,14 0,14 0,14
0,69 0,69 0 0,69 0 0 0 0

TF

IDF

dokA 0 0,1 0
dokB

Istotność słów

TF-IDF

dobra herbata jest kawa mocna na nastrój zły
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29
dokB 0,14 0 0,14 0,14 0,14 0,14 0,14 0,14
0,69 0,69 0 0,69 0 0 0 0

TF

IDF

dokA 0 0,1 0 0
dokB

Istotność słów

TF-IDF

dobra herbata jest kawa mocna na nastrój zły
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29
dokB 0,14 0 0,14 0,14 0,14 0,14 0,14 0,14
0,69 0,69 0 0,69 0 0 0 0

TF

IDF

dokA 0 0,1 0 0
dokB

Istotność słów

TF-IDF

dobra herbata jest kawa mocna na nastrój zły
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29
dokB 0,14 0 0,14 0,14 0,14 0,14 0,14 0,14
0,69 0,69 0 0,69 0 0 0 0

TF

IDF

dokA 0 0,1 0 0 0
dokB

Istotność słów

TF-IDF

dobra herbata jest kawa mocna na nastrój zły
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29
dokB 0,14 0 0,14 0,14 0,14 0,14 0,14 0,14
0,69 0,69 0 0,69 0 0 0 0

TF

IDF

dokA 0 0,1 0 0 0
dokB

Istotność słów

TF-IDF

dobra herbata jest kawa mocna na nastrój zły
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29
dokB 0,14 0 0,14 0,14 0,14 0,14 0,14 0,14
0,69 0,69 0 0,69 0 0 0 0

TF

IDF

dokA 0 0,1 0 0 0 0
dokB

Istotność słów

TF-IDF

dobra herbata jest kawa mocna na nastrój zły
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29
dokB 0,14 0 0,14 0,14 0,14 0,14 0,14 0,14
0,69 0,69 0 0,69 0 0 0 0

TF

IDF

dokA 0 0,1 0 0 0 0
dokB

Istotność słów

TF-IDF

dobra herbata jest kawa mocna na nastrój zły
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29
dokB 0,14 0 0,14 0,14 0,14 0,14 0,14 0,14
0,69 0,69 0 0,69 0 0 0 0

TF

IDF

dokA 0 0,1 0 0 0 0 0
dokB

Istotność słów

TF-IDF

dobra herbata jest kawa mocna na nastrój zły
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29
dokB 0,14 0 0,14 0,14 0,14 0,14 0,14 0,14
0,69 0,69 0 0,69 0 0 0 0

TF

IDF

dokA 0 0,1 0 0 0 0 0
dokB

Istotność słów

TF-IDF

dobra herbata jest kawa mocna na nastrój zły
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29
dokB 0,14 0 0,14 0,14 0,14 0,14 0,14 0,14
0,69 0,69 0 0,69 0 0 0 0

TF

IDF

dokA 0 0,1 0 0 0 0 0 0
dokB

Istotność słów

TF-IDF

dobra herbata jest kawa mocna na nastrój zły
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29
dokB 0,14 0 0,14 0,14 0,14 0,14 0,14 0,14
0,69 0,69 0 0,69 0 0 0 0

TF

IDF

dokA 0 0,1 0 0 0 0 0 0
dokB

Istotność słów

TF-IDF

0,69 0,69 0 0,69 0 0 0 0

TF

IDF

dokA 0 0,1 0 0 0 0 0 0
dokB
dobra herbata jest kawa mocna na nastrój zły
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29
dokB 0,14 0 0,14 0,14 0,14 0,14 0,14 0,14

Istotność słów

TF-IDF

0,69 0,69 0 0,69 0 0 0 0

TF

IDF

dokA 0 0,1 0 0 0 0 0 0
dokB 0,1
dobra herbata jest kawa mocna na nastrój zły
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29
dokB 0,14 0 0,14 0,14 0,14 0,14 0,14 0,14

Istotność słów

TF-IDF

0,69 0,69 0 0,69 0 0 0 0

TF

IDF

dokA 0 0,1 0 0 0 0 0 0
dokB 0,1
dobra herbata jest kawa mocna na nastrój zły
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29
dokB 0,14 0 0,14 0,14 0,14 0,14 0,14 0,14

Istotność słów

TF-IDF

0,69 0,69 0 0,69 0 0 0 0

TF

IDF

dokA 0 0,1 0 0 0 0 0 0
dokB 0,1 0
dobra herbata jest kawa mocna na nastrój zły
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29
dokB 0,14 0 0,14 0,14 0,14 0,14 0,14 0,14

Istotność słów

TF-IDF

0,69 0,69 0 0,69 0 0 0 0

TF

IDF

dokA 0 0,1 0 0 0 0 0 0
dokB 0,1 0 0 0,1 0 0 0 0
dobra herbata jest kawa mocna na nastrój zły
dokA 0 0,14 0,14 0 0,14 0,14 0,14 0,29
dokB 0,14 0 0,14 0,14 0,14 0,14 0,14 0,14

Istotność słów

TF-IDF

dobra herbata jest kawa mocna na nastrój zły
dokA 0 0,1 0 0 0 0 0 0
dokB 0,1 0 0 0,1 0 0 0 0

Istotność słów

słowa kluczowe

dobra herbata jest kawa mocna na nastrój zły
dokA 0 0,1 0 0 0 0 0 0
dokB 0,1 0 0 0,1 0 0 0 0
dokA: ['herbata']
dokB: ['dobry', 'kawa']

TextMining1819

By Bogna Zacny

TextMining1819

  • 110