Fake News

Съдържание

  • Идея на проекта
  • Използвани технологии
  • Методи за решаване

Какво е Fake News?

През последните години "Fake News" или "False News"е нашумял термин за новини, чиято основна цел е да навредят на лице, организация, политическа група или точно обратното - да увеличат рейтинга на съответната, чрез използване на неправилна, но добре структурирана информация.

 

Wired описание: "Измислени истории, които обръщат рейтинга в долари и политически убеждения."

 

 

Защо е толкова нашумяло?

През последните години се говори много за Fake News, защото е термин/направление, с което AI  все още трудно би могло да се справи.

 

Все още е нужна човешка намеса, за да се определи една новина като Fake. Дори и тогава трябват задълбочени познания за фактите, описани в новината, за да се определи дали е измислена или не.

 

 

 

 

История

През 2016 директорът на Facebook AI изследванията - Yann LeCun е споделил пред журналисти, че технология, която да се справя с fake news "или вече съществува, или ще бъде разработена". След изказването му, Facebook обявяват, че могат да се справят с fake news в News Feed-a на потребителите си.

 

Не дълго след тези коментари, група академици решават да направят собствен проект Fake News Challenge  и да се опитат да създадат алгоритми за справяне с Fake news.

Идея на проекта

Проектът има за цел да се създаде алгоритъм, който на база на заглавие и съдържание на статия, да връща каква е корелацията между тях. Базиран е на идеята от състезанието Fake News Challenge. Първото му издание е на тема "Stance Detection".

 

Информацията с данните е предоставена от състезанието в GitHub.

- https://github.com/FakeNewsChallenge/fnc-1

 

 

Краен резултат

Информацията, която алгоритъмът трябва да връща, е какво е нивото на колерация между заглавието и съдържанието на текста. Като крайният резултат трябва да е един от следните 4 вида:

- Agree - съгласни със съдържанието

- Disagree - несъгласни

- Discuss - под въпрос, има място за обсъждане

- Unrelated - нямат нищо общо

 

 

Използвани технологии

Проектът ще бъде имплементиран на Python.

 

За визуализация на резултати ще се използва numpy библиотеката.

 

Кодът ще бъде качен в GitHub, с подробн описание на използваните алгоритми и начин за използване.

 

 

Начин на реализация

1) Заглавието и съдържанието ще бъдат tokenized и stemmed.

2) Ще бъдат разбити на отделни 2- и 3-грами.

3) N-грамите ще бъдат използвани, под няколко разлини форми:

    - Basic Count Features

    - Sentiment Analyses

    - Word2Vec Features

4) Изготвената информация ще бъде подадена на класификатор - Boosted Tree (XGBoost), който ще върне краен резултат

Благодаря за вниманието!

Fake News

By Rositsa Zlateva

Fake News

  • 308