Rositsa Zlateva
Full Stack Python Developer and lecturer
През последните години "Fake News" или "False News"е нашумял термин за новини, чиято основна цел е да навредят на лице, организация, политическа група или точно обратното - да увеличат рейтинга на съответната, чрез използване на неправилна, но добре структурирана информация.
Wired описание: "Измислени истории, които обръщат рейтинга в долари и политически убеждения."
През последните години се говори много за Fake News, защото е термин/направление, с което AI все още трудно би могло да се справи.
Все още е нужна човешка намеса, за да се определи една новина като Fake. Дори и тогава трябват задълбочени познания за фактите, описани в новината, за да се определи дали е измислена или не.
През 2016 директорът на Facebook AI изследванията - Yann LeCun е споделил пред журналисти, че технология, която да се справя с fake news "или вече съществува, или ще бъде разработена". След изказването му, Facebook обявяват, че могат да се справят с fake news в News Feed-a на потребителите си.
Не дълго след тези коментари, група академици решават да направят собствен проект Fake News Challenge и да се опитат да създадат алгоритми за справяне с Fake news.
Проектът има за цел да се създаде алгоритъм, който на база на заглавие и съдържание на статия, да връща каква е корелацията между тях. Базиран е на идеята от състезанието Fake News Challenge. Първото му издание е на тема "Stance Detection".
Информацията с данните е предоставена от състезанието в GitHub.
- https://github.com/FakeNewsChallenge/fnc-1
Информацията, която алгоритъмът трябва да връща, е какво е нивото на колерация между заглавието и съдържанието на текста. Като крайният резултат трябва да е един от следните 4 вида:
- Agree - съгласни със съдържанието
- Disagree - несъгласни
- Discuss - под въпрос, има място за обсъждане
- Unrelated - нямат нищо общо
Проектът ще бъде имплементиран на Python.
За визуализация на резултати ще се използва numpy библиотеката.
Кодът ще бъде качен в GitHub, с подробн описание на използваните алгоритми и начин за използване.
1) Заглавието и съдържанието ще бъдат tokenized и stemmed.
2) Ще бъдат разбити на отделни 2- и 3-грами.
3) N-грамите ще бъдат използвани, под няколко разлини форми:
- Basic Count Features
- Sentiment Analyses
- Word2Vec Features
4) Изготвената информация ще бъде подадена на класификатор - Boosted Tree (XGBoost), който ще върне краен резултат
By Rositsa Zlateva