Идентификация ботов в твиттере

@botohbot

* https://www.sec.gov/Archives/edgar/data/1418091/000156459014003474/twtr-10q_20140630.htm

Статистика

8,5% (23 млн) пользователей Твиттера - боты (2014)

Метрика

F1 score

Данные

Формат данных

Распределение до обработки

Распределение после обработки

Данные

~40 тыс. пользователей

~80 млн. твитов

Данные

Twitter API

NodeJS crawler

Пайплайн

Модели

Catboost XGBoost LightGBM Random Forest Extra Trees Logistic Regression
Precision 0.9334 0.9195 0.9300 0.9288 0.9158 0.8508
Recall 0.9331 0.9197 0.9298 0.9277 0.9139 0.8502
F1 0.9322 0.9186 0.9289 0.9264 0.9118 0.8505

Модели

Корреляция

Модели

Голосование

Presicion Recall F1
0.9304 0.9294 0.9282

Стекинг

Presicion Recall F1
0.93110 0.92956 0.92814

AutoML

Presicion Recall F1
0.93195 0.93229 0.93199

Признаки

Ранжирование признаков по важности для catboost

Twitter bot detection

By __

Twitter bot detection

  • 60