Идентификация ботов в твиттере
@botohbot
* https://www.sec.gov/Archives/edgar/data/1418091/000156459014003474/twtr-10q_20140630.htm
Статистика
8,5% (23 млн) пользователей Твиттера - боты (2014)
Метрика
F1 score
Данные

Формат данных

Распределение до обработки
Распределение после обработки

Данные
1. Scalable and Generalizable Social Bot Detection through Data Selection
2. RTbust: Exploiting Temporal Patterns for Botnet Detection on Twitter
3. Arming the public with artificial intelligence to counter social bots
4. $FAKE: Evidence of spam and bot activity in stock microblogs on Twitter
5. Cashtag piggybacking: uncovering spam and bot activity in stock microblogs on Twitter
6. Of Bots and Humans (on Twitter) Online Human-Bot Interactions: Detection, Estimation, and Characterization.
~40 тыс. пользователей
~80 млн. твитов
Данные
Twitter API
NodeJS crawler
Пайплайн
Модели
| Catboost | XGBoost | LightGBM | Random Forest | Extra Trees | Logistic Regression | |
|---|---|---|---|---|---|---|
| Precision | 0.9334 | 0.9195 | 0.9300 | 0.9288 | 0.9158 | 0.8508 |
| Recall | 0.9331 | 0.9197 | 0.9298 | 0.9277 | 0.9139 | 0.8502 |
| F1 | 0.9322 | 0.9186 | 0.9289 | 0.9264 | 0.9118 | 0.8505 |
Модели

Корреляция
Модели
Голосование
| Presicion | Recall | F1 |
|---|---|---|
| 0.9304 | 0.9294 | 0.9282 |
Стекинг
| Presicion | Recall | F1 |
|---|---|---|
| 0.93110 | 0.92956 | 0.92814 |
AutoML
| Presicion | Recall | F1 |
|---|---|---|
| 0.93195 | 0.93229 | 0.93199 |
Признаки

Ранжирование признаков по важности для catboost
Twitter bot detection
By __
Twitter bot detection
- 60