---
language: ru
license: mit
tags:
- pytorch
- sentiment-analysis
- russian
datasets:
- vfomenko.russian-news-2020
---

# Russian Text Classification Model

Модель для классификации русскоязычных текстов на 15 тематических категорий, основанная на `cointegrated/rubert-tiny2`.

## Модель

- **Архитектура**: RuBERT-tiny2
- **Язык**: Русский
- **Задача**: Многоклассовая классификация текстов
- **Количество категорий**: 15

## Категории

Модель классифицирует тексты на следующие категории:

1. `Экономика`
2. `Спорт`
3. `Из жизни`
4. `Интернет и СМИ`
5. `Культура`
6. `Дом`
7. `Бывший СССР`
8. `69-я параллель`
9. `Мир`
10. `Наука и техника`
11. `Путешествия`
12. `Россия`
13. `Нацпроекты`
14. `Силовые структуры`
15. `Ценности`

## Метрики качества

| Метрика | Значение |
|---------|----------|
| Training Loss | 1.752300 |
| Validation Loss | 1.319999 |
| Accuracy | 0.679245 |
| F1-score | 0.616440 |

## Использование

### Через pipeline

```python
from transformers import pipeline

classifier = pipeline(
    "text-classification",
    model="cointegrated/rubert-tiny2",
    tokenizer="cointegrated/rubert-tiny2"
)

# Классификация текста
text = "Ваш текст для классификации здесь"
result = classifier(text)

label_map = {
    'LABEL_0': 'Экономика',
    'LABEL_1': 'Спорт', 
    'LABEL_2': 'Из жизни',
    'LABEL_3': 'Интернет и СМИ',
    'LABEL_4': 'Культура',
    'LABEL_5': 'Дом',
    'LABEL_6': 'Бывший СССР',
    'LABEL_7': '69-я параллель',
    'LABEL_8': 'Мир',
    'LABEL_9': 'Наука и техника',
    'LABEL_10': 'Путешествия',
    'LABEL_11': 'Россия',
    'LABEL_12': 'Нацпроекты',
    'LABEL_13': 'Силовые структуры',
    'LABEL_14': 'Ценности',
}

print(f"Категория: {label_map[raw_output[0]['label']]}, Уверенность: {raw_output[0]['score']:.4f}")
```