meteor256
Add model
bd2994a
---
language: ru
license: mit
tags:
- pytorch
- sentiment-analysis
- russian
datasets:
- vfomenko.russian-news-2020
---
# Russian Text Classification Model
Модель для классификации русскоязычных текстов на 15 тематических категорий, основанная на `cointegrated/rubert-tiny2`.
## Модель
- **Архитектура**: RuBERT-tiny2
- **Язык**: Русский
- **Задача**: Многоклассовая классификация текстов
- **Количество категорий**: 15
## Категории
Модель классифицирует тексты на следующие категории:
1. `Экономика`
2. `Спорт`
3. `Из жизни`
4. `Интернет и СМИ`
5. `Культура`
6. `Дом`
7. `Бывший СССР`
8. `69-я параллель`
9. `Мир`
10. `Наука и техника`
11. `Путешествия`
12. `Россия`
13. `Нацпроекты`
14. `Силовые структуры`
15. `Ценности`
## Метрики качества
| Метрика | Значение |
|---------|----------|
| Training Loss | 1.752300 |
| Validation Loss | 1.319999 |
| Accuracy | 0.679245 |
| F1-score | 0.616440 |
## Использование
### Через pipeline
```python
from transformers import pipeline
classifier = pipeline(
"text-classification",
model="cointegrated/rubert-tiny2",
tokenizer="cointegrated/rubert-tiny2"
)
# Классификация текста
text = "Ваш текст для классификации здесь"
result = classifier(text)
label_map = {
'LABEL_0': 'Экономика',
'LABEL_1': 'Спорт',
'LABEL_2': 'Из жизни',
'LABEL_3': 'Интернет и СМИ',
'LABEL_4': 'Культура',
'LABEL_5': 'Дом',
'LABEL_6': 'Бывший СССР',
'LABEL_7': '69-я параллель',
'LABEL_8': 'Мир',
'LABEL_9': 'Наука и техника',
'LABEL_10': 'Путешествия',
'LABEL_11': 'Россия',
'LABEL_12': 'Нацпроекты',
'LABEL_13': 'Силовые структуры',
'LABEL_14': 'Ценности',
}
print(f"Категория: {label_map[raw_output[0]['label']]}, Уверенность: {raw_output[0]['score']:.4f}")
```