| | ---
|
| | language: ru
|
| | license: mit
|
| | tags:
|
| | - pytorch
|
| | - sentiment-analysis
|
| | - russian
|
| | datasets:
|
| | - vfomenko.russian-news-2020
|
| | ---
|
| |
|
| | # Russian Text Classification Model
|
| |
|
| | Модель для классификации русскоязычных текстов на 15 тематических категорий, основанная на `cointegrated/rubert-tiny2`.
|
| |
|
| | ## Модель
|
| |
|
| | - **Архитектура**: RuBERT-tiny2
|
| | - **Язык**: Русский
|
| | - **Задача**: Многоклассовая классификация текстов
|
| | - **Количество категорий**: 15
|
| |
|
| | ## Категории
|
| |
|
| | Модель классифицирует тексты на следующие категории:
|
| |
|
| | 1. `Экономика`
|
| | 2. `Спорт`
|
| | 3. `Из жизни`
|
| | 4. `Интернет и СМИ`
|
| | 5. `Культура`
|
| | 6. `Дом`
|
| | 7. `Бывший СССР`
|
| | 8. `69-я параллель`
|
| | 9. `Мир`
|
| | 10. `Наука и техника`
|
| | 11. `Путешествия`
|
| | 12. `Россия`
|
| | 13. `Нацпроекты`
|
| | 14. `Силовые структуры`
|
| | 15. `Ценности`
|
| |
|
| | ## Метрики качества
|
| |
|
| | | Метрика | Значение |
|
| | |---------|----------|
|
| | | Training Loss | 1.752300 |
|
| | | Validation Loss | 1.319999 |
|
| | | Accuracy | 0.679245 |
|
| | | F1-score | 0.616440 |
|
| |
|
| | ## Использование
|
| |
|
| | ### Через pipeline
|
| |
|
| | ```python
|
| | from transformers import pipeline
|
| |
|
| | classifier = pipeline(
|
| | "text-classification",
|
| | model="cointegrated/rubert-tiny2",
|
| | tokenizer="cointegrated/rubert-tiny2"
|
| | )
|
| |
|
| | # Классификация текста
|
| | text = "Ваш текст для классификации здесь"
|
| | result = classifier(text)
|
| |
|
| | label_map = {
|
| | 'LABEL_0': 'Экономика',
|
| | 'LABEL_1': 'Спорт',
|
| | 'LABEL_2': 'Из жизни',
|
| | 'LABEL_3': 'Интернет и СМИ',
|
| | 'LABEL_4': 'Культура',
|
| | 'LABEL_5': 'Дом',
|
| | 'LABEL_6': 'Бывший СССР',
|
| | 'LABEL_7': '69-я параллель',
|
| | 'LABEL_8': 'Мир',
|
| | 'LABEL_9': 'Наука и техника',
|
| | 'LABEL_10': 'Путешествия',
|
| | 'LABEL_11': 'Россия',
|
| | 'LABEL_12': 'Нацпроекты',
|
| | 'LABEL_13': 'Силовые структуры',
|
| | 'LABEL_14': 'Ценности',
|
| | }
|
| |
|
| | print(f"Категория: {label_map[raw_output[0]['label']]}, Уверенность: {raw_output[0]['score']:.4f}")
|
| | ```
|
| |
|