--- language: ru license: mit tags: - pytorch - sentiment-analysis - russian datasets: - vfomenko.russian-news-2020 --- # Russian Text Classification Model Модель для классификации русскоязычных текстов на 15 тематических категорий, основанная на `cointegrated/rubert-tiny2`. ## Модель - **Архитектура**: RuBERT-tiny2 - **Язык**: Русский - **Задача**: Многоклассовая классификация текстов - **Количество категорий**: 15 ## Категории Модель классифицирует тексты на следующие категории: 1. `Экономика` 2. `Спорт` 3. `Из жизни` 4. `Интернет и СМИ` 5. `Культура` 6. `Дом` 7. `Бывший СССР` 8. `69-я параллель` 9. `Мир` 10. `Наука и техника` 11. `Путешествия` 12. `Россия` 13. `Нацпроекты` 14. `Силовые структуры` 15. `Ценности` ## Метрики качества | Метрика | Значение | |---------|----------| | Training Loss | 1.752300 | | Validation Loss | 1.319999 | | Accuracy | 0.679245 | | F1-score | 0.616440 | ## Использование ### Через pipeline ```python from transformers import pipeline classifier = pipeline( "text-classification", model="cointegrated/rubert-tiny2", tokenizer="cointegrated/rubert-tiny2" ) # Классификация текста text = "Ваш текст для классификации здесь" result = classifier(text) label_map = { 'LABEL_0': 'Экономика', 'LABEL_1': 'Спорт', 'LABEL_2': 'Из жизни', 'LABEL_3': 'Интернет и СМИ', 'LABEL_4': 'Культура', 'LABEL_5': 'Дом', 'LABEL_6': 'Бывший СССР', 'LABEL_7': '69-я параллель', 'LABEL_8': 'Мир', 'LABEL_9': 'Наука и техника', 'LABEL_10': 'Путешествия', 'LABEL_11': 'Россия', 'LABEL_12': 'Нацпроекты', 'LABEL_13': 'Силовые структуры', 'LABEL_14': 'Ценности', } print(f"Категория: {label_map[raw_output[0]['label']]}, Уверенность: {raw_output[0]['score']:.4f}") ```