SergeyR256
/

news-topic-model-second

sentiment-analysis

Model card Files Files and versions

news-topic-model-second / README.md

meteor256

Add model

bd2994a 3 months ago

|

history blame contribute delete

2.46 kB

	---
	language: ru
	license: mit
	tags:
	- pytorch
	- sentiment-analysis
	- russian
	datasets:
	- vfomenko.russian-news-2020
	---

	# Russian Text Classification Model

	Модель для классификации русскоязычных текстов на 15 тематических категорий, основанная на `cointegrated/rubert-tiny2`.

	## Модель

	- Архитектура: RuBERT-tiny2
	- Язык: Русский
	- Задача: Многоклассовая классификация текстов
	- Количество категорий: 15

	## Категории

	Модель классифицирует тексты на следующие категории:

	1. `Экономика`
	2. `Спорт`
	3. `Из жизни`
	4. `Интернет и СМИ`
	5. `Культура`
	6. `Дом`
	7. `Бывший СССР`
	8. `69-я параллель`
	9. `Мир`
	10. `Наука и техника`
	11. `Путешествия`
	12. `Россия`
	13. `Нацпроекты`
	14. `Силовые структуры`
	15. `Ценности`

	## Метрики качества

	\| Метрика \| Значение \|
	\|---------\|----------\|
	\| Training Loss \| 1.752300 \|
	\| Validation Loss \| 1.319999 \|
	\| Accuracy \| 0.679245 \|
	\| F1-score \| 0.616440 \|

	## Использование

	### Через pipeline

	```python
	from transformers import pipeline

	classifier = pipeline(
	"text-classification",
	model="cointegrated/rubert-tiny2",
	tokenizer="cointegrated/rubert-tiny2"
	)

	# Классификация текста
	text = "Ваш текст для классификации здесь"
	result = classifier(text)

	label_map = {
	'LABEL_0': 'Экономика',
	'LABEL_1': 'Спорт',
	'LABEL_2': 'Из жизни',
	'LABEL_3': 'Интернет и СМИ',
	'LABEL_4': 'Культура',
	'LABEL_5': 'Дом',
	'LABEL_6': 'Бывший СССР',
	'LABEL_7': '69-я параллель',
	'LABEL_8': 'Мир',
	'LABEL_9': 'Наука и техника',
	'LABEL_10': 'Путешествия',
	'LABEL_11': 'Россия',
	'LABEL_12': 'Нацпроекты',
	'LABEL_13': 'Силовые структуры',
	'LABEL_14': 'Ценности',
	}

	print(f"Категория: {label_map[raw_output[0]['label']]}, Уверенность: {raw_output[0]['score']:.4f}")
	```