RoBERTa Korean Hanja Extended (ํ์ค๊ตญ์ด๋์ฌ์ )
์ด ๋ชจ๋ธ์ MLM ํ์ต ์ ๋ฒ ์ด์ค ๋ชจ๋ธ์ ๋๋ค. MLM ํ์ธํ๋์ด ์๋ฃ๋ ๋ฒ์ ์ hwp0725/roberta-korean-hanja-stdict-mlm์ ์ฌ์ฉํ์ธ์.
KoichiYasuoka/roberta-large-korean-hanja ๋ชจ๋ธ์ vocabulary๋ฅผ ํ์ค๊ตญ์ด๋์ฌ์ ํ์๋ก ํ์ฅํ ๋ชจ๋ธ์ ๋๋ค.
๋ชจ๋ธ ์ ๋ณด
| ํญ๋ชฉ | ๊ฐ |
|---|---|
| ๋ฒ ์ด์ค ๋ชจ๋ธ | KoichiYasuoka/roberta-large-korean-hanja |
| ์๋ณธ vocab size | 39,255 |
| ํ์ฅ vocab size | 40,235 |
| ์ถ๊ฐ๋ ํ์ | 980์ |
| ํ์ ์ถ์ฒ | ํ์ค๊ตญ์ด๋์ฌ์ |
๊ด๋ จ ๋ชจ๋ธ
| ๋ชจ๋ธ | ์ค๋ช |
|---|---|
| hwp0725/roberta-korean-hanja-stdict | vocab ํ์ฅ ๋ฒ ์ด์ค ๋ชจ๋ธ (ํ์ฌ ๋ชจ๋ธ) |
| hwp0725/roberta-korean-hanja-stdict-mlm | MLM ํ์ธํ๋ ์๋ฃ ๋ชจ๋ธ |
์ฌ์ฉ๋ฒ
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("hwp0725/roberta-korean-hanja-stdict")
model = AutoModelForMaskedLM.from_pretrained("hwp0725/roberta-korean-hanja-stdict")
# Fill-mask ์์
from transformers import pipeline
fill_mask = pipeline("fill-mask", model=model, tokenizer=tokenizer)
result = fill_mask("ๅญๅญๆฐ๏ผๅญธ่ๆ็ฟไน๏ผไธไบฆ[MASK]ไน")
print(result)
ํ์ฅ๋ ํ์
ํ์ค๊ตญ์ด๋์ฌ์ ์ ๋ฑ์ฌ๋ ํ์์ด ํ์ ์ด์์ ์ถ์ถํ ํ์ ์ค, ๊ธฐ์กด ๋ชจ๋ธ์ ์๋ 980์๋ฅผ ์ถ๊ฐํ์ต๋๋ค.
์ฃผ์ ์ถ๊ฐ ํ์ ์์:
- ํ์ฅ ํ์ A (CJK Extension A): ใ, ใ, ใ ๋ฑ
- ํฌ๊ท ํ์: ์ผ๋ถ ๊ณ ์ /์ ๋ฌธ ์ฉ์ด์์ ์ฌ์ฉ๋๋ ํ์
๋ผ์ด์ ์ค
์๋ณธ ๋ชจ๋ธ๊ณผ ๋์ผํ๊ฒ CC BY-SA 4.0 ๋ผ์ด์ ์ค๋ฅผ ๋ฐ๋ฆ ๋๋ค.
์ธ์ฉ
์ด ๋ชจ๋ธ์ ์ฌ์ฉํ์๋ฉด ์๋ณธ ๋ชจ๋ธ๋ ํจ๊ป ์ธ์ฉํด ์ฃผ์ธ์:
@misc{yasuoka2024roberta,
author = {Koichi Yasuoka},
title = {roberta-large-korean-hanja},
year = {2024},
publisher = {Hugging Face},
url = {https://huggingface.co/KoichiYasuoka/roberta-large-korean-hanja}
}
- Downloads last month
- 27