GPT-NeoX-JP-1B
日本語GPT系言語モデル(GPT-NeoXアーキテクチャ)を 継続事前学習(CPT)およびSFTの検証目的で構築したものです。
※このモデルは事前学習済み(ベースモデル)であり、Instruction Tuningは実施していません。
※このモデルは今も開発中です。予期せぬ不具合が発生する可能性がありますので使用の際はご注意ください。
特徴
- GPT-NeoX ベース(約1Bパラメータ)
- 日本語CPT(Wikipedia / Wikibooks / c4 / JaMARD)
- Kaggle T4 ×2(GPU)
- Kaggle v5e-8(TPU) 環境での学習
Githubのページはこちら(https://github.com/ao-oo/gpt-neox-jp-1b)
モデル構成(概要)
- Architecture: GPT-NeoX
- Parameters: ~1B
- Hidden size: 1536
- Layers: 24
- Attention heads: 16
- Context length: 1024
使い方
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("aooao/gpt-neox-jp-1b")
model = AutoModelForCausalLM.from_pretrained("aooao/gpt-neox-jp-1b")
- Downloads last month
- 52
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support