GPT-NeoX-JP-1B

日本語GPT系言語モデル(GPT-NeoXアーキテクチャ)を 継続事前学習(CPT)およびSFTの検証目的で構築したものです。

※このモデルは事前学習済み(ベースモデル)であり、Instruction Tuningは実施していません。

※このモデルは今も開発中です。予期せぬ不具合が発生する可能性がありますので使用の際はご注意ください。

特徴

  • GPT-NeoX ベース(約1Bパラメータ)
  • 日本語CPT(Wikipedia / Wikibooks / c4 / JaMARD)
  • Kaggle T4 ×2(GPU)
  • Kaggle v5e-8(TPU) 環境での学習

Githubのページはこちら(https://github.com/ao-oo/gpt-neox-jp-1b)

モデル構成(概要)

  • Architecture: GPT-NeoX
  • Parameters: ~1B
  • Hidden size: 1536
  • Layers: 24
  • Attention heads: 16
  • Context length: 1024

使い方

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("aooao/gpt-neox-jp-1b")
model = AutoModelForCausalLM.from_pretrained("aooao/gpt-neox-jp-1b")
Downloads last month
52
Safetensors
Model size
0.8B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Datasets used to train aooao/gpt-neox-jp-1b