aooao
/

gpt-neox-jp-1b

Model card Files Files and versions

GPT-NeoX-JP-1B

日本語GPT系言語モデル（GPT-NeoXアーキテクチャ）を継続事前学習（CPT）およびSFTの検証目的で構築したものです。

※このモデルは事前学習済み(ベースモデル)であり、Instruction Tuningは実施していません。

※このモデルは今も開発中です。予期せぬ不具合が発生する可能性がありますので使用の際はご注意ください。

特徴

GPT-NeoX ベース（約1Bパラメータ）
日本語CPT（Wikipedia / Wikibooks / c4 / JaMARD）
Kaggle T4 ×2(GPU)
Kaggle v5e-8(TPU) 環境での学習

Githubのページはこちら(https://github.com/ao-oo/gpt-neox-jp-1b)

モデル構成（概要）

Architecture: GPT-NeoX
Parameters: ~1B
Hidden size: 1536
Layers: 24
Attention heads: 16
Context length: 1024

使い方

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("aooao/gpt-neox-jp-1b")
model = AutoModelForCausalLM.from_pretrained("aooao/gpt-neox-jp-1b")

Downloads last month: 52

Safetensors

Model size

0.8B params

Tensor type

F32

·

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Datasets used to train aooao/gpt-neox-jp-1b