このリポジトリは、unsloth/Qwen3-4B-Instruct-2507 をベースモデルとし、QLoRA (4-bit, Unsloth) を用いてファインチューニングされた LoRA アダプターを提供します。 【重要】本リポジトリには LoRA アダプターの重みのみが含まれています。ベースモデルは別途ロードする必要があります。

学習の目的

このアダプターは、構造化出力(JSON / YAML / XML / TOML / CSV)の精度向上を目的としてトレーニングされています。 学習時、損失(Loss)は最終的なアシスタントの出力にのみ適用され、中間的な推論プロセス(Chain-of-Thought)はマスクされています。

学習設定

  • Base model: Qwen/Qwen3-4B-Instruct-2507
  • Method: QLoRA (4-bit)
  • Max sequence length: 512
  • Epochs: 1
  • Learning rate: 1e-06
  • LoRA: r=64, alpha=128

使い方

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel
import torch

base = "Qwen/Qwen3-4B-Instruct-2507"
adapter = "Mori-kamiyama/matsuoken_LoRA"

tokenizer = AutoTokenizer.from_pretrained(base)
model = AutoModelForCausalLM.from_pretrained(
    base,
    torch_dtype=torch.float16,
    device_map="auto",
)
model = PeftModel.from_pretrained(model, adapter)

Sources & Terms (IMPORTANT)

学習データ: Mori-kamiyama/morikawa_mixed_3k

  • daichira__structured-hard-sft-4k
  • u-10bei__structured_data_with_cot_dataset_512
  • daichira__structured-5k-mix-sft
  • u-10bei__structured_data_with_cot_dataset_512_v5
  • u-10bei__structured_data_with_cot_dataset_512_v4
  • u-10bei__structured_data_with_cot_dataset
  • u-10bei__structured_data_with_cot_dataset_v2
  • u-10bei__structured_data_with_cot_dataset_512_v2
  • daichira__structured-3k-mix-sft からYAMLとTOMLの問題を40%づつそれ以外を20%混合したデータセット

Dataset License: MIT License. This dataset is used and distributed under the terms of the MIT License. Compliance: Users must comply with the MIT license (including copyright notice) and the base model's original terms of use.

Downloads last month
28
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Mori-kamiyama/matsuoken_LoRA

Adapter
(5261)
this model