oNo-1-DeepSeek-R1-0528-QLoRA-MedMCQA
ドキュメント
サマリー — DeepSeek-R1-0528 をベースに、oNo-1/MedMCQAのプライベートサブセットを用いた内部ポストトレーニングの成果物です。最終重みはアダプタ統合(merged)で提供し、推論はFP8 (E4M3)を前提とします。学習レシピの詳細はコンペ期間中は非公開です。
モデル詳細
- ベースモデル:
deepseek-ai/DeepSeek-R1-0528(MIT)
- パラメータ構成: マージ済みフルモデル(追加アダプタ不要)
- 量子化: 推論時 FP8 (E4M3)(マージ済み重み)
- トークナイザ: ベースモデル付属を使用
データ
- 利用データ(private):
oNo-1/MedMCQA
- ライセンス: Dataset 側は Apache-2.0 表記。ベース(MIT)との整合を確認のうえ再配布・商用可否を判断してください。
プロンプト
- ベースの DeepSeek チャットテンプレート準拠。具体的な運用・プロンプト設計は Notion を参照してください。
学習サマリー
- oNo.1 による 内部ポストトレーニングの成果物です。
- 具体的なハイパーパラメータやレシピは コンペ期間中は非公開です。
- 最終モデルは merged & FP8 (E4M3) でエクスポートされています。
推論
安全性と責任ある利用
- 医療用途不可。診断・治療・処方の代替には使用しないでください。
- エンドユーザー向け公開前に、拒否ポリシー/検証付き検索/人手レビューの導入を推奨します。
- 幻覚・古い知識・バイアスに対して レッドチーミング を実施してください。
バージョン管理と成果物
- 配布対象: マージ済みモデル重み と tokenizer。
- 付随する設定や学習ログはコンペ期間中は非公開です。
ライセンス
- Base model: MIT(DeepSeek-R1-0528)
- Dataset: Apache-2.0(oNo-1/MedMCQA)
- This model: MIT
引用
- DeepSeek-R1: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning(2025), arXiv:2501.12948
- MedMCQA: Pal et al., MedMCQA: A Large-scale Multi-Subject Multi-Choice Dataset for Medical domain Question Answering, PMLR 174(2022)
謝辞
- DeepSeek チーム(ベースモデル/トークナイザ)
- Transformers / bitsandbytes / PEFT メンテナ
- データセット作成者およびレビュアのみなさま