oNo-1-DeepSeek-R1-0528-QLoRA-MedMCQA

ドキュメント

サマリー — DeepSeek-R1-0528 をベースに、oNo-1/MedMCQAのプライベートサブセットを用いた内部ポストトレーニングの成果物です。最終重みはアダプタ統合(merged)で提供し、推論はFP8 (E4M3)を前提とします。学習レシピの詳細はコンペ期間中は非公開です。


モデル詳細

  • ベースモデル: deepseek-ai/DeepSeek-R1-0528(MIT)
  • パラメータ構成: マージ済みフルモデル(追加アダプタ不要)
  • 量子化: 推論時 FP8 (E4M3)(マージ済み重み)
  • トークナイザ: ベースモデル付属を使用

データ

  • 利用データ(private): oNo-1/MedMCQA
  • ライセンス: Dataset 側は Apache-2.0 表記。ベース(MIT)との整合を確認のうえ再配布・商用可否を判断してください。

プロンプト

  • ベースの DeepSeek チャットテンプレート準拠。具体的な運用・プロンプト設計は Notion を参照してください。

学習サマリー

  • oNo.1 による 内部ポストトレーニングの成果物です。
  • 具体的なハイパーパラメータやレシピは コンペ期間中は非公開です。
  • 最終モデルは merged & FP8 (E4M3) でエクスポートされています。

推論


安全性と責任ある利用

  • 医療用途不可。診断・治療・処方の代替には使用しないでください。
  • エンドユーザー向け公開前に、拒否ポリシー検証付き検索人手レビューの導入を推奨します。
  • 幻覚・古い知識・バイアスに対して レッドチーミング を実施してください。

バージョン管理と成果物

  • 配布対象: マージ済みモデル重みtokenizer
  • 付随する設定や学習ログはコンペ期間中は非公開です。

ライセンス

  • Base model: MIT(DeepSeek-R1-0528)
  • Dataset: Apache-2.0(oNo-1/MedMCQA)
  • This model: MIT

引用

  • DeepSeek-R1: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning(2025), arXiv:2501.12948
  • MedMCQA: Pal et al., MedMCQA: A Large-scale Multi-Subject Multi-Choice Dataset for Medical domain Question Answering, PMLR 174(2022)

謝辞

  • DeepSeek チーム(ベースモデル/トークナイザ)
  • Transformers / bitsandbytes / PEFT メンテナ
  • データセット作成者およびレビュアのみなさま
Downloads last month
3
Safetensors
Model size
685B params
Tensor type
F32
·
BF16
·
F8_E4M3
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train weblab-llm-competition-2025-bridge/oNo-1-DeepSeek-R1-0528-QLoRA-MedMCQA

Collection including weblab-llm-competition-2025-bridge/oNo-1-DeepSeek-R1-0528-QLoRA-MedMCQA