Edit Models filters

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

Inference Endpoints

text-generation-inference

Eval Results (legacy)

text-embeddings-inference

4-bit precision

8-bit precision

Mixture of Experts

Carbon Emissions

Models

449

Full-text search

Active filters: rlhf

gyung/lfm2-1.2b-koen-mt-v8-rl-10k-adapter

Text Generation • Updated Dec 29, 2025 • 2 • 2

dorukardahan/senti-qwen3-8b-dpo

Text Generation • Updated Jan 4 • 1

chrisvoncsefalvay/dx-reasoning-qwen2.5-grpo

Text Generation • Updated Jan 6 • 3

akseljoonas/Qwen3-1.7B-DPO-hh-rlhf

Text Generation • 2B • Updated Jan 13 • 33

mayiwen/PaperAudit_Models

vemz/pythia-410m-rloo-imdb

Text Generation • Updated Jan 9

alexgusevski/CapybaraHermes-2.5-Mistral-7B-mlx-2Bit

0.7B • Updated Jan 12 • 19

alexgusevski/CapybaraHermes-2.5-Mistral-7B-mlx-3Bit

0.9B • Updated Jan 12 • 18

alexgusevski/CapybaraHermes-2.5-Mistral-7B-mlx-4Bit

1B • Updated Jan 12 • 13

alexgusevski/CapybaraHermes-2.5-Mistral-7B-mlx-5Bit

1B • Updated Jan 12 • 14

alexgusevski/CapybaraHermes-2.5-Mistral-7B-mlx-6Bit

7B • Updated Jan 12 • 19

alexgusevski/CapybaraHermes-2.5-Mistral-7B-mlx-8Bit

7B • Updated Jan 12 • 36

alexgusevski/CapybaraHermes-2.5-Mistral-7B-mlx-fp16

7B • Updated Jan 12 • 42

amoeba04/KVL-DPO

Image-Text-to-Text • 15B • Updated Jan 14 • 7 • 1

percyraskova/llm-training

Text Generation • Updated Jan 14

anthonym21/gemma-3-4b-it-slipstream-grpo

4B • Updated Jan 20 • 3

yusraghazi/leesplank-noot-llama-3.2-3b-dpo-finetuned

Text Generation • 3B • Updated Jan 20 • 5 • 2

jinn33/kanana-1.5-8b-rlhf

Sachinkry/qwen3-imdb-reward-0.6b

Text Classification • 0.6B • Updated 29 days ago • 31

dgonier/debate-qwen-32b-iter3-grpoD

Text Generation • 31B • Updated 24 days ago • 6

HowieHwong/ppopt

Text Generation • Updated 14 days ago • 11

kikansha-Tomasu/sft-dpo-sft-qwen-cot-merged

Text Generation • 4B • Updated 6 days ago • 23

ragtag1/qwen3-4b-historical-final

Updated 11 days ago

ragtag1/llama32-3b-historical-grpo

Updated 11 days ago

ragtag1/llama32-3b-historical-final

Updated 11 days ago

ragtag1/mistral7b-historical-grpo

Updated 10 days ago

ragtag1/mistral7b-historical-final

Updated 10 days ago

Vidushee/Qwen3-32B-BT-RewardModel

Text Classification • 682k • Updated 4 days ago • 107

chivier/BioVLM_8B-V1

Reinforcement Learning • 9B • Updated 3 days ago