rewardfm
/

libero_testset_prog_pref_fail_4frames_fixdata

preference_comparisons

Model card Files Files and versions

rewardfm/libero_90_prog_pref_fail_4frames_fixdata

Model Details

Base Model: Qwen/Qwen3-VL-4B-Instruct
Model Type: qwen3_vl

Training Run

Wandb Run: libero_ablation_prog_pref_fail_4frames_fixdata
Wandb ID: gw667gsc
Project: rfm
Notes: libero prog_pref_fail only

Citation

If you use this model, please cite:

Downloads last month: 6

Safetensors

Model size

4B params

Tensor type

BF16

·

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rewardfm/libero_testset_prog_pref_fail_4frames_fixdata

Base model

Qwen/Qwen3-VL-4B-Instruct

Finetuned

(158)

this model