LLM Training - a mphielipp Collection

mphielipp 's Collections

Computer Vision

RL for Autoregressive Tasks

CUDA Optimization

Light TTS models

Datasets for Robotic Learning

Diffusion and RL

VLM

Visual Reasoning and LLMs

Diffusion Transformers

Conditional Diffusion

SSMs and Diffusion

Self Pedicting Learning in RL

LLMs Evaluation

CV

VLA

LLM Training

updated Aug 10

LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models

Paper • 2403.13372 • Published Mar 20, 2024 • 168
On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

Paper • 2508.05629 • Published Aug 7 • 178