{
  "model_version": "smol-v7-sc-temporal",
  "tag": "aa1",
  "model": {
    "vocab_size": 11,
    "d_model": 384,
    "nhead": 6,
    "num_layers": 4,
    "max_size": 30,
    "embedding_dropout": 0.1,
    "input_grid_dropout": 0.05
  },
  "training": {
    "num_timesteps": 128,
    "schedule_type": "cosine",
    "batch_size": 128,
    "learning_rate": 0.0004,
    "weight_decay": 0.01,
    "optimizer_steps": 250000,
    "lr_warmup_steps": 2000,
    "gradient_accumulation_steps": 1,
    "augment": true,
    "log_every": 100,
    "val_every_steps": 500,
    "vis_every_steps": 16000,
    "eval_every_steps": 10000,
    "num_eval_tasks": 120,
    "best_model_metric": "eval_score",
    "eval_dataset": "evaluation",
    "use_mixed_precision": true,
    "pixel_noise_prob": 0.0,
    "pixel_noise_rate": 0.0,
    "use_ema": true,
    "ema_decay": 0.9995,
    "ema_warmup_steps": 2000
  },
  "data": {
    "data_dir": "data/arc-prize-2024",
    "datasets": ["training_challenges","evaluation_challenges"],
    "include_training_test_examples": true,
    "max_val_examples": 128,
    "eval_weight": 1.0
  },
  "auxiliary_loss": {
    "include_size_head": true,
    "size_head_hidden_dim": 256,
    "auxiliary_size_loss_weight": 0.1,
    "auxiliary_size_loss_warmup": 0
  },
  "output": {
    "output_dir": "outputs/smol",
    "use_wandb": true,
    "save_best": true,
    "save_final": true
  }
}