Tom Zak's picture

1 17 3

Tom Zak

Tomoomo

AI & ML interests

None yet

Recent Activity

upvoted a paper 7 days ago

ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation

upvoted a paper 11 days ago

Emu3.5: Native Multimodal Models are World Learners

upvoted a paper 11 days ago

The End of Manual Decoding: Towards Truly End-to-End Language Models

View all activity

Organizations

None yet

upvoted a paper 7 days ago

ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation

Paper • 2511.01163 • Published 9 days ago • 31

upvoted 3 papers 11 days ago

Emu3.5: Native Multimodal Models are World Learners

Paper • 2510.26583 • Published 13 days ago • 103

The End of Manual Decoding: Towards Truly End-to-End Language Models

Paper • 2510.26697 • Published 12 days ago • 113

Kimi Linear: An Expressive, Efficient Attention Architecture

Paper • 2510.26692 • Published 12 days ago • 102

upvoted 3 papers 15 days ago

Qwen3 Technical Report

Paper • 2505.09388 • Published May 14 • 309

The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain

Paper • 2509.26507 • Published Sep 30 • 528

Visual Diffusion Models are Geometric Solvers

Paper • 2510.21697 • Published 18 days ago • 18

upvoted a paper 19 days ago

LoongRL:Reinforcement Learning for Advanced Reasoning over Long Contexts

Paper • 2510.19363 • Published 21 days ago • 59

upvoted 4 papers 4 months ago

FantasyPortrait: Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion Transformers

Paper • 2507.12956 • Published Jul 17 • 24

Voxtral

Paper • 2507.13264 • Published Jul 17 • 29

MindJourney: Test-Time Scaling with World Models for Spatial Reasoning

Paper • 2507.12508 • Published Jul 16 • 26

A Survey of Context Engineering for Large Language Models

Paper • 2507.13334 • Published Jul 17 • 258

upvoted a collection 7 months ago

Cogito v1 Preview

5 items • Updated Apr 8 • 120

upvoted 4 papers over 1 year ago

PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM

Paper • 2406.02884 • Published Jun 5, 2024 • 19

Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms

Paper • 2406.02900 • Published Jun 5, 2024 • 14

LiveSpeech: Low-Latency Zero-shot Text-to-Speech via Autoregressive Modeling of Audio Discrete Codes

Paper • 2406.02897 • Published Jun 5, 2024 • 16

Block Transformer: Global-to-Local Language Modeling for Fast Inference

Paper • 2406.02657 • Published Jun 4, 2024 • 41