Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2510.03279

ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality

Paper • 2510.22037 • Published 25 days ago • 18
Less is More: Recursive Reasoning with Tiny Networks

Paper • 2510.04871 • Published Oct 6 • 483
The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain

Paper • 2509.26507 • Published Sep 30 • 531
Scaling Language-Centric Omnimodal Representation Learning

Paper • 2510.11693 • Published Oct 13 • 97

MorphoBench: A Benchmark with Difficulty Adaptive to Model Reasoning

Paper • 2510.14265 • Published Oct 16 • 19
DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning

Paper • 2510.15110 • Published Oct 16 • 15
MemMamba: Rethinking Memory Patterns in State Space Model

Paper • 2510.03279 • Published Sep 28 • 72
Learning Optimal Predictive Checklists

Paper • 2112.01020 • Published Dec 2, 2021 • 1

Agent Learning via Early Experience

Paper • 2510.08558 • Published Oct 9 • 262
MemMamba: Rethinking Memory Patterns in State Space Model

Paper • 2510.03279 • Published Sep 28 • 72
From What to Why: A Multi-Agent System for Evidence-based Chemical Reaction Condition Reasoning

Paper • 2509.23768 • Published Sep 28 • 48
LLMs Learn to Deceive Unintentionally: Emergent Misalignment in Dishonesty from Misaligned Samples to Biased Human-AI Interactions

Paper • 2510.08211 • Published Oct 9 • 22

HoloScene: Simulation-Ready Interactive 3D Worlds from a Single Video

Paper • 2510.05560 • Published Oct 7 • 7
TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning

Paper • 2510.06217 • Published Oct 7 • 62
Less is More: Recursive Reasoning with Tiny Networks

Paper • 2510.04871 • Published Oct 6 • 483
Fast-dLLM v2: Efficient Block-Diffusion LLM

Paper • 2509.26328 • Published Sep 30 • 52

Qwen/Qwen3-30B-A3B-Thinking-2507-FP8

Text Generation • 31B • Updated Jul 30 • 19.1k • 46
Qwen/Qwen3-4B-Thinking-2507-FP8

Text Generation • 4B • Updated Aug 6 • 193k • 39
Qwen/Qwen3-4B-Instruct-2507-FP8

Text Generation • 4B • Updated Sep 17 • 41.7k • 50
Qwen/Qwen3-1.7B

Text Generation • 2B • Updated Jul 26 • 1.1M • • 324

i honestly dont know what im doing

MemMamba: Rethinking Memory Patterns in State Space Model

Paper • 2510.03279 • Published Sep 28 • 72

Less is More: Recursive Reasoning with Tiny Networks

Paper • 2510.04871 • Published Oct 6 • 483
When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs

Paper • 2510.07499 • Published Oct 8 • 48
Improving Context Fidelity via Native Retrieval-Augmented Reasoning

Paper • 2509.13683 • Published Sep 17 • 8
Multimodal Iterative RAG for Knowledge-Intensive Visual Question Answering

Paper • 2509.00798 • Published Aug 31 • 1

MemMamba: Rethinking Memory Patterns in State Space Model

Paper • 2510.03279 • Published Sep 28 • 72

LoFT: Parameter-Efficient Fine-Tuning for Long-tailed Semi-Supervised Learning in Open-World Scenarios

Paper • 2509.09926 • Published Sep 12 • 13
What Breaks Knowledge Graph based RAG? Empirical Insights into Reasoning under Incomplete Knowledge

Paper • 2508.08344 • Published Aug 11
MemMamba: Rethinking Memory Patterns in State Space Model

Paper • 2510.03279 • Published Sep 28 • 72
When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs

Paper • 2510.07499 • Published Oct 8 • 48

Intern-S1: A Scientific Multimodal Foundation Model

Paper • 2508.15763 • Published Aug 21 • 256
MemMamba: Rethinking Memory Patterns in State Space Model

Paper • 2510.03279 • Published Sep 28 • 72
Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models

Paper • 2510.05034 • Published Oct 6 • 46
QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs

Paper • 2510.11696 • Published Oct 13 • 173

ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality

Paper • 2510.22037 • Published 25 days ago • 18
Less is More: Recursive Reasoning with Tiny Networks

Paper • 2510.04871 • Published Oct 6 • 483
The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain

Paper • 2509.26507 • Published Sep 30 • 531
Scaling Language-Centric Omnimodal Representation Learning

Paper • 2510.11693 • Published Oct 13 • 97

i honestly dont know what im doing

MemMamba: Rethinking Memory Patterns in State Space Model

Paper • 2510.03279 • Published Sep 28 • 72

MorphoBench: A Benchmark with Difficulty Adaptive to Model Reasoning

Paper • 2510.14265 • Published Oct 16 • 19
DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning

Paper • 2510.15110 • Published Oct 16 • 15
MemMamba: Rethinking Memory Patterns in State Space Model

Paper • 2510.03279 • Published Sep 28 • 72
Learning Optimal Predictive Checklists

Paper • 2112.01020 • Published Dec 2, 2021 • 1

Less is More: Recursive Reasoning with Tiny Networks

Paper • 2510.04871 • Published Oct 6 • 483
When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs

Paper • 2510.07499 • Published Oct 8 • 48
Improving Context Fidelity via Native Retrieval-Augmented Reasoning

Paper • 2509.13683 • Published Sep 17 • 8
Multimodal Iterative RAG for Knowledge-Intensive Visual Question Answering

Paper • 2509.00798 • Published Aug 31 • 1

Agent Learning via Early Experience

Paper • 2510.08558 • Published Oct 9 • 262
MemMamba: Rethinking Memory Patterns in State Space Model

Paper • 2510.03279 • Published Sep 28 • 72
From What to Why: A Multi-Agent System for Evidence-based Chemical Reaction Condition Reasoning

Paper • 2509.23768 • Published Sep 28 • 48
LLMs Learn to Deceive Unintentionally: Emergent Misalignment in Dishonesty from Misaligned Samples to Biased Human-AI Interactions

Paper • 2510.08211 • Published Oct 9 • 22

MemMamba: Rethinking Memory Patterns in State Space Model

Paper • 2510.03279 • Published Sep 28 • 72

HoloScene: Simulation-Ready Interactive 3D Worlds from a Single Video

Paper • 2510.05560 • Published Oct 7 • 7
TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning

Paper • 2510.06217 • Published Oct 7 • 62
Less is More: Recursive Reasoning with Tiny Networks

Paper • 2510.04871 • Published Oct 6 • 483
Fast-dLLM v2: Efficient Block-Diffusion LLM

Paper • 2509.26328 • Published Sep 30 • 52

LoFT: Parameter-Efficient Fine-Tuning for Long-tailed Semi-Supervised Learning in Open-World Scenarios

Paper • 2509.09926 • Published Sep 12 • 13
What Breaks Knowledge Graph based RAG? Empirical Insights into Reasoning under Incomplete Knowledge

Paper • 2508.08344 • Published Aug 11
MemMamba: Rethinking Memory Patterns in State Space Model

Paper • 2510.03279 • Published Sep 28 • 72
When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs

Paper • 2510.07499 • Published Oct 8 • 48

Qwen/Qwen3-30B-A3B-Thinking-2507-FP8

Text Generation • 31B • Updated Jul 30 • 19.1k • 46
Qwen/Qwen3-4B-Thinking-2507-FP8

Text Generation • 4B • Updated Aug 6 • 193k • 39
Qwen/Qwen3-4B-Instruct-2507-FP8

Text Generation • 4B • Updated Sep 17 • 41.7k • 50
Qwen/Qwen3-1.7B

Text Generation • 2B • Updated Jul 26 • 1.1M • • 324

Intern-S1: A Scientific Multimodal Foundation Model

Paper • 2508.15763 • Published Aug 21 • 256
MemMamba: Rethinking Memory Patterns in State Space Model

Paper • 2510.03279 • Published Sep 28 • 72
Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models

Paper • 2510.05034 • Published Oct 6 • 46
QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs

Paper • 2510.11696 • Published Oct 13 • 173

Previous
1
2
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs