multimodal - a CelesteChen Collection

CelesteChen 's Collections

agent

creative-writing

models

code

RAG

others

math

Align

multimodal

updated about 23 hours ago

DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning

Paper • 2510.15110 • Published 27 days ago • 15
PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

Paper • 2510.14528 • Published 27 days ago • 88
Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs

Paper • 2510.13795 • Published 28 days ago • 56
UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning

Paper • 2510.13515 • Published 28 days ago • 11
SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model

Paper • 2510.12709 • Published 29 days ago • 10
HoneyBee: Data Recipes for Vision-Language Reasoners

Paper • 2510.12225 • Published 29 days ago • 10
Visual Spatial Tuning

Paper • 2511.05491 • Published 5 days ago • 42
DeepEyesV2: Toward Agentic Multimodal Model

Paper • 2511.05271 • Published 5 days ago • 35
NVIDIA Nemotron Nano V2 VL

Paper • 2511.03929 • Published 6 days ago • 22
SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL Tuning

Paper • 2511.02280 • Published 8 days ago • 2
When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought

Paper • 2511.02779 • Published 8 days ago • 52
Sample By Step, Optimize By Chunk: Chunk-Level GRPO For Text-to-Image Generation

Paper • 2510.21583 • Published 19 days ago • 30