Yuanxing Zhang's picture

16 2

Yuanxing Zhang

LongoXC

·

AI & ML interests

None yet

Recent Activity

upvoted a paper 11 days ago

MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

upvoted a paper about 1 month ago

MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues

upvoted a paper about 1 month ago

IF-VidCap: Can Video Caption Models Follow Instructions?

View all activity

Organizations

None yet

upvoted a paper 11 days ago

MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

Paper • 2511.07250 • Published 12 days ago • 17

upvoted 6 papers about 1 month ago

MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues

Paper • 2510.17722 • Published Oct 20 • 19

IF-VidCap: Can Video Caption Models Follow Instructions?

Paper • 2510.18726 • Published Oct 21 • 24

VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning

Paper • 2510.10518 • Published Oct 12 • 18

ReLook: Vision-Grounded RL with a Multimodal LLM Critic for Agentic Web Coding

Paper • 2510.11498 • Published Oct 13 • 10

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

Paper • 2510.10689 • Published Oct 12 • 46

AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

Paper • 2510.10395 • Published Oct 12 • 29

upvoted 3 papers about 2 months ago

VideoScore2: Think before You Score in Generative Video Evaluation

Paper • 2509.22799 • Published Sep 26 • 24

OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and Editing

Paper • 2509.24900 • Published Sep 29 • 53

RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark

Paper • 2509.24897 • Published Sep 29 • 46

upvoted a paper 5 months ago

ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation

Paper • 2507.04952 • Published Jul 7 • 9

upvoted a paper 8 months ago

A Comprehensive Survey on Long Context Language Modeling

Paper • 2503.17407 • Published Mar 20 • 49

upvoted a paper 9 months ago

CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models

Paper • 2502.16614 • Published Feb 23 • 27

upvoted 3 papers about 1 year ago

Chinese SimpleQA: A Chinese Factuality Evaluation for Large Language Models

Paper • 2411.07140 • Published Nov 11, 2024 • 35

MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models

Paper • 2410.11710 • Published Oct 15, 2024 • 20

MIO: A Foundation Model on Multimodal Tokens

Paper • 2409.17692 • Published Sep 26, 2024 • 53