3 24 4

Yifei Li

JoeLeelyf

https://joeleelyf.github.io/

JoeLeelyf

AI & ML interests

MLLMs, Deepfake Detection, Computer Vision

Recent Activity

updated a dataset 6 days ago

JoeLeelyf/SArena-VLMEvalKit

updated a dataset 11 days ago

JoeLeelyf/ViF-CoT-4K

authored a paper 11 days ago

Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning

View all activity

Organizations

upvoted a paper 11 days ago

Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning

Paper • 2512.15693 • Published 11 days ago • 16

upvoted a paper 24 days ago

ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning

Paper • 2512.05111 • Published 24 days ago • 45

upvoted a paper 26 days ago

ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation

Paper • 2512.03036 • Published 26 days ago • 20

upvoted a paper about 1 month ago

Think Visually, Reason Textually: Vision-Language Synergy in ARC

Paper • 2511.15703 • Published Nov 19 • 8

upvoted a paper about 2 months ago

Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning

Paper • 2510.27606 • Published Oct 31 • 28

upvoted 2 papers 2 months ago

STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

Paper • 2510.24693 • Published Oct 28 • 18

UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation

Paper • 2510.18701 • Published Oct 21 • 66

upvoted 2 papers 3 months ago

CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning

Paper • 2509.22647 • Published Sep 26 • 32

SIM-CoT: Supervised Implicit Chain-of-Thought

Paper • 2509.20317 • Published Sep 24 • 41

upvoted 3 papers 5 months ago

SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

Paper • 2508.04700 • Published Aug 6 • 52

Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models

Paper • 2508.00819 • Published Aug 1 • 62

SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction

Paper • 2507.15852 • Published Jul 21 • 38

upvoted a paper 6 months ago

ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing

Paper • 2506.19848 • Published Jun 24 • 26

upvoted a paper 9 months ago

MM-IFEngine: Towards Multimodal Instruction Following

Paper • 2504.07957 • Published Apr 10 • 35

upvoted 2 papers 10 months ago

OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference

Paper • 2502.18411 • Published Feb 25 • 74

SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation

Paper • 2502.13128 • Published Feb 18 • 41

upvoted 2 papers 11 months ago

VideoRoPE: What Makes for Good Video Rotary Position Embedding?

Paper • 2502.05173 • Published Feb 7 • 65

Redundancy Principles for MLLMs Benchmarks

Paper • 2501.13953 • Published Jan 20 • 29

upvoted 2 papers 12 months ago

OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

Paper • 2501.05510 • Published Jan 9 • 44

BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning

Paper • 2501.03226 • Published Jan 6 • 43

Yifei Li

AI & ML interests

Recent Activity

Organizations

JoeLeelyf's activity