JakubNovak's picture

52 21

JakubNovak

JakubNovakKKK

·

AI & ML interests

None yet

Recent Activity

upvoted a paper 24 days ago

Chem-R: Learning to Reason as a Chemist

upvoted a paper 6 months ago

Sherlock: Self-Correcting Reasoning in Vision-Language Models

liked a model 6 months ago

sarvamai/sarvam-m

View all activity

Organizations

None yet

upvoted a paper 24 days ago

Chem-R: Learning to Reason as a Chemist

Paper • 2510.16880 • Published 26 days ago • 52

upvoted a paper 6 months ago

Sherlock: Self-Correcting Reasoning in Vision-Language Models

Paper • 2505.22651 • Published May 28 • 50

liked 5 models 6 months ago

sarvamai/sarvam-m

Text Generation • 24B • Updated May 28 • 5.33k • 311

Wan-AI/Wan2.1-VACE-14B

Image-to-Video • Updated May 19 • 9.81k • 481

google/medgemma-27b-text-it

Text Generation • 27B • Updated Sep 16 • 29.4k • 370

nari-labs/Dia-1.6B

Text-to-Speech • Updated Jun 1 • 198k • • 2.8k

google/gemma-3n-E4B-it-litert-preview

Image-Text-to-Text • Updated May 26 • 1.48k

upvoted a paper 6 months ago

OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data

Paper • 2505.18445 • Published May 24 • 64

upvoted 11 papers 7 months ago

Towards Understanding Camera Motions in Any Video

Paper • 2504.15376 • Published Apr 21 • 158

CreativeSynth: Creative Blending and Synthesis of Visual Arts based on Multimodal Diffusion

Paper • 2401.14066 • Published Jan 25, 2024 • 11

ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models

Paper • 2401.13311 • Published Jan 24, 2024 • 12

SpacTor-T5: Pre-training T5 Models with Span Corruption and Replaced Token Detection

Paper • 2401.13160 • Published Jan 24, 2024 • 13

Sketch2NeRF: Multi-view Sketch-guided Text-to-3D Generation

Paper • 2401.14257 • Published Jan 25, 2024 • 12

UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion

Paper • 2401.13388 • Published Jan 24, 2024 • 13

MaLA-500: Massive Language Adaptation of Large Language Models

Paper • 2401.13303 • Published Jan 24, 2024 • 12

BootPIG: Bootstrapping Zero-shot Personalized Image Generation Capabilities in Pretrained Diffusion Models

Paper • 2401.13974 • Published Jan 25, 2024 • 14

WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models

Paper • 2401.13919 • Published Jan 25, 2024 • 32

MambaByte: Token-free Selective State Space Model

Paper • 2401.13660 • Published Jan 24, 2024 • 60

MM-LLMs: Recent Advances in MultiModal Large Language Models

Paper • 2401.13601 • Published Jan 24, 2024 • 48

upvoted a paper 9 months ago

Operationalizing Contextual Integrity in Privacy-Conscious Assistants

Paper • 2408.02373 • Published Aug 5, 2024 • 5