LLM-inference-speed - a CharlesVardeman Collection

CharlesVardeman 's Collections

Agents

LLM-inference-speed

Models

LLM-inference-speed

updated Dec 20, 2023

LLM in a flash: Efficient Large Language Model Inference with Limited Memory

Paper • 2312.11514 • Published Dec 12, 2023 • 260