Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2306.08543

I add and I forget to read

Adapt-Pruner: Adaptive Structural Pruning for Efficient Small Language Model Training

Paper • 2502.03460 • Published Feb 5
LLM-Pruner: On the Structural Pruning of Large Language Models

Paper • 2305.11627 • Published May 19, 2023 • 3
Pruning as a Domain-specific LLM Extractor

Paper • 2405.06275 • Published May 10, 2024 • 1
KnowTuning: Knowledge-aware Fine-tuning for Large Language Models

Paper • 2402.11176 • Published Feb 17, 2024 • 2

LLM Post Training

Instruction Tuning for Large Language Models: A Survey

Paper • 2308.10792 • Published Aug 21, 2023 • 1
Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey

Paper • 2403.14608 • Published Mar 21, 2024
Efficient Large Language Models: A Survey

Paper • 2312.03863 • Published Dec 6, 2023 • 4
ReFT: Reasoning with Reinforced Fine-Tuning

Paper • 2401.08967 • Published Jan 17, 2024 • 31

Knowledge Distillation of Large Language Models

Paper • 2306.08543 • Published Jun 14, 2023 • 21

Knowledge Distillation of Large Language Models

Paper • 2306.08543 • Published Jun 14, 2023 • 21

Addition is All You Need for Energy-efficient Language Models

Paper • 2410.00907 • Published Oct 1, 2024 • 151
Knowledge Distillation of Large Language Models

Paper • 2306.08543 • Published Jun 14, 2023 • 21
facebook/MobileLLM-350M

Text Generation • Updated May 5 • 74 • 35

Papers Mini Models

Knowledge Distillation of Large Language Models

Paper • 2306.08543 • Published Jun 14, 2023 • 21
recobo/agriculture-bert-uncased

Fill-Mask • Updated Oct 8, 2021 • 158 • 21

Detecting Pretraining Data from Large Language Models

Paper • 2310.16789 • Published Oct 25, 2023 • 11
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models

Paper • 2310.13671 • Published Oct 20, 2023 • 19
AutoMix: Automatically Mixing Language Models

Paper • 2310.12963 • Published Oct 19, 2023 • 14
An Emulator for Fine-Tuning Large Language Models using Small Language Models

Paper • 2310.12962 • Published Oct 19, 2023 • 13

Retentive Network: A Successor to Transformer for Large Language Models

Paper • 2307.08621 • Published Jul 17, 2023 • 172
Sparks of Artificial General Intelligence: Early experiments with GPT-4

Paper • 2303.12712 • Published Mar 22, 2023 • 4
GPT-4 Technical Report

Paper • 2303.08774 • Published Mar 15, 2023 • 7
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Paper • 2201.11903 • Published Jan 28, 2022 • 14

I add and I forget to read

Adapt-Pruner: Adaptive Structural Pruning for Efficient Small Language Model Training

Paper • 2502.03460 • Published Feb 5
LLM-Pruner: On the Structural Pruning of Large Language Models

Paper • 2305.11627 • Published May 19, 2023 • 3
Pruning as a Domain-specific LLM Extractor

Paper • 2405.06275 • Published May 10, 2024 • 1
KnowTuning: Knowledge-aware Fine-tuning for Large Language Models

Paper • 2402.11176 • Published Feb 17, 2024 • 2

Addition is All You Need for Energy-efficient Language Models

Paper • 2410.00907 • Published Oct 1, 2024 • 151
Knowledge Distillation of Large Language Models

Paper • 2306.08543 • Published Jun 14, 2023 • 21
facebook/MobileLLM-350M

Text Generation • Updated May 5 • 74 • 35

LLM Post Training

Instruction Tuning for Large Language Models: A Survey

Paper • 2308.10792 • Published Aug 21, 2023 • 1
Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey

Paper • 2403.14608 • Published Mar 21, 2024
Efficient Large Language Models: A Survey

Paper • 2312.03863 • Published Dec 6, 2023 • 4
ReFT: Reasoning with Reinforced Fine-Tuning

Paper • 2401.08967 • Published Jan 17, 2024 • 31

Papers Mini Models

Knowledge Distillation of Large Language Models

Paper • 2306.08543 • Published Jun 14, 2023 • 21
recobo/agriculture-bert-uncased

Fill-Mask • Updated Oct 8, 2021 • 158 • 21

Knowledge Distillation of Large Language Models

Paper • 2306.08543 • Published Jun 14, 2023 • 21

Detecting Pretraining Data from Large Language Models

Paper • 2310.16789 • Published Oct 25, 2023 • 11
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models

Paper • 2310.13671 • Published Oct 20, 2023 • 19
AutoMix: Automatically Mixing Language Models

Paper • 2310.12963 • Published Oct 19, 2023 • 14
An Emulator for Fine-Tuning Large Language Models using Small Language Models

Paper • 2310.12962 • Published Oct 19, 2023 • 13

Knowledge Distillation of Large Language Models

Paper • 2306.08543 • Published Jun 14, 2023 • 21

Retentive Network: A Successor to Transformer for Large Language Models

Paper • 2307.08621 • Published Jul 17, 2023 • 172
Sparks of Artificial General Intelligence: Early experiments with GPT-4

Paper • 2303.12712 • Published Mar 22, 2023 • 4
GPT-4 Technical Report

Paper • 2303.08774 • Published Mar 15, 2023 • 7
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Paper • 2201.11903 • Published Jan 28, 2022 • 14

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs