Spaces:

DiDustin
/

KazLLM

Running on Zero

App Files Files Community

DiDustin commited on Dec 16, 2024

Commit

cbc4fca

verified ·

1 Parent(s): 4bb79cf

Update app.py

Browse files

update activation of top_p, and gpu required time

Files changed (1) hide show

app.py +27 -16

app.py CHANGED Viewed

@@ -63,15 +63,15 @@ LANGUAGES = {
 loaded_models = {}
 loaded_tokenizers = {}
 @spaces.GPU(duration=60)
 def load_model_and_tokenizer(model_key):
     if model_key not in loaded_models:
         model_info = MODELS[model_key]
-        device = "cuda"
         model = AutoModelForCausalLM.from_pretrained(
             model_info["model_name"],
-            token=HF_TOKEN,
-            torch_dtype=torch.float16
         ).to(device)
         loaded_models[model_key] = model
@@ -84,26 +84,31 @@ def load_model_and_tokenizer(model_key):
             tokenizer.pad_token = tokenizer.eos_token
         loaded_tokenizers[model_key] = tokenizer
-@spaces.GPU(duration=140)
 def generate_text(model_choice, prompt, max_length, temperature, top_p, do_sample):
     load_model_and_tokenizer(model_choice)
     model = loaded_models[model_choice]
     tokenizer = loaded_tokenizers[model_choice]
-    device = "cuda"
     inputs = tokenizer(prompt, return_tensors="pt", truncation=True, padding=True).to(device)
-    outputs = model.generate(
-        input_ids=inputs["input_ids"],
-        attention_mask=inputs["attention_mask"],
-        max_length=max_length,
-        temperature=temperature,
-        top_p=top_p,
-        repetition_penalty=1.2,
-        no_repeat_ngram_size=2,
-        do_sample=do_sample,
-    )
     generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
@@ -136,7 +141,7 @@ def update_language(selected_language):
     )
-@spaces.GPU(duration=140)
 def wrapped_generate_text(model_choice, prompt, max_length, temperature, top_p, do_sample):
     return generate_text(model_choice, prompt, max_length, temperature, top_p, do_sample)
@@ -215,6 +220,12 @@ with gr.Blocks() as iface:
                  do_sample_checkbox, generate_button, output_text]
     )
     generate_button.click(
         fn=wrapped_generate_text,
         inputs=[

 loaded_models = {}
 loaded_tokenizers = {}
 @spaces.GPU(duration=60)
 def load_model_and_tokenizer(model_key):
     if model_key not in loaded_models:
         model_info = MODELS[model_key]
+        device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
         model = AutoModelForCausalLM.from_pretrained(
             model_info["model_name"],
+            token=HF_TOKEN
         ).to(device)
         loaded_models[model_key] = model
             tokenizer.pad_token = tokenizer.eos_token
         loaded_tokenizers[model_key] = tokenizer
+@spaces.GPU(duration=120)
 def generate_text(model_choice, prompt, max_length, temperature, top_p, do_sample):
     load_model_and_tokenizer(model_choice)
     model = loaded_models[model_choice]
     tokenizer = loaded_tokenizers[model_choice]
+    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
     inputs = tokenizer(prompt, return_tensors="pt", truncation=True, padding=True).to(device)
+    generation_kwargs = {
+        "input_ids": inputs["input_ids"],
+        "attention_mask": inputs["attention_mask"],
+        "max_length": max_length,
+        "temperature": temperature,
+        "repetition_penalty": 1.2,
+        "no_repeat_ngram_size": 2,
+        "do_sample": do_sample,
+    }
+    if do_sample:
+        generation_kwargs["top_p"] = top_p
+    outputs = model.generate(**generation_kwargs)
     generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
     )
+@spaces.GPU(duration=120)
 def wrapped_generate_text(model_choice, prompt, max_length, temperature, top_p, do_sample):
     return generate_text(model_choice, prompt, max_length, temperature, top_p, do_sample)
                  do_sample_checkbox, generate_button, output_text]
     )
+    do_sample_checkbox.change(
+        fn=lambda do_sample: gr.update(visible=do_sample),
+        inputs=[do_sample_checkbox],
+        outputs=[top_p_slider]
+    )
     generate_button.click(
         fn=wrapped_generate_text,
         inputs=[