yagpt

Sleeping

IsaFxck commited on Mar 9

Commit

8d48227

verified ·

1 Parent(s): 90b98b6

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,19 +1,32 @@
 import gradio as gr
-from transformers import AutoModelForCausalLM, AutoTokenizer
 # Загрузка модели и токенизатора
 model_name = "IlyaGusev/saiga_yandexgpt_8b"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
-model = AutoModelForCausalLM.from_pretrained(model_name)
 # Функция для генерации текста
 def generate_text(input_text):
-    inputs = tokenizer(input_text, return_tensors="pt")
     outputs = model.generate(
         **inputs,
-        max_new_tokens=300,  # Ограничение длины ответа
-        do_sample=True,      # Для разнообразия ответов
-        temperature=0.7      # Настройка "креативности"
     )
     return tokenizer.decode(outputs[0], skip_special_tokens=True)
@@ -22,8 +35,8 @@ interface = gr.Interface(
     fn=generate_text,
     inputs=gr.Textbox(lines=2, placeholder="Введите ваш запрос..."),
     outputs="text",
-    title="Saiga YandexGPT 8B Demo",
-    description="Задайте вопрос модели Saiga YandexGPT 8B!"
 )
 # Запуск приложения

 import gradio as gr
+from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
+import torch
+# Настройка 4-битной квантизации
+quantization_config = BitsAndBytesConfig(
+    load_in_4bit=True,
+    bnb_4bit_compute_dtype=torch.float16,  #
+    bnb_4bit_quant_type="nf4",
+    bnb_4bit_use_double_quant=True
+)
 # Загрузка модели и токенизатора
 model_name = "IlyaGusev/saiga_yandexgpt_8b"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    quantization_config=quantization_config,
+    device_map="auto"
+)
 # Функция для генерации текста
 def generate_text(input_text):
+    inputs = tokenizer(input_text, return_tensors="pt")  # Перенос на GPU
     outputs = model.generate(
         **inputs,
+        max_new_tokens=300,
+        do_sample=True,
+        temperature=0.7
     )
     return tokenizer.decode(outputs[0], skip_special_tokens=True)
     fn=generate_text,
     inputs=gr.Textbox(lines=2, placeholder="Введите ваш запрос..."),
     outputs="text",
+    title="Saiga YandexGPT 8B Demo (4-bit)",
+    description="Задайте вопрос модели Saiga YandexGPT 8B в 4-битной квантизации!"
 )
 # Запуск приложения