YandexGPT-5-Lite-Instruct-GGUF

Квантизованная версия YandexGPT 5 Lite 8B Instruct. Информация о модели доступна в основном репозитории: YandexGPT-5-Lite-8B-instruct.

UPD: Мы обновили .gguf файл в изначальном репозитории на наиболее близкий по качеству к оригинальной модели.

llama.cpp

Для начала нужно собрать llama.cpp (или обновить, если уже есть):

git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
cmake -B build
cmake --build build --config Release
cd ..

Можно ускорить сборку если позволяют ресурсы: cmake --build build --config Release -j 10

Запуск модели в интерактивном режиме:

llama.cpp/build/bin/llama-cli -m YandexGPT-5-Lite-8B-instruct-Q4_K_M.gguf

Мы рекомендуем использовать интерактивный режим только для ознакомления с моделью.

Запуск сервера:

llama.cpp/build/bin/llama-server -m YandexGPT-5-Lite-8B-instruct-Q4_K_M.gguf -c 32768

Если позволяют ресурсы, можно ускорить инференс, добавив -t 10.

Ollama

Запуск модели в интерактивном режиме:

ollama run yandex/YandexGPT-5-Lite-8B-instruct-GGUF

Мы рекомендуем использовать интерактивный режим только для ознакомления с моделью.

Особенности шаблона

Мы используем нестандартный шаблон диалога — модель обучена генерировать только одну реплику после последовательности Ассистент:[SEP], завершая её токеном </s>. При этом диалог в промпте может быть любой длины.

Это приводит к тому, что в интерактивном режиме модель может выдавать результаты, отличающиеся от вызова модели в режиме генерации на фиксированном диалоге. Поэтому мы рекомендуем использовать интерактивный режим только для ознакомления с моделью.

Downloads last month
2,244
GGUF
Model size
8.04B params
Architecture
llama
Hardware compatibility
Log In to view the estimation

4-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Space using yandex/YandexGPT-5-Lite-8B-instruct-GGUF 1

Collection including yandex/YandexGPT-5-Lite-8B-instruct-GGUF