Перейти к основному содержимому

Как запускать gpt-oss локально с LM Studio

LM Studio — это мощное и удобное настольное приложение для запуска больших языковых моделей (LLM) на локальном оборудовании. Это руководство покажет вам, как настроить и запустить модели gpt-oss-20b или gpt-oss-120b с помощью LM Studio, включая способы общения с ними, использования MCP-серверов или взаимодействия с моделями через локальный API разработки LM Studio.

Обратите внимание, что это руководство предназначено для пользовательского оборудования, например, запуска gpt-oss на ПК или Mac. Для серверных приложений с выделенными GPU, такими как NVIDIA H100, смотрите наше руководство по vLLM.

Выберите вашу модель

LM Studio поддерживает оба размера модели gpt-oss:

  • openai/gpt-oss-20b
    • Меньшая модель
    • Требует минимум 16ГБ видеопамяти (VRAM)
    • Идеальна для продвинутых потребительских GPU или Mac на Apple Silicon
  • openai/gpt-oss-120b
    • Наша более крупная полноразмерная модель
    • Рекомендуется ≥60ГБ видеопамяти (VRAM)
    • Оптимальна для мульти-GPU конфигураций или мощных рабочих станций

LM Studio поставляется с движком вывода llama.cpp (поддерживает модели в формате GGUF), а также с движком Apple MLX для Mac на Apple Silicon.

Быстрая настройка

  1. Установите LM Studio
    LM Studio доступен для Windows, macOS и Linux. Скачайте его здесь.

  2. Скачайте модель gpt-oss

<<<FENCE_0>>>

  1. Загрузите модель в LM Studio
    → Откройте LM Studio и используйте интерфейс загрузки модели, чтобы загрузить скачанную модель gpt-oss. В качестве альтернативы можно загрузить модель через командную строку:

<<<FENCE_1>>>

  1. Используйте модель → После загрузки вы можете взаимодействовать с моделью напрямую через чат в LM Studio или через API.

Общение с gpt-oss

Используйте чат-интерфейс LM Studio, чтобы начать разговор с gpt-oss, или воспользуйтесь командой chat в терминале:

<<<FENCE_2>>>

Примечание по форматированию запросов: LM Studio использует библиотеку OpenAI Harmony для построения входных данных к моделям gpt-oss, как при запуске через llama.cpp, так и через MLX.

Использование gpt-oss с локальным эндпоинтом /v1/chat/completions

LM Studio предоставляет совместимый с Chat Completions API интерфейс, благодаря чему вы можете пользоваться SDK OpenAI без существенных изменений. Пример на Python:

<<<FENCE_3>>>

Если вы уже работали с OpenAI SDK, это покажется вам знакомым, и ваш существующий код должен работать, достаточно изменить базовый URL.

Как использовать MCP в интерфейсе чата

LM Studio является MCP клиентом, что означает возможность подключения MCP серверов. Это позволяет предоставлять внешние инструменты моделям gpt-oss.

Файл mcp.json LM Studio находится здесь:

<<<FENCE_4>>>

Локальное использование инструментов с gpt-oss на Python или TypeScript

SDK LM Studio доступен как на Python, так и на TypeScript. С помощью SDK вы можете реализовать вызов инструментов и локальное выполнение функций с gpt-oss.

Для этого используется вызов .act(), который позволяет предоставлять модели инструменты и переключаться между вызовом инструментов и рассуждениями до выполнения задачи.

Ниже приведён пример с единичным инструментом, который позволяет создавать файлы на вашем локальном диске. Этот пример можно взять за основу и расширять новыми инструментами. Подробнее о описании инструментов можно узнать здесь: Python и TypeScript.

<<<FENCE_5>>>

<<<FENCE_6>>>

Для разработчиков на TypeScript, желающих использовать gpt-oss локально, вот подобный пример с использованием lmstudio-js:

<<<FENCE_7>>>

<<<FENCE_8>>>