BYOM · Türkçe odaklı

Türkçe-fine-tune'lu açık modeli Parel'de deploy etmek

Hosted modeller (gpt-5.4, claude-opus-4-7, qwen3-max) Türkçe'de iyi ama bazı özel senaryolarda fine-tune'lu Türkçe model lazım: KVKK uyumu için lokal deploy, özel terminoloji (hukuk, sağlık, finans), fine-tune ettiğin kendi modelin. Bu rehberde örnek olarak ytu-ce-cosmos/Turkish-Llama-8b-DPO-v0.1'i Parel BYOM ile 5-7 dakikada deploy ediyoruz. Aynı yapı Trendyol-LLM, KUIS-AI veya kendi modeliniz için aynen geçerli.

Süre8 dk okuma · 30 dk uygulama
RolBackend, ML eng.
Maliyet$0.22-$3.20/saat
Hugging Face'deki Türkçe modelin ID'sini Parel preview API'ye ver, uygun GPU tier'ları ve fiyat dön; deploy onayla, 5-7 dakikada byom-DEPLOY_ID chat endpoint'i hazır. RunPod / Vast / Modal'dan kapasitesi olana otomatik yönlenir, idle'da otomatik kapanır, OpenAI SDK uyumlu çalışır.

Ne zaman BYOM, ne zaman hosted?

Hosted (Instant API) yeterli

Genel Türkçe LLM gerekiyor. qwen3-max ve gpt-4o-mini Türkçe'de güçlü; kurulum yok, idle yok, fatura token başına. POC ve çoğu production için tercih edilir.

BYOM gerekli

Fine-tune'lu kendi modelin var (Cosmos-Llama, Trendyol-LLM, KUIS-AI veya kendi DPO/SFT'in), gated bir checkpoint kullanıyorsun, sabit kapasite istiyorsun (idle kapanma riski yok), AWQ/GPTQ quantization'ını kendin kontrol etmen lazım.

Türkçe için öne çıkan açık modeller (HF'te halka açık):

ModelBoyutAçıklamaMin. GPU
ytu-ce-cosmos/Turkish-Llama-8b-DPO-v0.116 GBYTÜ Cosmos lab, Turkish-DPO ile fine-tuneRTX 4090 24GB
Trendyol/Trendyol-LLM-7b-chat-v1.014 GBTrendyol e-ticaret odaklı, chatRTX 4090 24GB
KUIS-AI/Kanarya-2b4 GBKoç Üni KUIS, hızlı/küçükRTX 3090 24GB
Metin/LLaMA-3-8B-Instruct-TR16 GBLlama-3 Türkçe instructRTX 4090 24GB

1. Preview: deploy etmeden uyumluluk kontrolü

Preview API hiç pod açmadan modelin meta verisini Hugging Face'ten çeker (config.json, safetensors.index.json) ve uyumlu GPU tier'larını + tahmini ETA + saatlik fiyatı döner.

POST /v1/deployments/preview
# 1) Modeli Parel'e tanit (deploy ETMEZ, on-kontrol)
curl -X POST https://api.parel.cloud/v1/deployments/preview \
  -H "Authorization: Bearer $PAREL_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "huggingface_id": "ytu-ce-cosmos/Turkish-Llama-8b-DPO-v0.1"
  }'
preview yanıtı
{
  "validator": "ok",
  "model_size_gb": 16.1,
  "architecture": "llama",
  "weight_format": "safetensors",
  "engine": "vllm",
  "vllm_image": "vllm/vllm-openai:v0.10.1.1",
  "compatible_tiers": ["rtx4090_24gb", "rtx_a6000_48gb", "a100_80gb"],
  "estimated_eta_seconds": {"runpod": 380, "vastai": 540, "modal": 290},
  "estimated_hourly_usd": {"rtx4090_24gb": 0.34, "a100_80gb": 1.85}
}

tier_capacity_exceeded dönerse "Oversized model" bölümüne bak. weight_format_unsupported dönerse model GGUF veya MLX formatında, BYOM şu an sadece safetensors/bin/pytorch destekliyor.

2. Deploy + status poll

Deploy isteği SQS'e iş atar, Lambda worker provider'a pod oluşturur. API hemen 202 döner, sen poll edersin. idle_timeout_minutes ve budget_limit_usd opsiyonel değil, deploy reddedilir.

POST /v1/deployments
# 2) Deploy — idle ve budget zorunlu
curl -X POST https://api.parel.cloud/v1/deployments \
  -H "Authorization: Bearer $PAREL_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "huggingface_id": "ytu-ce-cosmos/Turkish-Llama-8b-DPO-v0.1",
    "tier": "rtx4090_24gb",
    "idle_timeout_minutes": 15,
    "budget_limit_usd": 10.00,
    "name": "turkish-llama-poc"
  }'

# Yanit
# {"deployment_id": "d2k7x9", "status": "creating", "poll_url": "..."}
status polling
# 3) Status poll (5-7 dakikada running olur)
parel deployments status d2k7x9

# Veya HTTP
curl https://api.parel.cloud/v1/deployments/d2k7x9 \
  -H "Authorization: Bearer $PAREL_API_KEY"

# creating -> pulling_image -> downloading_weights -> starting -> running

7-8B fp16 model için ~5-7 dakika. ETA preview'da zaten geldi; gerçek süre buna ±%30 oturur. error dönerse provider havuzunda kapasite yok demek; Parel 3 sağlayıcıyı sırayla denedi ve hepsi dolu. 5-15 dakika sonra tekrar dene.

3. Türkçe smoke test

Status running olunca model OpenAI Chat Completions API'siyle byom-DEPLOY_ID adıyla çağrılır. Türkçe sistem prompt + Türkçe soru ile test:

chat smoke + delete
# 4) Calisan endpoint smoke test (Turkce prompt)
curl https://api.parel.cloud/v1/chat/completions \
  -H "Authorization: Bearer $PAREL_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "byom-d2k7x9",
    "messages": [
      {"role": "system", "content": "Sen Turkce konusan bir asistansin."},
      {"role": "user", "content": "Istanbul un en eski semti hangisidir? Tek paragraf cevap."}
    ],
    "max_tokens": 256,
    "temperature": 0.3
  }'

# 5) Test bittiginde MUTLAKA sil
parel deployments delete d2k7x9

Cevabı oku: gerçekten doğal Türkçe mi? Cosmos-Llama özellikle DPO ile fine-tune'lu, kısa-orta cevaplarda çok güçlü. Uzun bağlam veya çok adımlı reasoning'de zorlanırsa o iş için qwen3-max hosted seç.

Oversized model: 70B Türkçe model deploy

70B+ Türkçe model (örn. Cosmos-Llama-70B veya kendi 70B fine-tune'un) preview'da tier_capacity_exceeded dönerse 3 strateji var:

oversized stratejileri
# 70B Turkce model sigmazsa ne yapmali?
# preview tier_capacity_exceeded donerse 3 yol:
#
# 1) AWQ / GPTQ varyantini ara
#    "ytu-ce-cosmos/Turkish-Llama-70b" (140GB)
#         -> AWQ varyanti (35GB) -> rtx_a6000_48gb sigar
#
# 2) Multi-GPU tier (TP=2)
#    rtx3090_2x_48gb -> 2x 24GB combined, $0.42/saat
#
# 3) A100 80GB single (en pahali ama en basit)

Karar

BYOM ship

Türkçe çıktı kalitesi production için yeterli, latency POC bütçesinde. Production'a geçerken idle_timeout=0 ve daha yüksek budget_limit_usd. Endpoint açık kalır, fatura saatlik.

Instant'a dön

Türkçe kalite farkı küçük; qwen3-max veya gpt-4o-mini hosted yetiyor. BYOM operasyon yükünü çekme; Instant'a dön. BYOM'u sadece fine-tune'lu özel modelin için sakla.

Hosted vitrine dön

Açık model Türkçe'de iyi ama tool-use, uzun bağlam veya code edit gerekiyor. claude-opus-4-7 veya gpt-5.4 daha uygun. Açık model POC sonucu burada "no" demek de değerlidir.