Türkçe-fine-tune'lu açık modeli Parel'de deploy etmek
Hosted modeller (gpt-5.4, claude-opus-4-7, qwen3-max) Türkçe'de iyi ama bazı
özel senaryolarda fine-tune'lu Türkçe model lazım: KVKK uyumu için lokal deploy,
özel terminoloji (hukuk, sağlık, finans), fine-tune ettiğin kendi modelin. Bu
rehberde örnek olarak ytu-ce-cosmos/Turkish-Llama-8b-DPO-v0.1'i
Parel BYOM ile 5-7 dakikada deploy ediyoruz. Aynı yapı Trendyol-LLM, KUIS-AI
veya kendi modeliniz için aynen geçerli.
byom-DEPLOY_ID chat endpoint'i hazır. RunPod / Vast / Modal'dan
kapasitesi olana otomatik yönlenir, idle'da otomatik kapanır, OpenAI SDK
uyumlu çalışır.
Ne zaman BYOM, ne zaman hosted?
Hosted (Instant API) yeterli
Genel Türkçe LLM gerekiyor. qwen3-max ve
gpt-4o-mini Türkçe'de güçlü; kurulum yok, idle yok, fatura
token başına. POC ve çoğu production için tercih edilir.
BYOM gerekli
Fine-tune'lu kendi modelin var (Cosmos-Llama, Trendyol-LLM, KUIS-AI veya kendi DPO/SFT'in), gated bir checkpoint kullanıyorsun, sabit kapasite istiyorsun (idle kapanma riski yok), AWQ/GPTQ quantization'ını kendin kontrol etmen lazım.
Türkçe için öne çıkan açık modeller (HF'te halka açık):
| Model | Boyut | Açıklama | Min. GPU |
|---|---|---|---|
| ytu-ce-cosmos/Turkish-Llama-8b-DPO-v0.1 | 16 GB | YTÜ Cosmos lab, Turkish-DPO ile fine-tune | RTX 4090 24GB |
| Trendyol/Trendyol-LLM-7b-chat-v1.0 | 14 GB | Trendyol e-ticaret odaklı, chat | RTX 4090 24GB |
| KUIS-AI/Kanarya-2b | 4 GB | Koç Üni KUIS, hızlı/küçük | RTX 3090 24GB |
| Metin/LLaMA-3-8B-Instruct-TR | 16 GB | Llama-3 Türkçe instruct | RTX 4090 24GB |
1. Preview: deploy etmeden uyumluluk kontrolü
Preview API hiç pod açmadan modelin meta verisini Hugging Face'ten çeker
(config.json, safetensors.index.json) ve uyumlu GPU
tier'larını + tahmini ETA + saatlik fiyatı döner.
# 1) Modeli Parel'e tanit (deploy ETMEZ, on-kontrol)
curl -X POST https://api.parel.cloud/v1/deployments/preview \
-H "Authorization: Bearer $PAREL_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"huggingface_id": "ytu-ce-cosmos/Turkish-Llama-8b-DPO-v0.1"
}' {
"validator": "ok",
"model_size_gb": 16.1,
"architecture": "llama",
"weight_format": "safetensors",
"engine": "vllm",
"vllm_image": "vllm/vllm-openai:v0.10.1.1",
"compatible_tiers": ["rtx4090_24gb", "rtx_a6000_48gb", "a100_80gb"],
"estimated_eta_seconds": {"runpod": 380, "vastai": 540, "modal": 290},
"estimated_hourly_usd": {"rtx4090_24gb": 0.34, "a100_80gb": 1.85}
} tier_capacity_exceeded dönerse "Oversized model" bölümüne bak.
weight_format_unsupported dönerse model GGUF veya MLX
formatında, BYOM şu an sadece safetensors/bin/pytorch destekliyor.
2. Deploy + status poll
Deploy isteği SQS'e iş atar, Lambda worker provider'a pod oluşturur. API hemen
202 döner, sen poll edersin. idle_timeout_minutes ve
budget_limit_usd opsiyonel değil, deploy reddedilir.
# 2) Deploy — idle ve budget zorunlu
curl -X POST https://api.parel.cloud/v1/deployments \
-H "Authorization: Bearer $PAREL_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"huggingface_id": "ytu-ce-cosmos/Turkish-Llama-8b-DPO-v0.1",
"tier": "rtx4090_24gb",
"idle_timeout_minutes": 15,
"budget_limit_usd": 10.00,
"name": "turkish-llama-poc"
}'
# Yanit
# {"deployment_id": "d2k7x9", "status": "creating", "poll_url": "..."} # 3) Status poll (5-7 dakikada running olur)
parel deployments status d2k7x9
# Veya HTTP
curl https://api.parel.cloud/v1/deployments/d2k7x9 \
-H "Authorization: Bearer $PAREL_API_KEY"
# creating -> pulling_image -> downloading_weights -> starting -> running
7-8B fp16 model için ~5-7 dakika. ETA preview'da zaten geldi; gerçek süre buna
±%30 oturur. error dönerse provider havuzunda kapasite yok demek;
Parel 3 sağlayıcıyı sırayla denedi ve hepsi dolu. 5-15 dakika sonra tekrar
dene.
3. Türkçe smoke test
Status running olunca model OpenAI Chat Completions API'siyle
byom-DEPLOY_ID adıyla çağrılır. Türkçe sistem prompt + Türkçe
soru ile test:
# 4) Calisan endpoint smoke test (Turkce prompt)
curl https://api.parel.cloud/v1/chat/completions \
-H "Authorization: Bearer $PAREL_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "byom-d2k7x9",
"messages": [
{"role": "system", "content": "Sen Turkce konusan bir asistansin."},
{"role": "user", "content": "Istanbul un en eski semti hangisidir? Tek paragraf cevap."}
],
"max_tokens": 256,
"temperature": 0.3
}'
# 5) Test bittiginde MUTLAKA sil
parel deployments delete d2k7x9
Cevabı oku: gerçekten doğal Türkçe mi? Cosmos-Llama özellikle DPO ile
fine-tune'lu, kısa-orta cevaplarda çok güçlü. Uzun bağlam veya çok adımlı
reasoning'de zorlanırsa o iş için qwen3-max hosted seç.
Oversized model: 70B Türkçe model deploy
70B+ Türkçe model (örn. Cosmos-Llama-70B veya kendi 70B fine-tune'un)
preview'da tier_capacity_exceeded dönerse 3 strateji var:
# 70B Turkce model sigmazsa ne yapmali?
# preview tier_capacity_exceeded donerse 3 yol:
#
# 1) AWQ / GPTQ varyantini ara
# "ytu-ce-cosmos/Turkish-Llama-70b" (140GB)
# -> AWQ varyanti (35GB) -> rtx_a6000_48gb sigar
#
# 2) Multi-GPU tier (TP=2)
# rtx3090_2x_48gb -> 2x 24GB combined, $0.42/saat
#
# 3) A100 80GB single (en pahali ama en basit) Karar
BYOM ship
Türkçe çıktı kalitesi production için yeterli, latency POC bütçesinde.
Production'a geçerken idle_timeout=0 ve daha yüksek
budget_limit_usd. Endpoint açık kalır, fatura saatlik.
Instant'a dön
Türkçe kalite farkı küçük; qwen3-max veya
gpt-4o-mini hosted yetiyor. BYOM operasyon yükünü çekme;
Instant'a dön. BYOM'u sadece fine-tune'lu özel modelin için sakla.
Hosted vitrine dön
Açık model Türkçe'de iyi ama tool-use, uzun bağlam veya code edit
gerekiyor. claude-opus-4-7 veya gpt-5.4 daha
uygun. Açık model POC sonucu burada "no" demek de değerlidir.