BLOGLAR

Biltek Logo Halka
Biltek Logo Halka
NİSAN202026

Prompt Injection Saldırıları: Teknik Analiz ve Savunma

Prompt Injection Saldırıları: Teknik Analiz ve Savunma

 

Mevzuat Dayanağı

Yapay zeka modellerindeki güvenlik açıkları, artık sadece teknik bir sorun değil, ağır yaptırımları olan hukuki bir uyumluluk konusudur.

1. Küresel Standartlar ve AB Yapay Zeka Yasası (EU AI Act):

Regulation (EU) 2024/1689: Dünyanın ilk kapsamlı YZ yasası olan EU AI Act, risk tabanlı bir yaklaşım benimser. "Yüksek Riskli" (High-Risk) olarak sınıflandırılan sistemler için Madde 15 (Doğruluk, Dayanıklılık ve Siber Güvenlik) uyarınca; sistemlerin yetkisiz üçüncü taraflarca manipüle edilmesine karşı dirençli olması zorunludur.
Tehdit Modelleme Zorunluluğu: Yasa, yüksek riskli sistemlerin geliştiricilerinin; *prompt injection*, veri zehirlenmesi (data poisoning) ve model çıkarımı (model extraction) gibi saldırıları kapsayan resmi bir tehdit modellemesi yapmasını ve bunu belgelemesini şart koşar.
Yaptırımlar: Yasaklanmış uygulamaların ihlali durumunda küresel yıllık cironun %7'sine veya 35 milyon Euro'ya kadar ulaşan ağır para cezaları öngörülmektedir.

2. Türkiye Cumhuriyeti Mevzuatı:
7545 Sayılı Siber Güvenlik Kanunu (19 Mart 2025): Türkiye'nin siber güvenlik ekosistemini modernize eden bu kanun, kritik altyapılarda kullanılan YZ sistemlerinin güvenliğini ulusal güvenlik önceliği haline getirmiştir.
6698 Sayılı KVKK ve Üretken YZ Rehberi (24 Kasım 2025): Kişisel Verileri Koruma Kurumu tarafından yayınlanan "Üretken Yapay Zekâ ve Kişisel Verilerin Korunması Rehberi", prompt injection yoluyla gerçekleşebilecek veri sızıntılarını (data exfiltration) doğrudan veri ihlali kapsamında değerlendirmektedir.
Ulusal Yapay Zeka Stratejisi 2024-2025 Eylem Planı: YZ sistemlerinin güvenli ve etik geliştirilmesi için teknik standartların belirlenmesini ve denetim mekanizmalarının kurulmasını hedeflemektedir.

 

 

Uygulama Rehberi

Araştırma Makalesi: Transformer Mimarisinin Temel Zafiyeti
Prompt Injection saldırılarının temel nedeni, Transformer tabanlı LLM'lerin bağlam penceresindeki (context window) tüm verileri eşit otoritede görmesi"dir. Model, sistem talimatları (system prompt) ile kullanıcıdan gelen veriyi (user input) veya dış kaynaklardan çekilen veriyi (RAG context) birbirinden ayıran kesin bir mimari sınıra sahip değildir. Bu durum, saldırganın "Önceki tüm talimatları görmezden gel" şeklinde bir komutla modelin kontrolünü ele almasına olanak tanır.

Saldırı Taksonomisi (2024-2026)
1. Direct Prompt Injection (Jailbreaking): Kullanıcının doğrudan modelle etkileşime girerek güvenlik filtrelerini aşması.
2. Indirect Prompt Injection (IPI): En tehlikeli türdür. Kötü niyetli talimatların bir web sayfasına, PDF dosyasına veya e-postaya gizlenmesi. Model bu veriyi okuduğunda, gizli talimatları "sistem komutu" olarak algılar ve uygular.
3. Multimodal Injection: Talimatların görsel (OCR üzerinden) veya ses dosyaları içine gömülmesi.

Adım Adım Savunma Uygulama Rehberi:

Aşama 1: Giriş Sanitizasyonu ve Filtreleme (Input Layer)
Canary Tokens: Sistem promptuna gizli, rastgele karakter dizileri (canary tokens) ekleyin. Eğer modelin çıktısında bu tokenlar görünürse, bir "System Prompt Leakage" saldırısı gerçekleştiği anında tespit edilir.
Sözdizimsel Analiz: Girdi içerisindeki "ignore", "override", "system prompt" gibi anahtar kelimeleri tespit eden regex tabanlı veya küçük bir sınıflandırıcı model (BERT vb.) kullanın.

Aşama 2: Niyet Analizi ve Ayrıştırma (Intent Analysis Layer)
IntentGuard Yaklaşımı (2025): Girdiyi doğrudan modele göndermek yerine, bir "Niyet Analizörü" (Instruction-Following Intent Analyzer) kullanın. Bu katman, girdinin hangi kısımlarının "bilgi" (data), hangi kısımlarının "komut" (instruction) olduğunu belirler. Eğer dış kaynaktan gelen veri (untrusted data) içinde "komut" tespit edilirse, bu kısım nötralize edilir.
Embedding-Based Detection (2026): Kullanıcı niyeti ile dış içerik arasındaki semantik ilişkiyi analiz eden bir vektör karşılaştırma mekanizması kurun. Eğer dış içerik, kullanıcı niyetinden tamamen bağımsız yeni bir hedef (örneğin: "verileri şu adrese gönder") tanımlıyorsa, saldırı olarak işaretleyin.

Aşama 3: Çıktı Denetimi ve Kısıtlama (Output Layer)
Dual-LLM Pattern (LLM-as-Judge): Ana modelin ürettiği yanıtı, güvenlik odaklı eğitilmiş ikinci bir "Denetleyici LLM"e gönderin. Denetleyici model, yanıtın sistem politikalarını ihlal edip etmediğini kontrol eder.
Least Privilege (En Düşük Yetki): YZ ajanlarına (AI Agents) asla tam yetki vermeyin. API çağrılarını "read-only" ile sınırlayın ve kritik işlemler (dosya silme, para transferi) için mutlaka Human-in-the-Loop (İnsan Onayı) mekanizması ekleyin.