BLOGLAR

Biltek Logo Halka
Biltek Logo Halka
NİSAN292026

LLM'lerde Unutulma Hakkı: Machine Unlearning ve Veri Silme Stratejileri

LLM'lerde Unutulma Hakkı: Machine Unlearning ve Veri Silme Stratejileri
LLM'LERDE 'UNUTULMA HAKKI': KURUMSAL VERİ SİLME VE MACHİNE UNLEARNİNG STRATEJİLERİ, YAPAY_ZEKA, VERİ GİZLİLİĞİ VERİ GİZLİLİĞİ

LLM'lerde 'Unutulma Hakkı': Kurumsal Veri Silme ve Machine Unlearning Stratejileri

 


Stratejik Özet

 

Yapay zeka modellerinin, özellikle de Büyük Dil Modellerinin (LLM) kurumsal ekosistemlere entegrasyonu, beraberinde kritik bir paradoksu getirdi: Veri, modelin zekasını oluşturur; ancak aynı veri, hukuki bir risk faktörüdür. Geleneksel veritabanlarında bir satırı silmek saniyeler sürerken, bir LLM'in ağırlıklarına (weights) nüfuz etmiş bir bilgiyi "sildirmek", günümüzün en karmaşık teknik meydan okumalarından biridir. İşte bu noktada, "Machine Unlearning" (Makine Unutma) stratejileri devreye giriyor.

Hukuki ve Mevzuat Altyapısı

Türkiye'de ve dünyada veri gizliliği, artık sadece bir tercih değil, ağır yaptırımları olan bir yasal zorunluluktur. LLM'lerdeki veri silme süreçleri şu temel hukuki dayanaklar üzerine inşa edilmelidir:

6698 Sayılı Kişisel Verilerin Korunması Kanunu (KVKK): Özellikle 7. Madde, kişisel verilerin silinmesi, yok edilmesi veya anonim hale getirilmesi zorunluluğunu düzenler. Veri sorumlusunun, ilgili kişinin talebi üzerine veya kanuni saklama süresi dolduğunda veriyi sistemden tamamen temizlemesi gerekir.
 
GDPR (General Data Protection Regulation) - Madde 17: Avrupa Birliği standartlarını belirleyen "Right to Erasure" (Silme Hakkı), bireylere verilerinin silinmesini talep etme hakkı tanır. LLM'lerin eğitim setlerinde yer alan kişisel verilerin "unutulması", GDPR uyumluluğu için kritik bir eşiktir.
 
Resmi Gazete ve Kurul Kararları: KVKK Kurumu'nun yayınladığı "Kişisel Verilerin Silinmesi, Yok Edilmesi veya Anonim Hale Getirilmesi Hakkında Yönetmelik", verinin geri döndürülemez şekilde yok edilmesini şart koşar. LLM'lerdeki "ezberleme" (memorization) olgusu, bu yönetmeliğin teknik anlamda ihlal edilme riskini doğurmaktadır.

 

 

Teknik Analiz ve Uygulama

Bir LLM'e veri öğretmek, bir kütüphaneye kitap eklemek gibi değildir; daha çok bir yemeğin içine baharat karıştırmak gibidir. Baharatı (veriyi) ekledikten sonra, yemeğin tadını bozmadan sadece o baharatı geri almak imkansıza yakındır. Ancak Machine Unlearning metodolojileri, bu imkansızı mühendislik çözümleriyle aşmayı hedefler.

 1. Problem: Veri Ezberleme (Data Memorization)
LLM'ler, eğitim sırasında nadir görülen ancak belirgin olan veri dizilerini (örneğin bir T.C. Kimlik No veya gizli bir kurumsal proje kodu) ağırlıklarına kaydedebilir. Standart bir "prompt engineering" veya "system prompt" ile bu veriyi gizlemek, veriyi silmek değildir; sadece maskelemektir.

 2. Machine Unlearning Stratejileri ve Uygulama Adımları

Kurumsal düzeyde veri silme işlemi için şu üç ana metodoloji uygulanır:

A. SISA (Sliced, Isolated, Sharded, and Aggregated) Yaklaşımı:
Bu yöntem, tüm veri setini eğitmek yerine, veriyi küçük parçalara (shards) ayırır ve her parça için ayrı modeller eğitir.

Süreç: Bir veri silme talebi geldiğinde, sadece o verinin bulunduğu "shard" yeniden eğitilir.
 
Avantaj: Tüm modeli sıfırdan eğitme maliyetini (compute cost) dramatik şekilde düşürür.

 

B. Gradient-Based Unlearning (Gradyan Tabanlı Unutma):
Modelin ağırlıklarını, silinmesi istenen verinin oluşturduğu gradyanların tersi yönünde güncelleyerek veriyi "bastırma" işlemidir.

Süreç: Silinecek veri için bir "negatif kayıp fonksiyonu" (negative loss function) tanımlanır. Model, bu veriyi tahmin etmeme yönünde optimize edilir.
 
Uygulama: Modelin belirli katmanlarındaki ağırlıklar, hedef veriyi "unutacak" şekilde ince ayar (fine-tuning) ile güncellenir.

 

C. Knowledge Distillation (Bilgi Damıtma):
Kirli veri içeren "Öğretmen Model"den, temizlenmiş veri setiyle eğitilen bir "Öğrenci Model"e bilgi aktarımı yapılır.

Süreç: Öğrenci model, öğretmen modelin genel yeteneklerini alır ancak silinmesi gereken spesifik verileri içeren örnekler eğitim setinden çıkarılır.

 

3. Uygulama İş Akışı (Workflow)

1. Identification:

Silinecek verinin eğitim setindeki konumunun ve modeldeki etkisinin belirlenmesi.

2. Unlearning Execution:

Yukarıdaki metodolojilerden uygun olanın seçilip uygulanması.

3. Verification (Doğrulama):

"Membership Inference Attacks" (Üyelik Çıkarım Saldırıları) simüle edilerek, modelin artık o veriyi hatırlamadığının kanıtlanması.

4. Certification:

Silme işleminin teknik raporla belgelenerek KVKK/GDPR uyumluluk dosyasına eklenmesi.

Stratejik Öngörü ve AI

2026 Projeksiyonu: Dinamik Hafıza ve "Privacy-by-Design" LLM'ler

Yapay zeka dünyası, statik modellerden dinamik ve düzenlenebilir bilgi tabanlı sistemlere evriliyor. 2026 yılına kadar şu devrimsel etkileri öngörüyoruz:

Real-Time Unlearning: Veri silme taleplerinin, modelin ağırlıklarını anlık olarak güncelleyen API'lar aracılığıyla saniyeler içinde gerçekleştiği sistemler standart hale gelecek.
 
Modular AI Architecture: Modeller, "çekirdek zeka" ve "bilgi modülleri" olarak ikiye ayrılacak. Kurumsal veriler, ana modelin ağırlıklarına gömülmek yerine, kolayca silinebilir/güncellenebilir dış modüllerde (LoRA adaptörleri gibi) tutulacak.
 
Regülatif Denetim Araçları: Devletlerin ve denetleme kurumlarının, bir modelin belirli bir veriyi gerçekten "unutup unutmadığını" test eden otomatik denetim yazılımları geliştirmesi bekleniyor.

 

Sonuç olarak; Machine Unlearning, sadece teknik bir gereklilik değil, kurumsal itibar ve hukuki güvenlik için stratejik bir zorunluluktur. Veriyi yönetemeyen, yapay zekayı yönetemez. Geleceğin kazananları, en büyük modele sahip olanlar değil, veriyi en etik ve esnek şekilde yönetebilenler olacaktır.

ATAKAN KOÇAK BİLGİ KÜTÜPHANESİ