SENTETİK VERİNİN HUKUKİ BOYUTLARI

sentetik-verinin-hukuki-boyutlari
Okuma Süresi: 6 Dakika

SENTETİK VERİNİN HUKUKİ BOYUTLARI: YAPAY ZEKÂ UYGULAMALARINDA KİŞİSEL VERİLERİN KORUNMASI İÇİN ALTERNATİF BİR YÖNTEM

Yapay zekâ ekosisteminin günümüzde ulaştığı ölçek, klasik veri temin ve işleme yöntemlerinin hukuken sürdürülebilirliğini tartışmalı hâle getirmiştir. Zira modellerin öğrenme iştahı, nicelik itibarıyla geniş ve nitelik itibarıyla zengin veri kümelerine ivedilikle erişimi zorunlu kılmakta; bu süreçte mevzuattan kaynaklanan izne, sürece ve bütçeye ilişkin kısıtlar, yenilikçi girişimler için hatırı sayılır bir engel doğurmaktadır. İşbu bağlamda, “sentetik veri” kavramı, doğal veri kümelerinin istatistiksel özelliklerini muhafaza ederken bireylerle doğrudan ilişkilendirilebilir unsurları bertaraf eden yapay örnekler üretme tekniği, hem ekonomik rasyonaliteyi hem de hukuki uyumu aynı potada eritebilen işlevsel bir seçenek olarak tezahür etmektedir.

Kişisel verilerin korunması özelinde bakıldığında ise sentetik verinin, 6698 sayılı Kişisel Verilerin Korunması Kanunu m. 3 hükmünde tanımlanan “anonim hâle getirilmiş veri” standardına ulaşabileceği hâller, veri sorumlularına önemli bir esneklik sağlamaktadır. Zira GDPR 26 nolu gerekçesinde vurgulanan kimliği belirli veya belirlenebilir gerçek kişiyle ilişkilendirilebilirlik kriteri, modellenen sentetik çıktılarda istatistiksel eşdeğerlik korunmakla birlikte yeniden tanımlama riskinin “makul surette” ortadan kalktığı ölçüde bertaraf edilmektedir. Bu yönüyle sentetik yaklaşım, KVKK m. 5/2 ve GDPR m. 6/1 bentlerine dayalı “işleme şartı” tartışmasını büyük ölçüde gereksiz kılmakta; ilaveten veri minimalizasyonu, amaçla bağlantılılık ve depolama sınırı gibi temel ilkelere riayet etme yükünü de hafifletmektedir. Dolayısıyla, hassas nitelikli verilerin (örneğin KVKK m. 6 kapsamındaki sağlık verileri) Ar‑Ge safhalarında güvenli şekilde kullanılmasına imkân tanıyarak hem inovatif gelişmeyi teşvik etmekte hem de idari para cezası ve tazminat sorumluluğu riskini asgariye indirmektedir.

SENTETİK VERİ NEDİR?

Sentetik veri adından da anlaşılacağı üzere doğal olmayan algoritmik yapılarla gerçek verilere benzer şekilde üretilmiş verilerdir. Sentetik veri kullanım durumuyla ilgili bir bağlama dayalı olarak yapay olarak üretilen ve amaçlanan bağlamda istatistiksel değerlendirme için uygun anlamı doğru bir şekilde yakalayan veri olarak tanımlanır. Sentetik veri üretimi , makine öğrenimi teknikleri kullanılarak gerçek veri setlerinde mevcut olan örüntülerin tanınması amacıyla bir modelin eğitilmesi süreci olarak tanımlanabilir. Eğitilen model, sonrasında yeni veya sentetik veriler üretmek için etkili bir şekilde kullanılabilir. Sentezlenen yeni örnekler gerçek verilerin özelliklerine sahiptir ancak bunlara geri eşleştirilemez.

Doğru bir şekilde gerçekleştirilmesi durumunda, sentetik veriler, orijinal veri setleriyle veya gerçek bireylerle doğrudan ilişkili olmamaları nedeniyle gizliliği koruma özelliğine sahiptir. Sentetik veri ile bir resim, video, metin vb. birçok farklı çeşitte veri üretimi yapılması mümkündür. Sentetik veriler daha çok kod oluşturmak veya ön hipotezler üretmek ve gerçek veri kümelerinde kullanılmadan önce test etmek amacıyla kullanılırlar.

Sentetik veri üretimi ya istatistiksel yöntemlerle ya da derin öğrenme ve üretken yapay zeka tekniklerinin kullanılmasıyla oluşturulurlar. Söz konusu veriler her ne kadar yapay olarak oluşturulmuş olsalar da kaynağı olan temel verilere ait istatistikleri, doğrulukları korumaktadır. Sentetik veriler; istatistiksel yöntemlerle, GAN’larla, transformatör modellerle, VAE’lerle ya da ajan tabanlı modelleme ile üretilebilmektedir. Araştırma şirketi Gartner’in öngörüsüne göre, işletmelerin %75’inin 2026 yılına kadar sentetik müşteri verileri oluşturmak için üretken AI kullanacaktır.

Sentetik veriler, temel veriden sentezlenme oranına göre tamamen sentetik, kısmen sentetik ya da hibrit olarak üretilebilirler. Tamamen sentetik veri, doğal veriyi mümkün olduğunca benzer şekilde taklit etmesine rağmen gerçek dünya ile ilgili hiçbir bilgi içermemektedir. Örneğin; J.P. Morgan şirketi yapay zeka modellerinin dolandırıcılık tespiti için tamamen sentetik verileri kullanarak modellemeyi test etmektedirler

Kısmen sentetik veriler ise gerçek dünya verileri kullanılarak üretilmektedir ancak orijinal veri setinde yer alan bazı kısımları yapay değerlerle değiştirir. Yapay değerle değiştirilen kısımlar genellikle hassas nitelikli kişisel verilerdir.  Kısmen sentetik veriler, örneğin gerçek verilerin sonuçlar açısından kritik önem taşıdığı ancak hastaların kişisel olarak tanımlanabilir bilgilerinin veya tıbbi kayıtlarının korunmasının da aynı derecede kritik olduğu klinik araştırmalarda özellikle değerli olabilir.

Hibrit sentetik veri dendiğinde ise gerçek veri kümeleri ile tamamen sentetik olarak üretilmiş veri kümelerinin birleştirilmesiyle oluşan veri türünü ifade etmektedir. Orijinal veri kümesinden alınan verileri alarak bu verilerin sentetik karşılıklarından gelen verilerle rastgele eşleştirir.

SENTETİK VERİLERİN AVANTAJLARI

Sentetik veri kullanımı, gerçek veri kullanımına göre kanaatimizce daha avantajlı bir konuma sahiptir. Zira birazdan detaylı olarak açıklayacağımız üzere gizlilik sorunlarını ortadan kaldıran, özelleştirilmiş, maliyeti düşük, etkin veriler sağlamaktadır. Çeşitli ampirik çalışmalar, sentetik veriler üzerinde eğitilen modellerin gerçek dünya verileri üzerinde eğitilen modellere çok benzer performans gösterdiğini ortaya koymaktadır.

Sentetik veri, büyük miktarda kaliteli, etiketli şekilde üretilebilmektedir. Bu muhtemelen yapay zeka modeli inşa eden şirketler açısında en öncelikli konumda yer alan avantaj olarak değerlendirilebilir. Zira bir modelin işlerliğinin, doğruluğunun ortaya konulması için büyük veri setleri olmadan çalışma yürütmek mümkün değildir. Daha önce de belirttiğimiz üzere büyük veri setleri elde etmek hem çok maliyetli hem de yasal izinler açısında uzun süreçler sebebiyle zaman israfı yaratmaktadır. Örneğin 2016 yılında, otonom araç lideri Waymo 3 milyon mil gerçek dünya sürüşü ve 2,5 milyar mil simüle edilmiş sürüş kaydetmiştir. Bu örnekte sentetik veriler, bir otonom aracın karşılaşabileceği yola bir paraşütlünün inişi gibi makine öğrenimi sistemlerini eğitmek için önemli olan “uç durumların” bolca örneğini sağlayabilir.

Ek olarak doğal veriler genellikle dağınık ve eksik şekildeyken; sentetik veriler daha eksiksiz, hatasız veri setleri meydana getirir. Bu veri setleri yazılım programlarıyla beraber otomatik olarak etiketlenebilme özelliğine sahip olacağı için bir insan tarafından etiketlenmesi zor olan örneğin nesnelerin sensörler arasındaki hareketinin izlenmesi gibi konularda rahatlıkla etiketleme işlemi gerçekleştirilebilir. Bu şekilde yapay zeka modelinin üretim sürecini hızlandıracağı da aşikardır.

Sentetik veriler ile makine öğrenmesi sırasında yapay zeka üreticisi şirketlerin karşılaştığı kişisel veri, veri gizliliği sorunları büyük oranda çözüme kavuşturulabilir. Lucini’ye göre, sentetik verilerin veya bunları oluşturmak için kullanılan algoritmanın altında yatan kişisel verileri ortaya çıkarmak için tersine mühendislik yapması “neredeyse imkansızdır”.

Bir diğer avantaj ise sentetik veri setlerinde önyargılı verilerin önüne geçilmesidir. Doğal verilerde, kişisel düşüncelerin de yer alabilmesi sebebiyle önyargılı verilerin mevcut olduğu bilinmektedir. Burada unutulmaması gereken sentetik verinin dayandığı doğal veri önyargılı ise ve algoritmik olarak bir sentez işlemi gerçekleştirilmemişse sentetik veri de önyargı taşıyabilecektir. Bu kapsamda sentetik veri setleri ile bu önyargılı veriler algoritmik yapılarla ayrıştırılarak rasyonel veriler elde edilerek, tarafsız bir öğrenme ya da test imkanı sunulabilir. 

Sentetik veriler aynı zamanda telif hakkı ihlallerine de bir çözümdür. Üretken yapay zeka platformları (Örn. ChatGPT) gibi telif hakkıyla korunan eserler üzerinde izinsiz eğitim veren makine öğrenimi sistemleri, potansiyel olarak çok büyük ihlal yükümlülüğü ile karşı karşıyadır. Üretken yapay zeka sistemleri sentetik olarak oluşturulmuş metinler, görüntüler, sesler, ve videolar üzerinde eğitilebilirse, teorik olarak telif hakkı sorunlarından kaçınabilirler. Ancak unutulmamalıdır ki tüm sentetik veriler, doğal verilere dayanmaktadır. Burada sentetik veri oluşturulurken kullanılacak verilerde telif hakkının mevcut olması durumda ise aslında telif hakkına ilişkin gerçekleştirilecek işlemlerin daha erken bir aşamaya çekildiğinden bahsetmek mümkün olacaktır. 

SENTETİK VERİ DEZAVANTAJLARI

Her yeni alan gibi sentetik verinin de avantajları olduğu gibi dezavantajları da bulunmaktadır. Kullanıma geçmeden önce bu avantaj ve dezavantajların birlikte değerlendirilmesi gerekmektedir.

Yapay zeka modelinin devamlı olarak eğitilmesi modelin çöküşüne sebep olabilir. Model çöküşü , bir yapay zeka modelinin, yapay olarak üretilen veriler üzerinde tekrarlı şekilde tekrar eğitilmesi sonucunda ortaya çıkan ve model performansında anlamlı bir düşüşe neden olan bir fenomendir. Bu durum, modelin eğitimi sırasında yapay veri miktarının artmasıyla birlikte, gerçek verilerin temsilinin azalması veya tükenmesine paralel olarak, modelin genelleme kabiliyetinin zayıflamasıyla kendini gösterir. Bu sorunun önüne geçebilmek adına, gerçek ve yapay veri setlerinin dengeli ve sağlıklı bir şekilde karıştırılması, modelin hem gerçek hem de yapay veriler üzerinde dengeli biçimde eğitilmesini sağlayarak, model performansının sürdürülebilirliğine katkıda bulunabilir.

Sentetik veri üretimi sürecinde, doğruluk ile gizlilik arasındaki denge, temel bir ikilemi temsil etmektedir. Bu süreçte, yüksek doğruluk seviyelerine ulaşmak amacıyla, modele daha kapsamlı ve anlamlı veriler sağlanması gerekebilir; bu da, genellikle daha fazla kişisel ve hassas verinin kullanılmasını ve saklanmasını gerektirir. Ancak, bu durum, veri gizliliği açısından önemli riskler oluşturabilir ve kişisel mahremiyetin ihlal edilmesine yol açabilir. Öte yandan, gizliliği ön planda tutmayı tercih etmek, modelin doğruluk ve genel performansında bir azalmaya neden olabilir zira, gizlilik koruma mekanizmaları kullanıldığında, verinin detay seviyesi ve içerdiği bilgiler sınırlanabilir.

Bu bağlamda, özellikle bir şirketin kullanım durumlarına yönelik yapay veri üretimi söz konusu olduğunda, doğruluk ile gizlilik arasında optimal bir denge kurmak hayati önem taşımaktadır. Bu denge, hem modelin güvenilirliği ve etkinliği sağlamak hem de kullanıcıların kişisel verilerinin korunmasını temin etmek açısından kritik bir rol oynar. Dolayısıyla, şirketlerin bu ikilemi dikkatli bir şekilde değerlendirmeleri, yasal düzenlemeler ve sivil haklar çerçevesinde, hem teknolojik hem de etik açıdan uygun bir strateji geliştirmeleri gerekmektedir.

Sentetik verilerin üretiminin akabinde söz konusu verilerin doğruluğunun teste edilmesi kapsamlı test prosedürleri sebebiyle ek bir aşamaya sebep duymaktadır. Bu adımlar, genellikle otomatikleştirilen kontrol mekanizmaları ve kapsamlı test prosedürlerini içermektedir ve, toplam iş akışına ek bir aşama olarak entegre edilir. Bu ek sürecin amacı, üretilen yapay veri kümelerinin içeriğinde herhangi bir hata, tutarsızlık veya yanlış bilgi bulunmadığından emin olmaktır. Zira, sentetik verilerde var olabilecek küçük tutarsızlıklar veya hatalar, ardından yapılacak analizlerin güvenilirliğini ve doğruluğunu olumsuz yönde etkileyebilir. Ayrıca, bu doğrulama işlemleri, model eğitim ve değerlendirme süreçlerinde oluşabilecek önyargıların veya yanlış sonuçların önüne geçilmesine yardımcı olur. Bu nedenle, sentetik veri kalitesinin sağlanması ve doğruluğunun teyit edilmesi, genel veri işleme çerçevesinde kritik bir adım olup, sonuçların geçerliliği ve güvenilirliği açısından vazgeçilmez bir gerekliliktir.

SONUÇ

Yapay zekâ uygulamalarında sentetik verilerin kullanımı, hukuki ve teknik sınırların kesişim noktasında, sürdürülebilir ve sorumlu veri yönetimi adına dikkate değer bir alternatif sunmaktadır. Özellikle kişisel verilerin korunmasına ilişkin risklerin bertaraf edilmesi, sentetik veri tekniklerinin sadece bir tercih değil, aynı zamanda bir gereklilik olarak ele alınmasını zorunlu kılmaktadır. 

Hukuki bağlamda, 6698 sayılı KVKK ve Avrupa’daki GDPR düzenlemeleri ile AI Act gibi yeni kuşak regülasyonlar birlikte değerlendirildiğinde, sentetik verilerin kişisel veri niteliğini haiz olmadıkları sürece daha serbest bir alan sunduğu açıktır. Bu durum, veri sorumlularına Ar‑Ge süreçlerinde geniş bir hareket alanı yaratırken, aynı zamanda etik gözetim, teknik test ve kalite denetimi gibi tamamlayıcı yükümlülükleri de beraberinde getirmektedir. Bu sebeple, sentetik veri kullanımı salt bir gizlilik aracı değil, aynı zamanda etik tasarımı ve hukuki öngörülebilirliği destekleyen stratejik bir yapı taşı olarak görülmelidir.

Zeynep Ebrar KAYA’nın Dünya’nın İlk Robot Avukatı isimli yazısını okumak için bağlantıya tıklayınız.

Hukuk ve Bilişim Dergisi’nin 13. Sayı’sındaki “Metaverse’te Kişisel Verilerin Korunması” isimli yazıyı bağlantıdan okuyabilirsiniz.

Yazar: Av. Zeynep Ebrar KAYA