Bir yapay zekanın yalnızca başka bir yapay zeka tarafından üretilen verilerle eğitilmesi mümkün müdür? Kulağa saçma bir fikir gibi gelebilir. Ancak bu, uzun zamandır var olan bir fikirdir ve yeni, gerçek verilere ulaşmak giderek zorlaştıkça, ilgi görmeye başlamıştır.
Anthropic, amiral gemisi modellerinden biri olan Claude 3.5 Sonnet’i eğitmek için bazı sentetik veriler kullandı . Meta, yapay zeka tarafından üretilen verileri kullanarak Llama 3.1 modellerini ince ayarladı . Ve OpenAI’nin, yaklaşan Orion için sentetik eğitim verilerini “akıl yürütme” modeli olan o1’den aldığı söyleniyor .
Peki AI’nın ilk etapta verilere neden ihtiyacı var ve ne tür verilere ihtiyacı var? Ve bu veriler gerçekten sentetik verilerle değiştirilebilir mi?
Açıklamaların önemi
Yapay zeka sistemleri istatistiksel makinelerdir. Çok sayıda örnek üzerinde eğitildikten sonra, bu örneklerdeki kalıpları öğrenerek tahminlerde bulunurlar, örneğin bir e-postadaki “kime” ifadesi genellikle “ilgili olabilir” ifadesinden önce gelir.
Genellikle bu sistemlerin sindirdiği verilerin anlamını veya bölümlerini etiketleyen metin olan açıklamalar, bu örneklerde önemli bir parçadır. Bir modele şeyler, yerler ve fikirler arasında ayrım yapmayı “öğreterek” yol gösterici görevi görürler.
Bir fotoğraf sınıflandırma modeline “mutfak” kelimesiyle etiketlenmiş çok sayıda mutfak resmi gösterildiğini düşünün. Model eğitilirken “mutfak” ile mutfakların genel özellikleri (örneğin buzdolabı ve tezgah içermeleri) arasında ilişkiler kurmaya başlayacaktır. Eğitimden sonra, başlangıçtaki örneklerde yer almayan bir mutfağın fotoğrafı verildiğinde, model bunu bu şekilde tanımlayabilmelidir. (Elbette, mutfak resimleri “inek” olarak etiketlenmiş olsaydı, bunları inek olarak tanımlardı; bu da iyi bir açıklamanın önemini vurgular.)
Yapay zekaya olan iştah ve gelişimi için etiketli veri sağlama ihtiyacı, açıklama hizmetleri pazarını şişirdi. Dimension Market Research, bunun bugün 838,2 milyon dolar değerinde olduğunu ve önümüzdeki 10 yıl içinde 10,34 milyar dolar değerinde olacağını tahmin ediyor . Etiketleme işine kaç kişinin katıldığına dair kesin tahminler olmasa da, 2022 tarihli bir makale bu sayıyı “milyonlarca” olarak belirliyor.
Büyük ve küçük şirketler, AI eğitim setleri için etiketler oluşturmak üzere veri açıklama şirketlerinde çalışan işçilere güvenir. Bu işlerden bazıları, özellikle etiketleme özel bilgi (örneğin matematik uzmanlığı) gerektiriyorsa, makul bir ücret öder. Diğerleri ise yorucu olabilir. Gelişmekte olan ülkelerdeki açıklamacılara, herhangi bir fayda veya gelecekteki iş garantisi olmaksızın, ortalama olarak saat başına sadece birkaç dolar ödenir .
Bir kurutma veri kuyusu
Yani insan tarafından oluşturulan etiketlere alternatifler aramak için insani nedenler var. Örneğin, Uber, yapay zeka açıklamaları ve veri etiketlemesi üzerinde çalışmak üzere gig çalışanlarından oluşan filosunu genişletiyor . Ancak pratik olanlar da var.
İnsanlar ancak bu kadar hızlı etiketleyebilir. Açıklama yapanların da açıklamalarında ve dolayısıyla bunlar üzerinde eğitilen modellerde ortaya çıkabilen önyargıları vardır. Açıklama yapanlar hata yapar veya etiketleme talimatları yüzünden tökezler . Ve insanlara bir şeyler yaptırmak pahalıdır.
Veriler genel olarak pahalıdır. Shutterstock, AI satıcılarından arşivlerine erişmeleri için onlarca milyonlarca dolar talep ederken , Reddit, Google, OpenAI ve diğerlerine lisanslama verilerinden yüz milyonlarca dolar kazandı .
Son olarak, veriye ulaşmak da giderek zorlaşıyor.
Çoğu model, kamuya açık verilerin devasa koleksiyonları üzerinde eğitilir; sahipleri, çalınacağından veya bunun için kredi veya atıf alamayacaklarından korktukları için giderek daha fazla bu verileri gizlemeyi tercih ediyor. Dünyanın en iyi 1.000 web sitesinin %35’inden fazlası artık OpenAI’nin web kazıyıcısını engelliyor . Ve yakın zamanda yapılan bir araştırmaya göre , “yüksek kaliteli” kaynaklardan gelen verilerin yaklaşık %25’i, modelleri eğitmek için kullanılan büyük veri kümelerinden kısıtlanmış durumda .
Mevcut erişim engelleme eğilimi devam ederse, araştırma grubu Epoch AI, geliştiricilerin 2026 ile 2032 yılları arasında üretken AI modellerini eğitmek için kullanabilecekleri verilerinin tükeneceğini öngörüyor . Bu durum, telif hakkı davaları ve sakıncalı materyallerin açık veri kümelerine girmesi korkularıyla birleşince, AI satıcıları için bir hesaplaşmaya yol açtı.
Sentetik alternatifler
İlk bakışta, sentetik veriler tüm bu sorunların çözümü gibi görünüyor. Açıklamalara mı ihtiyacınız var? Oluşturun. Daha fazla örnek veri? Sorun değil. Sınır gökyüzü.
Ve bir bakıma bu doğrudur.
Washington Üniversitesi’nde ortaya çıkan teknolojilerin etik etkisini inceleyen bir doktora adayı olan Os Keyes, TechCrunch’a “Eğer ‘veri yeni petrolse’, sentetik veri kendini gerçek şeyin olumsuz dışsallıkları olmadan yaratılabilen biyoyakıt olarak sunuyor,” dedi. “Küçük bir başlangıç verisi seti alabilir ve ondan yeni girdileri simüle edip ekstrapole edebilirsiniz.”
Yapay zeka sektörü bu konsepti alıp uygulamaya koydu.
Bu ay, kurumsal odaklı bir üretken AI şirketi olan Writer, neredeyse tamamen sentetik verilerle eğitilen Palmyra X 004 adlı bir model tanıttı. Writer, bunun geliştirilmesinin sadece 700.000 dolara mal olduğunu iddia ediyor — karşılaştırılabilir büyüklükteki bir OpenAI modeli için 4,6 milyon dolarlık tahminlere kıyasla .
Microsoft’un Phi açık modelleri kısmen sentetik veriler kullanılarak eğitildi. Google’ın Gemma modelleri de öyleydi. Nvidia bu yaz sentetik eğitim verileri üretmek için tasarlanmış bir model ailesini tanıttı ve AI girişimi Hugging Face yakın zamanda sentetik metinden oluşan en büyük AI eğitim veri kümesi olduğunu iddia ettiği şeyi yayınladı .
Sentetik veri üretimi kendi başına bir iş haline geldi ve 2030 yılına kadar 2,34 milyar dolar değerinde olabilir. Gartner, bu yıl yapay zeka ve analitik projeleri için kullanılan verilerin %60’ının sentetik olarak üretileceğini öngörüyor .
Allen Yapay Zeka Enstitüsü’nde kıdemli bir araştırma bilimcisi olan Luca Soldaini, sentetik veri tekniklerinin kazıma (veya içerik lisanslama) yoluyla kolayca elde edilemeyen bir formatta eğitim verileri üretmek için kullanılabileceğini belirtti. Örneğin, video oluşturucusu Movie Gen’i eğitirken Meta, eğitim verilerindeki görüntüler için altyazılar oluşturmak üzere Llama 3’ü kullandı ve insanlar daha sonra aydınlatma açıklamaları gibi daha fazla ayrıntı eklemek için bunları iyileştirdi.
Aynı doğrultuda, OpenAI, ChatGPT için taslak benzeri Canvas özelliğini oluşturmak üzere sentetik verileri kullanarak GPT-4o’yu ince ayarladığını söylüyor . Ve Amazon , Alexa için konuşma tanıma modellerini eğitmek için kullandığı gerçek dünya verilerini desteklemek için sentetik veriler ürettiğini söyledi .
Soldaini, “Sentetik veri modelleri, belirli bir model davranışını elde etmek için hangi verilere ihtiyaç duyulduğuna dair insan sezgisini hızla genişletmek için kullanılabilir” dedi.
Sentetik riskler
Ancak sentetik veri her derde deva değildir. Tüm yapay zekalarla aynı “giren çöp, çıkan çöp” sorunundan muzdariptir. Modeller sentetik veri oluşturur ve bu modelleri eğitmek için kullanılan verilerde önyargılar ve sınırlamalar varsa, çıktıları da benzer şekilde lekelenecektir. Örneğin, temel verilerde yetersiz temsil edilen gruplar sentetik verilerde de yetersiz temsil edilecektir.
“Sorun şu ki, ancak bu kadarını yapabilirsiniz,” dedi Keyes. “Bir veri setinde yalnızca 30 Siyahi insan olduğunu varsayalım. Dışarıya doğru ekstrapolasyon yapmak yardımcı olabilir, ancak bu 30 kişinin hepsi orta sınıf veya hepsi açık tenliyse, ‘temsili’ verilerin hepsi böyle görünecektir.”
Bu noktada, Rice Üniversitesi ve Stanford’daki araştırmacılar tarafından 2023’te yapılan bir çalışma , eğitim sırasında sentetik verilere aşırı güvenmenin “kalitesi veya çeşitliliği giderek azalan” modeller yaratabileceğini buldu. Araştırmacılara göre, örnekleme yanlılığı (gerçek dünyanın zayıf temsili) bir modelin çeşitliliğinin birkaç nesil eğitimden sonra kötüleşmesine neden oluyor (ancak gerçek dünya verilerinden biraz karıştırmanın bunu hafifletmeye yardımcı olduğunu da buldular).
Keyes, OpenAI’nin o1’i gibi karmaşık modellerde ek riskler görüyor ve bunların sentetik verilerinde fark edilmesi daha zor halüsinasyonlar üretebileceğini düşünüyor. Bunlar da, özellikle halüsinasyonların kaynaklarının belirlenmesi kolay değilse, veriler üzerinde eğitilen modellerin doğruluğunu azaltabilir.
Keyes, “Karmaşık modeller halüsinasyon görür; karmaşık modeller tarafından üretilen veriler halüsinasyonlar içerir,” diye ekledi. “Ve o1 gibi bir modelle, geliştiriciler eserlerin neden ortaya çıktığını açıklayamazlar.”
Bileşik halüsinasyonlar anlamsız şeyler saçan modellere yol açabilir. Nature dergisinde yayınlanan bir çalışma , hata dolu verilerle eğitilen modellerin daha da fazla hata dolu veri ürettiğini ve bu geri bildirim döngüsünün gelecek nesil modelleri nasıl bozduğunu ortaya koyuyor. Araştırmacılar, modellerin nesiller boyunca daha ezoterik bilgilere dair kavrayışlarını yitirdiklerini, daha genel hale geldiklerini ve genellikle sorulan sorularla alakasız cevaplar ürettiklerini buldular.
Daha sonra yapılan bir araştırma , görüntü oluşturucular gibi diğer model türlerinin de bu tür çöküşlere karşı bağışık olmadığını gösteriyor:
Soldaini, “ham” sentetik verilere güvenilmemesi gerektiği konusunda hemfikir, en azından amaç unutkan sohbet robotlarını ve homojen görüntü oluşturucularını eğitmekten kaçınmaksa. “Güvenli bir şekilde” kullanmak, onu iyice incelemeyi, düzenlemeyi ve filtrelemeyi ve ideal olarak onu taze, gerçek verilerle eşleştirmeyi gerektirir — tıpkı diğer veri kümelerinde yapacağınız gibi.
Bunu yapmamak sonunda modelin çökmesine yol açabilir , burada bir model çıktılarında daha az “yaratıcı” ve daha önyargılı hale gelir ve sonunda işlevselliğini ciddi şekilde tehlikeye atar. Bu süreç ciddileşmeden önce tespit edilip durdurulabilirse de bir risktir.
Soldaini, “Araştırmacıların üretilen verileri incelemeleri, üretim sürecini yinelemeleri ve düşük kaliteli veri noktalarını kaldırmak için güvenlik önlemleri belirlemeleri gerekiyor” dedi. “Sentetik veri hatları kendi kendini iyileştiren bir makine değildir; çıktıları eğitim için kullanılmadan önce dikkatlice incelenmeli ve iyileştirilmelidir.”
OpenAI CEO’su Sam Altman bir zamanlar AI’nın bir gün kendini etkili bir şekilde eğitebilecek kadar iyi sentetik veri üreteceğini savunmuştu. Ancak — bunun mümkün olduğunu varsayarsak — teknoloji henüz mevcut değil. Hiçbir büyük AI laboratuvarı yalnızca sentetik verilerle eğitilmiş bir model yayınlamadı.
En azından öngörülebilir gelecek için, bir modelin eğitiminin ters gitmediğinden emin olmak için bir yerlerde insanlara ihtiyacımız olacak gibi görünüyor .
TechCrunch’ın yapay zeka odaklı bir bülteni var! Her Çarşamba gelen kutunuza ulaşması için buraya kaydolun .
Güncelleme: Bu hikaye ilk olarak 23 Ekim’de yayınlanmış olup, 24 Aralık’ta daha fazla bilgiyle güncellenmiştir.