Sentetik Verinin Potansiyeli ve Tehditleri

REKLAM ALANI

24 Aralık 2024 20:02 | Son Güncellenme: 25 Aralık 2024 02:35

Bir yapay zekanın yalnızca başka bir yapay zeka tarafından üretilen verilerle eğitilmesi mümkün müdür? Kulağa saçma bir fikir gibi gelebilir. Ancak bu, uzun zamandır var olan bir fikirdir ve yeni, gerçek verilere ulaşmak giderek zorlaştıkça, ilgi görmeye başlamıştır.

Anthropic, amiral gemisi modellerinden biri olan Claude 3.5 Sonnet’i eğitmek için bazı sentetik veriler kullandı . Meta, yapay zeka tarafından üretilen verileri kullanarak Llama 3.1 modellerini ince ayarladı . Ve OpenAI’nin, yaklaşan Orion için sentetik eğitim verilerini “akıl yürütme” modeli olan o1’den aldığı söyleniyor .

ARA REKLAM ALANI

Peki AI’nın ilk etapta verilere neden ihtiyacı var ve ne tür verilere ihtiyacı var? Ve bu veriler gerçekten sentetik verilerle değiştirilebilir mi?

Açıklamaların önemi

Yapay zeka sistemleri istatistiksel makinelerdir. Çok sayıda örnek üzerinde eğitildikten sonra, bu örneklerdeki kalıpları öğrenerek tahminlerde bulunurlar, örneğin bir e-postadaki “kime” ifadesi genellikle “ilgili olabilir” ifadesinden önce gelir.

Genellikle bu sistemlerin sindirdiği verilerin anlamını veya bölümlerini etiketleyen metin olan açıklamalar, bu örneklerde önemli bir parçadır. Bir modele şeyler, yerler ve fikirler arasında ayrım yapmayı “öğreterek” yol gösterici görevi görürler.

Bir fotoğraf sınıflandırma modeline “mutfak” kelimesiyle etiketlenmiş çok sayıda mutfak resmi gösterildiğini düşünün. Model eğitilirken “mutfak” ile mutfakların genel özellikleri (örneğin buzdolabı ve tezgah içermeleri) arasında ilişkiler kurmaya başlayacaktır. Eğitimden sonra, başlangıçtaki örneklerde yer almayan bir mutfağın fotoğrafı verildiğinde, model bunu bu şekilde tanımlayabilmelidir. (Elbette, mutfak resimleri “inek” olarak etiketlenmiş olsaydı, bunları inek olarak tanımlardı; bu da iyi bir açıklamanın önemini vurgular.)

Yapay zekaya olan iştah ve gelişimi için etiketli veri sağlama ihtiyacı, açıklama hizmetleri pazarını şişirdi. Dimension Market Research, bunun bugün 838,2 milyon dolar değerinde olduğunu ve önümüzdeki 10 yıl içinde 10,34 milyar dolar değerinde olacağını tahmin ediyor . Etiketleme işine kaç kişinin katıldığına dair kesin tahminler olmasa da, 2022 tarihli bir makale bu sayıyı “milyonlarca” olarak belirliyor.

Büyük ve küçük şirketler, AI eğitim setleri için etiketler oluşturmak üzere veri açıklama şirketlerinde çalışan işçilere güvenir. Bu işlerden bazıları, özellikle etiketleme özel bilgi (örneğin matematik uzmanlığı) gerektiriyorsa, makul bir ücret öder. Diğerleri ise yorucu olabilir. Gelişmekte olan ülkelerdeki açıklamacılara, herhangi bir fayda veya gelecekteki iş garantisi olmaksızın, ortalama olarak saat başına sadece birkaç dolar ödenir .

Bir kurutma veri kuyusu

Yani insan tarafından oluşturulan etiketlere alternatifler aramak için insani nedenler var. Örneğin, Uber, yapay zeka açıklamaları ve veri etiketlemesi üzerinde çalışmak üzere gig çalışanlarından oluşan filosunu genişletiyor . Ancak pratik olanlar da var.

İnsanlar ancak bu kadar hızlı etiketleyebilir. Açıklama yapanların da açıklamalarında ve dolayısıyla bunlar üzerinde eğitilen modellerde ortaya çıkabilen önyargıları vardır. Açıklama yapanlar hata yapar veya etiketleme talimatları yüzünden tökezler . Ve insanlara bir şeyler yaptırmak pahalıdır.

Veriler genel olarak pahalıdır. Shutterstock, AI satıcılarından arşivlerine erişmeleri için onlarca milyonlarca dolar talep ederken , Reddit, Google, OpenAI ve diğerlerine lisanslama verilerinden yüz milyonlarca dolar kazandı .

Son olarak, veriye ulaşmak da giderek zorlaşıyor.

Çoğu model, kamuya açık verilerin devasa koleksiyonları üzerinde eğitilir; sahipleri, çalınacağından veya bunun için kredi veya atıf alamayacaklarından korktukları için giderek daha fazla bu verileri gizlemeyi tercih ediyor. Dünyanın en iyi 1.000 web sitesinin %35’inden fazlası artık OpenAI’nin web kazıyıcısını engelliyor . Ve yakın zamanda yapılan bir araştırmaya göre , “yüksek kaliteli” kaynaklardan gelen verilerin yaklaşık %25’i, modelleri eğitmek için kullanılan büyük veri kümelerinden kısıtlanmış durumda .

Mevcut erişim engelleme eğilimi devam ederse, araştırma grubu Epoch AI, geliştiricilerin 2026 ile 2032 yılları arasında üretken AI modellerini eğitmek için kullanabilecekleri verilerinin tükeneceğini öngörüyor . Bu durum, telif hakkı davaları ve sakıncalı materyallerin açık veri kümelerine girmesi korkularıyla birleşince, AI satıcıları için bir hesaplaşmaya yol açtı.

Sentetik alternatifler

İlk bakışta, sentetik veriler tüm bu sorunların çözümü gibi görünüyor. Açıklamalara mı ihtiyacınız var? Oluşturun. Daha fazla örnek veri? Sorun değil. Sınır gökyüzü.

Ve bir bakıma bu doğrudur.

Washington Üniversitesi’nde ortaya çıkan teknolojilerin etik etkisini inceleyen bir doktora adayı olan Os Keyes, TechCrunch’a “Eğer ‘veri yeni petrolse’, sentetik veri kendini gerçek şeyin olumsuz dışsallıkları olmadan yaratılabilen biyoyakıt olarak sunuyor,” dedi. “Küçük bir başlangıç verisi seti alabilir ve ondan yeni girdileri simüle edip ekstrapole edebilirsiniz.”

Yapay zeka sektörü bu konsepti alıp uygulamaya koydu.

Bu ay, kurumsal odaklı bir üretken AI şirketi olan Writer, neredeyse tamamen sentetik verilerle eğitilen Palmyra X 004 adlı bir model tanıttı. Writer, bunun geliştirilmesinin sadece 700.000 dolara mal olduğunu iddia ediyor — karşılaştırılabilir büyüklükteki bir OpenAI modeli için 4,6 milyon dolarlık tahminlere kıyasla .

Microsoft’un Phi açık modelleri kısmen sentetik veriler kullanılarak eğitildi. Google’ın Gemma modelleri de öyleydi. Nvidia bu yaz sentetik eğitim verileri üretmek için tasarlanmış bir model ailesini tanıttı ve AI girişimi Hugging Face yakın zamanda sentetik metinden oluşan en büyük AI eğitim veri kümesi olduğunu iddia ettiği şeyi yayınladı .

Sentetik veri üretimi kendi başına bir iş haline geldi ve 2030 yılına kadar 2,34 milyar dolar değerinde olabilir. Gartner, bu yıl yapay zeka ve analitik projeleri için kullanılan verilerin %60’ının sentetik olarak üretileceğini öngörüyor .

Allen Yapay Zeka Enstitüsü’nde kıdemli bir araştırma bilimcisi olan Luca Soldaini, sentetik veri tekniklerinin kazıma (veya içerik lisanslama) yoluyla kolayca elde edilemeyen bir formatta eğitim verileri üretmek için kullanılabileceğini belirtti. Örneğin, video oluşturucusu Movie Gen’i eğitirken Meta, eğitim verilerindeki görüntüler için altyazılar oluşturmak üzere Llama 3’ü kullandı ve insanlar daha sonra aydınlatma açıklamaları gibi daha fazla ayrıntı eklemek için bunları iyileştirdi.

Aynı doğrultuda, OpenAI, ChatGPT için taslak benzeri Canvas özelliğini oluşturmak üzere sentetik verileri kullanarak GPT-4o’yu ince ayarladığını söylüyor . Ve Amazon , Alexa için konuşma tanıma modellerini eğitmek için kullandığı gerçek dünya verilerini desteklemek için sentetik veriler ürettiğini söyledi .

Soldaini, “Sentetik veri modelleri, belirli bir model davranışını elde etmek için hangi verilere ihtiyaç duyulduğuna dair insan sezgisini hızla genişletmek için kullanılabilir” dedi.

Sentetik riskler

Ancak sentetik veri her derde deva değildir. Tüm yapay zekalarla aynı “giren çöp, çıkan çöp” sorunundan muzdariptir. Modeller sentetik veri oluşturur ve bu modelleri eğitmek için kullanılan verilerde önyargılar ve sınırlamalar varsa, çıktıları da benzer şekilde lekelenecektir. Örneğin, temel verilerde yetersiz temsil edilen gruplar sentetik verilerde de yetersiz temsil edilecektir.

“Sorun şu ki, ancak bu kadarını yapabilirsiniz,” dedi Keyes. “Bir veri setinde yalnızca 30 Siyahi insan olduğunu varsayalım. Dışarıya doğru ekstrapolasyon yapmak yardımcı olabilir, ancak bu 30 kişinin hepsi orta sınıf veya hepsi açık tenliyse, ‘temsili’ verilerin hepsi böyle görünecektir.”

Bu noktada, Rice Üniversitesi ve Stanford’daki araştırmacılar tarafından 2023’te yapılan bir çalışma , eğitim sırasında sentetik verilere aşırı güvenmenin “kalitesi veya çeşitliliği giderek azalan” modeller yaratabileceğini buldu. Araştırmacılara göre, örnekleme yanlılığı (gerçek dünyanın zayıf temsili) bir modelin çeşitliliğinin birkaç nesil eğitimden sonra kötüleşmesine neden oluyor (ancak gerçek dünya verilerinden biraz karıştırmanın bunu hafifletmeye yardımcı olduğunu da buldular).

Keyes, OpenAI’nin o1’i gibi karmaşık modellerde ek riskler görüyor ve bunların sentetik verilerinde fark edilmesi daha zor halüsinasyonlar üretebileceğini düşünüyor. Bunlar da, özellikle halüsinasyonların kaynaklarının belirlenmesi kolay değilse, veriler üzerinde eğitilen modellerin doğruluğunu azaltabilir.

Keyes, “Karmaşık modeller halüsinasyon görür; karmaşık modeller tarafından üretilen veriler halüsinasyonlar içerir,” diye ekledi. “Ve o1 gibi bir modelle, geliştiriciler eserlerin neden ortaya çıktığını açıklayamazlar.”

Bileşik halüsinasyonlar anlamsız şeyler saçan modellere yol açabilir. Nature dergisinde yayınlanan bir çalışma , hata dolu verilerle eğitilen modellerin daha da fazla hata dolu veri ürettiğini ve bu geri bildirim döngüsünün gelecek nesil modelleri nasıl bozduğunu ortaya koyuyor. Araştırmacılar, modellerin nesiller boyunca daha ezoterik bilgilere dair kavrayışlarını yitirdiklerini, daha genel hale geldiklerini ve genellikle sorulan sorularla alakasız cevaplar ürettiklerini buldular.

**Resim Kredisi:** Ilia Shumailov ve diğerleri.

Daha sonra yapılan bir araştırma , görüntü oluşturucular gibi diğer model türlerinin de bu tür çöküşlere karşı bağışık olmadığını gösteriyor:

Soldaini, “ham” sentetik verilere güvenilmemesi gerektiği konusunda hemfikir, en azından amaç unutkan sohbet robotlarını ve homojen görüntü oluşturucularını eğitmekten kaçınmaksa. “Güvenli bir şekilde” kullanmak, onu iyice incelemeyi, düzenlemeyi ve filtrelemeyi ve ideal olarak onu taze, gerçek verilerle eşleştirmeyi gerektirir — tıpkı diğer veri kümelerinde yapacağınız gibi.

Bunu yapmamak sonunda modelin çökmesine yol açabilir , burada bir model çıktılarında daha az “yaratıcı” ve daha önyargılı hale gelir ve sonunda işlevselliğini ciddi şekilde tehlikeye atar. Bu süreç ciddileşmeden önce tespit edilip durdurulabilirse de bir risktir.

Soldaini, “Araştırmacıların üretilen verileri incelemeleri, üretim sürecini yinelemeleri ve düşük kaliteli veri noktalarını kaldırmak için güvenlik önlemleri belirlemeleri gerekiyor” dedi. “Sentetik veri hatları kendi kendini iyileştiren bir makine değildir; çıktıları eğitim için kullanılmadan önce dikkatlice incelenmeli ve iyileştirilmelidir.”

OpenAI CEO’su Sam Altman bir zamanlar AI’nın bir gün kendini etkili bir şekilde eğitebilecek kadar iyi sentetik veri üreteceğini savunmuştu. Ancak — bunun mümkün olduğunu varsayarsak — teknoloji henüz mevcut değil. Hiçbir büyük AI laboratuvarı yalnızca sentetik verilerle eğitilmiş bir model yayınlamadı.

En azından öngörülebilir gelecek için, bir modelin eğitiminin ters gitmediğinden emin olmak için bir yerlerde insanlara ihtiyacımız olacak gibi görünüyor .

TechCrunch’ın yapay zeka odaklı bir bülteni var! Her Çarşamba gelen kutunuza ulaşması için buraya kaydolun .

Güncelleme: Bu hikaye ilk olarak 23 Ekim’de yayınlanmış olup, 24 Aralık’ta daha fazla bilgiyle güncellenmiştir.

İlgili

EN SON TV sitesinden daha fazla şey keşfedin

Subscribe to get the latest posts sent to your email.

REKLAM ALANI

admin

YORUMLAR

Lütfen görüşlerinizi bize yazınCevabı iptal et

Henüz yorum yapılmamış. İlk yorumu yukarıdaki form aracılığıyla siz yapabilirsiniz.

GÜNCEL KONULAR

Eskişehir’de, Eski Karısını Bıçaklayan Saldırgan Yakalandı”

Gündem, Manşet

25 Aralık 2024 00:23

Eskişehir’de, Eski Karısını Bıçaklayan Saldırgan Yakalandı”

Aksaray’da eski karısını sokak ortasında 14 yerinden bıçaklayarak ağır yaralayan zanlı, cinayet büro ekiplerinin operasyonuyla yakalandı. EN SON TV sitesinden daha fazla şey keşfedin Subscribe to get the latest posts...

Meteoroloji’den Yeni Hava Durumu Haritası: 17 İle Uyarı

Gündem, Manşet

25 Aralık 2024 00:21

Meteoroloji’den Yeni Hava Durumu Haritası: 17 İle Uyarı

Meteoroloji Genel Müdürlüğü (MGM), yeni hava durumu raporunu yayımladı. Rapora göre, 3 il için turuncu, 14 il için sarı alarm verildi. İstanbul, Ankara ve İzmir gibi büyük şehirlerde beklenen hava...

SON DAKİKA’! 2025 Asgari, Ücreti Açıklandı!

Ekonomi, Gündem, Manşet

25 Aralık 2024 00:12

SON DAKİKA’! 2025 Asgari, Ücreti Açıklandı!

Son dakika haberine göre Çalışma ve Sosyal Güvenlik Bakanı Işıkhan, 1 Ocak 2025 tarihinden geçerli olacak asgari ücretin yüzde 30 zam yapılarak net 22 bin 104 lira olarak belirlendiğini duyurdu....

12 GB, RAM’li Poco X7 Pro Özellikleri Sızdı”

Gündem, Teknoloji

24 Aralık 2024 23:59

12 GB, RAM’li Poco X7 Pro Özellikleri Sızdı”

Poco X7 ve X7 Pro modellerinin detayları, bugün önemli bir sızıntıyla karşımıza çıktı. Xiaomi’nin alt markası Poco, iki yeni modeliyle 2024’te piyasaya sürdüğü Poco X6 ve X6 Pro’nun yerini alacak....

Apple, 2025’te MicroLED Ekran Teknolojisiyle Geliyor

Gündem, Manşet, Teknoloji

24 Aralık 2024 23:21

Apple, 2025’te MicroLED Ekran Teknolojisiyle Geliyor

Apple, LCD’den OLED’e geçişini tamamlamaya yaklaşırken daha da ileri bir teknoloji olan microLED’e yönelmeyi planladığı ortaya çıktı. Foxconn, 2025 yılının sonlarına doğru microLED ekranlarının seri üretimine başlayacağını duyurdu. Foxconn, bu...

OpenAI, Kendi İnsansı Robotunu İnşa Etmek İçin İlk Adımları Atıyor

Gündem, Manşet, Teknoloji

24 Aralık 2024 23:21

OpenAI, Kendi İnsansı Robotunu İnşa Etmek İçin İlk Adımları Atıyor

OpenAI’ın, kendi insansı robotunu inşa etmeyi düşündüğü ortaya çıktı. OpenAI ise bu alanda finansal destek sağlayarak uzun süredir faaliyet gösteriyor. Şu ana kadar Figure ve 1X gibi firmalara ve ayrıca...

Xiaomi 15 Ultra’nın Çıkış Tarihi Belli Oluyor: 2025’in En Etkileyici Telefonu

Gündem, Manşet, Teknoloji

24 Aralık 2024 23:16

Xiaomi 15 Ultra’nın Çıkış Tarihi Belli Oluyor: 2025’in En Etkileyici Telefonu

Xiaomi’nin merakla beklenen yeni amiral gemisi Xiaomi 15 Ultra’nın çıkış tarihiyle ilgili yeni detaylar ortaya çıktı. Daha önce bir Xiaomi yöneticisi yeni telefonun Şubat ayında Çin’de piyasaya sürülebileceğini belirtmişti. Bugün...

Google Drive, Videoları Anında İzleme Özelliğini Duyurdu

Gündem, Manşet, Teknoloji

24 Aralık 2024 23:02

Google Drive, Videoları Anında İzleme Özelliğini Duyurdu

Google Drive, artık yüklediğiniz videoları anında oynatma imkanı sunuyor. Yeni özellik ile videoların yükleme işlemi tamamlanır tamamlanmaz izlenebilmesini sağlayacak. Bekleme süresini ortadan kaldıran yeni özellik kullanıma sunuldu. Google, son blog...

GÜNCEL KONULAR

1 Eskişehir’de, Eski Karısını Bıçaklayan Saldırgan Yakalandı”

2 Meteoroloji’den Yeni Hava Durumu Haritası: 17 İle Uyarı

3 SON DAKİKA’! 2025 Asgari, Ücreti Açıklandı!

4 12 GB, RAM’li Poco X7 Pro Özellikleri Sızdı”

5 Apple, 2025’te MicroLED Ekran Teknolojisiyle Geliyor

6 OpenAI, Kendi İnsansı Robotunu İnşa Etmek İçin İlk Adımları Atıyor

7 Xiaomi 15 Ultra’nın Çıkış Tarihi Belli Oluyor: 2025’in En Etkileyici Telefonu

8 Google Drive, Videoları Anında İzleme Özelliğini Duyurdu

9 RTX 50 Serisi Alışveriş Sitelerinde: Fiyatlar Sızdı

10 Çerçevesiz İlk iPhone Modeli Nihayet Geliyor

Sentetik Verinin Potansiyeli ve Tehditleri

Açıklamaların önemi

Bir kurutma veri kuyusu

Sentetik alternatifler

Sentetik riskler

Bunu paylaş:

Bunu beğen:

İlgili

EN SON TV sitesinden daha fazla şey keşfedin

Lütfen görüşlerinizi bize yazınCevabı iptal et

EN SON TV sitesinden daha fazla şey keşfedin