Tamamen lisanslı ve kamuya açık metinlerden oluşan 8 terabaytlık 'The Common Pile v0.1' adlı veri seti, yapay zeka eğitiminde yeni bir dönemin habercisi olabilir.
EleutherAI, yapay zeka modellerini eğitmek için kullanılan, lisanslı ve kamuya açık metinlerden oluşan en büyük koleksiyonlardan birini yayınladığını duyurdu. "The Common Pile v0.1" adı verilen ve 8 terabayt büyüklüğündeki bu veri seti, yapay zeka sektörünü sarsan telif hakkı davalarına bir alternatif sunmayı amaçlıyor.
OpenAI gibi büyük yapay zeka şirketleri, modellerini eğitmek için internetten telif hakkıyla korunan materyalleri izinsiz kullandıkları gerekçesiyle davalarla karşı karşıya. EleutherAI'nin yönetici direktörü Stella Biderman, bu davaların şirketlerin şeffaflığını "ciddi şekilde azalttığını" ve bunun da yapay zeka araştırma alanına zarar verdiğini belirtti.
Hugging Face ve GitHub üzerinden indirilebilen "The Common Pile v0.1", hukuk uzmanlarına danışılarak oluşturuldu ve Kongre Kütüphanesi ile İnternet Arşivi tarafından dijitalleştirilen 300.000 kamuya açık kitaptan elde edilen kaynakları içeriyor.
EleutherAI, bu yasal veri setinin etkinliğini kanıtlamak için Comma v0.1-1T ve Comma v0.1-2T adında iki yeni yapay zeka modeli geliştirdi. Kuruluşa göre bu modeller, telifli verilerle eğitilen Meta'nın ilk Llama modeli gibi popüler modellerle kodlama, görüntü anlama ve matematik gibi alanlarda rekabet edebilecek düzeyde performans sergiliyor.
Biderman, "Genel olarak, lisanssız metinlerin performansı artırdığı yönündeki yaygın kanının haksız olduğunu düşünüyoruz," diyerek, yasal kaynaklarla da yüksek kaliteli modeller geliştirilebileceğinin altını çizdi.