Sakana AI araştırma laboratuvarı, doğadan ilham alan algoritmalar üzerine çalışan bir yapay zekâ şirketi olarak, yeni bir kendini uyarlayan dil modeli olan Transformer-Squared’i tanıttı. Bu model, herhangi bir ek eğitime gerek kalmadan, yeni görevleri öğrenebiliyor. Matematiksel yeniliklerle kullanıcı isteklerine göre ağırlıklarını dinamik olarak ayarlayan model, inference (çıkarım) sırasında yüksek performans sunuyor.

Transformer-Squared, büyük dil modellerinin (LLM) farklı alanlardaki günlük uygulamalarda daha kullanışlı hale gelmesini sağlayan bir dizi teknolojinin son halkası olarak öne çıkıyor.

DİNAMİK AĞIRLIK AYARLAMA NEDİR?

Klasik yöntemlerde, dil modellerinin yeni bir göreve uyum sağlaması için kapsamlı bir fine-tuning (ince ayar) sürecine ihtiyaç duyuluyor. Bu süreç hem pahalı hem de zaman alıcı. Alternatif bir yöntem olan LoRA (Low-Rank Adaptation) ise yalnızca modelin hedef görevle ilgili parametrelerini değiştirerek maliyeti azaltıyor. Ancak LoRA’nın parametreleri, eğitimin ardından sabit kalıyor.

Transformer-Squared ise iki aşamalı bir dinamik ayarlama sistemi kullanarak bu sorunlara çözüm getiriyor. İlk olarak gelen isteği analiz eden model, görevin gerekliliklerini belirliyor. Ardından, z-vektör adı verilen özelleştirilmiş parametre ayarlarını devreye sokarak o göreve özel yanıt üretiyor.

TRANSFORMER-SQUARED NASIL ÇALIŞIYOR?

Modelin temel yeniliği, ağırlık matrislerini Singular Value Decomposition (SVD) yöntemiyle parçalayıp her bir beceriye ait bileşenleri tanımlamasıdır. Eğitim sırasında, bu bileşenlerden öğrenilen z-vektörler, belirli görevlerin optimize edilmesi için düğme işlevi görüyor.

Inference sırasında ise model, gelen isteği analiz ederek gereken becerileri belirliyor ve z-vektörleri güncelleyerek çıktıyı kişiselleştiriyor. Araştırmacılar, bu yöntemi Llama-3 ve Mistral modellerinde test ederek Transformer-Squared’in, LoRA’ya kıyasla daha az parametreyle daha iyi sonuçlar verdiğini gözlemledi.

YENİ OLASILIKLAR

Transformer-Squared’in ilginç bir başka özelliği, bir modelde öğrenilen z-vektörlerin başka modellere aktarılabilmesidir. Örneğin, Llama’da oluşturulan z-vektörler, benzer mimariye sahip Mistral modellerinde kullanılabiliyor. Bu, farklı sistemler arasında bilgi paylaşımı için yeni bir kapı aralıyor.

Sakana AI, Transformer-Squared bileşenlerinin eğitim kodlarını GitHub üzerinden paylaştı ve bu yeniliğin sektörel dönüşümü hızlandıracağını belirtti.

İNFERENCE TEKNİKLERİNİN GELECEĞİ

Sakana AI’nin yeniliği, inference sırasında özelleştirme tekniklerine odaklanan bir trendin parçası. Google’ın Titans mimarisi gibi projeler de, yapay zekâ modellerinin çıkarım sürecinde öğrenme ve hafıza oluşturma kapasitesini artırmayı hedefliyor.

Transformer-Squared, yalnızca AI araştırmaları için değil, işletmelerin veri odaklı çözümlerinde de büyük bir potansiyel taşıyor. Bu tür yenilikler, yapay zekâyı daha esnek, kişiselleştirilmiş ve etkin hale getirerek çoklu alanlarda çığır açmaya devam edecek.

maxresdefault.jpg