Apple LLM Modeli, Microsoft Phi-3 Performansı ile Henüz Boy Ölçüşemiyor

**Matsuro** · 23 Temmuz 2024, 15:42

Microsoft tarafından Nisan ayında Phi-3 adlı küçük dil modelleri (SLM) ailesi duyurulmuştu. Bu modeller, temel kıyaslamalarda aynı ve daha büyük boyutlardaki modellerden önemli ölçüde daha iyi performans gösterdi. Hatta Phi-3-small ve Phi-3-medium, GPT-3.5 Turbo gibi daha büyük modellerden daha iyi performans gösterebiliyor.

Yakın zamanda Apple’ın DataComp for Language Models (DCLM) ekibi, Apple Örnek Kod Lisansı kapsamında DCLM-7B adlı yeni bir açık kaynaklı model yayınladı. Bu yeni DCLM-7B, DCLM-Baseline veri kümesi üzerinde eğitilmiş 7 milyar parametreli bir dil modeli. Modeli matematik ve kodlama da dahil olmak üzere çeşitli ortak görevler için genel olarak kullanışlı hale getirmek amacıyla Apple, 3.8T DCLM-Baseline’ı StarCoder ve ProofPile2 verileriyle birleştirerek 4.1T token veri kümesine ulaştı.

Apple bu modeli, dil modellerinin performansını artırmaya yönelik sistematik veri iyileştirme tekniklerinin etkinliğini vurgulamak için oluşturdu. Apple ayrıca, DCLM-7B’nin değerlendirme sonuçlarını ve benzer boyutlu diğer modellerle karşılaştırmalarını da yayınladı.

Karşılaştırma tablosundan da fark edebileceğiniz gibi Microsoft Phi-3 modeli, MMLU da dahil olmak üzere her üç kategoride de Apple DCLM-7B’sinden daha iyi performans gösteriyor. Bir başka şaşırtıcı gerçek ise Apple’ın bu karşılaştırma için kullanılan spesifik Phi-3 modelinden bahsetmemesi. MMLU puanına dayanarak bu puanın 3.8B dil modeli olan Phi-3 mini’ye ait olduğunu tahmin edebiliriz. Apple’ın 7B modelini neden Microsoft’un 3.8B modeliyle karşılaştırdığı da belli değil.

Yüksek performanslı küçük dil modelleri geliştirme yarışı açıkça hızlanıyor. Microsoft’un Phi-3’ü çıtayı yüksek tutarken Apple’ın DCLM-7B modeli iyileştirme için odaklanmış veri iyileştirme potansiyelini ortaya koyuyor.

[Foruma üye olmadığınız sürece forum içeriğindeki bağlantıları görüntüleyemezsiniz. Foruma üye olmak için TIKLAYIN!]

Konu Bilgileri
	Konu Basligi Apple LLM Modeli, Microsoft Phi-3 Performansı ile Henüz Boy Ölçüşemiyor	Konudaki Cevap Sayisi 0
	Su an Bu Konuyu Goruntuleyenler Bu bilgi üye girişi gerektirir.	Goruntulenme Sayisi 302

23 Temmuz 2024, 15:42	# 1
Çevrimiçi Matsuro Profil ayrıntılarını görüntüleyebilmek için kayıtlı kullanıcı olmanız ve üye hesabınızla oturum açmanız gerekmektedir.	Apple LLM Modeli, Microsoft Phi-3 Performansı ile Henüz Boy Ölçüşemiyor Apple LLM Modeli, Microsoft Phi-3 Performansı ile Henüz Boy Ölçüşemiyor Microsoft tarafından Nisan ayında Phi-3 adlı küçük dil modelleri (SLM) ailesi duyurulmuştu. Bu modeller, temel kıyaslamalarda aynı ve daha büyük boyutlardaki modellerden önemli ölçüde daha iyi performans gösterdi. Hatta Phi-3-small ve Phi-3-medium, GPT-3.5 Turbo gibi daha büyük modellerden daha iyi performans gösterebiliyor. Yakın zamanda Apple’ın DataComp for Language Models (DCLM) ekibi, Apple Örnek Kod Lisansı kapsamında DCLM-7B adlı yeni bir açık kaynaklı model yayınladı. Bu yeni DCLM-7B, DCLM-Baseline veri kümesi üzerinde eğitilmiş 7 milyar parametreli bir dil modeli. Modeli matematik ve kodlama da dahil olmak üzere çeşitli ortak görevler için genel olarak kullanışlı hale getirmek amacıyla Apple, 3.8T DCLM-Baseline’ı StarCoder ve ProofPile2 verileriyle birleştirerek 4.1T token veri kümesine ulaştı. Apple bu modeli, dil modellerinin performansını artırmaya yönelik sistematik veri iyileştirme tekniklerinin etkinliğini vurgulamak için oluşturdu. Apple ayrıca, DCLM-7B’nin değerlendirme sonuçlarını ve benzer boyutlu diğer modellerle karşılaştırmalarını da yayınladı. Karşılaştırma tablosundan da fark edebileceğiniz gibi Microsoft Phi-3 modeli, MMLU da dahil olmak üzere her üç kategoride de Apple DCLM-7B’sinden daha iyi performans gösteriyor. Bir başka şaşırtıcı gerçek ise Apple’ın bu karşılaştırma için kullanılan spesifik Phi-3 modelinden bahsetmemesi. MMLU puanına dayanarak bu puanın 3.8B dil modeli olan Phi-3 mini’ye ait olduğunu tahmin edebiliriz. Apple’ın 7B modelini neden Microsoft’un 3.8B modeliyle karşılaştırdığı da belli değil. Yüksek performanslı küçük dil modelleri geliştirme yarışı açıkça hızlanıyor. Microsoft’un Phi-3’ü çıtayı yüksek tutarken Apple’ın DCLM-7B modeli iyileştirme için odaklanmış veri iyileştirme potansiyelini ortaya koyuyor. [Foruma üye olmadığınız sürece forum içeriğindeki bağlantıları görüntüleyemezsiniz. Foruma üye olmak için TIKLAYIN!] Eğlence ❤Kalp Fırlat 🌸Çiçek Fırlat 💧Su Fırlat 💣Bomba Fırlat ↕Titret Benzer Konular Elçin Sangu'dan Çerkes dansı performansı... Her Sabah Nasıl Oluyor da Henüz Alarm Çalmadan Aynı Saatte Uyanabiliyoruz?... Kıskançlık, İlişkiyi Bitiren Bir Canavar mı, Yoksa Sevgi Göstergesi mi, Henüz Bilinmi... Apple Başlangıçta Birçok iOS 18 ve Apple Intelligence Özelliğini AB’de Sunmayacak... Apple Watch Satışları Durduruluyor: Patent Davasından Apple'a Soğuk Duş... 👍❤😂😮😡😢👎👏
	Alıntı Sesli Oku

Şu anda bu konuyu görüntüleyen etkin kullanıcılar: 1 (0 üye ve 1 konuk)

ForumKalbi