Çoğunuzun bildiği üzere, geçtiğimiz 10 sene içinde ‘veri bilimi’ oldukça revaçta olan bir araştırma/çalışma alanı olarak ön plana çıktı. Kaggle’da bu süreç içerisinde oluşmuş ‘Veri Bilimi Eviniz’ sloganıyla ortaya çıkmış bir platformdur.
Her ne kadar ‘veri bilimi’ kavramı yakın zamanda popülerleşmiş olsa da, veri biliminin kendisi yeni bir kavram değil. Bakış açınıza bağlı olarak veri biliminin temellerini, istatistik biliminin temelleriyle eşleyebilirsiniz ancak benim kişisel görüşüm veri biliminin yeni bir çalışma alanı olma miladının 1962 yılında John Tukey tarafından yazılmış olan ‘Future of Data Analysis’ makalesi olduğu yönündedir. Makalede Tukey, istatistik biliminin formal veri analizi prosedürleriyle birleştirilip, sistematik ve tümsel analizler yapılacağını öngörür. Bu makalede Tukey, istatistik biliminin yetersiz kaldığı noktalardan bahsedip yeni yaklaşımlar önerir. İlgili makaleye ulaşmak için… Bu tarihten sonra bilgisayar temelli yaklaşımlar başta olmak üzere, veri analizi konusunda yeni teknikler hızla ortaya çıkmaya başlamıştır.
Bu tekniklerden en meşhuru belki de makine öğrenmesi algoritmalarıdır. Karmaşık ve doğrusal olmayan problemlerin, istatistiksel yöntemler ve optimizasyon teknikleriyle kabul edilebilir seviyede çözüldüğü bu yöntemler ‘akıllı’ olarak adlandırdığımız birçok araçta yer edinmiştir. Spam e-posta tespiti, Instagram filtreleri, ses tanıma/algılama araçları, kişiselleştirilmiş reklamlar vs. gibi birçok günlük araçta makine öğrenmesi teknikleri kullanılmaktadır. Kaggle işte tam da bu noktada çok değerli bir öğrenme aracı olarak karşımıza çıkmaktadır.
Kaggle, aslen makine öğrenmesi yarışmaları sunan bir platform olarak kurulmuştur. Bu platformda veri setleri ve beklenen çıktısı belirlenmiş problemler kullanıcılara sunuluyor. Veri setine ve değerlendirme metriklerine erişimi olan kullanıcılar, kendi modellerini ister bireysel şekilde isterlerse de grup olarak oluşturup Kaggle’a sonuçları yüklüyorlar. Modellerin performansı kullanıcıların erişimi olmadığı bir test seti üzerinden değerlendiriliyor ve kullanıcıların başarısı bu test setinde elde ettikleri metrik değeriyle belirleniyor. Genellikle yarışmalarda ilk N ekibe belli ödüller oluyor, bu ödüller yarışma açıldığı zaman bilgi olarak kullanıcılara sunuluyor.
Geçtiğimiz sene içerisinde Kaggle sadece yarışma değil aynı zamanda eğitim materyalleri de sunmaya başladı. Eğer makine öğrenmesiyle ilgileniyorsanız hem yarışmalar hem de bu materyaller modelleme yetilerinizi güçlendirme konusunda oldukça faydalı olacaktır.
Ancak elbette Kaggle’in hedeflemediği ve yardımcı olamadığı veri bilimi konuları oldukça fazla. İlk olarak, makine öğrenmesi özelinde bile, Kaggle çoğunlukla ‘gözetimli’ yani çıktısı önceden bilinen problemler sunuyor. Eğer segmentasyon gibi, ‘gözetimsiz’ problemler üzerinde çalışıyorsanız Kaggle size çok yardımcı olamayabilir. Görsel segmentasyonu konusunda bazı yarışmaları olsa da çoğunlukla Kaggle yarışmaları regresyon ve sınıflandırma problemlerinden oluşuyor.
Bunun dışında, Kaggle problemleri genel olarak temiz veri setlerine sahip iyi tanımlanmış problemlerden oluşuyor. Gerçek hayatta veri bilimiyle uğraşıyorsanız çoğu zaman bu kadar şanslı olmuyorsunuz. Öncelikle iş problemini anlayıp tanımlamanız gerekiyor. Bu kolay gibi görünse de oldukça zor bir iş. Çünkü çoğunlukla elinizdeki veriyle, sonunda çözmek istediğiniz problem uyuşmayabiliyor. Problem tanımlamasını yaparken, hedefinizi ölçülebilir ve modellenebilir şekilde belirlemeniz gerekiyor. Bu da demek oluyor ki, hedeflerinizden ödün vermek durumundasınız. Nereden nasıl ödün verileceği ise uzun uzun incelemelerin sonunda kararlaştırılıyor.
Hedefi belirlerken iş planınız, vizyonunuz ve elinizdeki veri çok önemli. Bu noktada veri edinme, tanımlama ve değerlendirme süreci başlıyor. Bu süreç, veri altyapısına ve çözülmek istenen probleme bağlı olarak, çok kısa da sürebilir, çok uzun da. Bizzat çalıştığım bir projeden örnek vermek gerekirse, yıllık 25 milyar Avro cirosu olan bir müşterimizin, pazarlama materyallerine dair analizini yapmaya başlamak için veri tanımlama sürecimiz yaklaşık 2 ay kadar sürdü. Aynı kalibrede başka bir müşterimiz söz konusu olduğunda bu süreç bir hafta bile değildi. Problemin boyutuna, hedefin karmaşıklığına, verinin dağınıklığına ve altyapısına bağlı olarak bu sure oldukça değişiyor.
- Veriyi edindikten sonra, veriyi inceleyip temizlemek gerekiyor. Bu aşamanın ne kadar süreceği yine veriye ve probleme bağlı olarak değişiyor.
- Verinizi edinip temizlediniz, simdi sıra prototipe geldi. İlk yapmanız gereken şey değerlendirme metriğinizi ve doğrulama yaklaşımınızı belirlemek. Kaggle’da çoğunlukla değerlendirme metrikleri bellidir ve yarışma bilgisinde sunulur. Doğrulama yaklaşımını ise kendiniz belirlersiniz.
- Geldik modelleme kısmına… Diğer aşamalarda olduğu gibi bu asama da iteratif bir süreç. “Modelle>doğrula>veri setine dön” şeklinde tekrar ediyor. Bu süreçte çoğunlukla birden fazla model oluşturulup başarıları kontrol edilir. Hatta birden fazla modeli birleştirip kullanabilirsiniz de. Kaggle söz konusu olduğunda, en önemli şey değerlendirme metriğinizdir.
Gerçek hayatta makine öğrenmesiyle uğraşıyorsanız çoğunlukla değerlendirme metriği işin çok ufak bir kısmıdır. Çoğunlukla iş çerçevesinde hangi metrik seviyesinin kabul edilebilir olduğunu siz veya işin uzmanı kişiler bilir. Bu noktada, modelleme bu değere ulaşabilecek en basit ve açıklanabilir model ile yapılır. Bazı sektörlerde model performansı en önemli faktör olsa da, çoğu sektörde model sadece sonuçları için değil; aynı zamanda size sağladığı diğer bilgiler için de kullanılabilir olmalıdır. Kaggle’da ise en önemli nokta veriye dair görü elde etmek değil modelin nasıl sonuç verdiğidir.
Son olarak, modelinizi son haline getirdikten sonra bunu gerçek ortama uygulama süreci başlar. Buna biz yapım diyoruz. Bütün bu süreç otomatize edilerek sisteme entegre edilir. Bu konu yine birçok diğer konu gibi Kaggle kapsamında değildir.
Kaggle, araştırmacı analiz için iyi; metriklerin kullanımı ve makine öğrenmesi algoritmalarının içselleştirilmesi için harika bir platform. Makine öğrenmesiyle uğraşan herkesin mutlaka tecrübe etmesi gereken bir yaklaşım sunuyor. Önemli bir faydası ise veri biliminin sancılı ve iyi tanımlanmamış kısımlarıyla uğraşmak yerine modellemeyi kendi başına iyi bir şekilde öğretiyor olması. Ancak burada dikkat edilmesi gereken nokta modellemenin sadece işin ufak bir kısmı olduğu. Sürecin diğer kısımları çok daha fazla zaman alıyor. Modelleme noktasına gelene kadar işinizi düzgün yaptıysanız modellemeyi kolaylaştırmış oluyorsunuz.
Benim kişisel görüşüm, veri bilimiyle ilgilenen herkesin Kaggle’i hayatının bir döneminde kullanması ve yarışmalara katılması gerektiği yönünde. Kaggle modelleme için çok iyi bir kaynak ve güzel bir başlangıç noktası. Ancak bilin ki veri bilimi sadece makine öğrenmesi modellerinden çok ama çok fazlası. Eğer veri bilimi alanında ilerlemek istiyorsanız size verilen problemleri değil de sizin tanımladığınız problemleri, kendi bulduğunuz veri kaynaklarından verileri elde ederek çözmeye çalışmanız.
Veriyle kalın…
Yazar: Amplify
Tartışma
Trackbacks/Pingbacks
Geri bildirim: Kaggle ile ilgili merak edilenler bu yazıda - Sigorta Dünyası - 25 Temmuz 2018