Bilgisayar sistemleri ile üretilen veriler tek başlarına değersizdir, çünkü çıplak gözle bakıldığında bir anlam ifade etmezler. Bu veriler belli bir amaç doğrultusunda işlendiği zaman bir anlam ifade etmeye başlar (Kalikov, 2006). Günlük hayatta karşılaştığımız birçok durumdan bahsedecek olursak teknoloji artık hayatımızın ayrılmaz bir parçası haline gelmiştir. Hastalıktan dolayı gittiğiniz hastanede yapılan kayıtlar, gün içerisinde birçok kez kullandığımız kredi kartlarımızın verileri, patronu olduğunuz işletmenin tutulan kayıtlarına göre attığınız adımlar gibi bilgisayarlarımızda ve cep telefonlarımızda, tabletlerimizde sakladığımız binlerce veri vardır.
Bu verileri nasıl muhafaza ettiğimizi düşündünüz mü? Çeşitli konularda karar almamıza yarayan bu verilerin toplanması, saklanması ve işlenmesi bize “veri madenciliği” kavramını çağrıştırır. Yapay zeka ve görselleştirme, makine öğrenmek gibi birçok durumla karıştırılan “veri madenciliği” kavramı yine bu alanlarla ilişkili bir bütünü oluşturuyor da diyebiliriz. Bunlara ek olarak; istatistik, veri tabanı teknolojileri gibi birçok alana da hitap eden veri madenciliği disiplinler arası bir bölümdür.
Tarihte veri madenciliğinin başlangıcı ise aslında 1950’li yıllarda bilgisayarın keşfi ile sayımların yapılması bu alanın başlangıç noktası olmuştur diyebiliriz. Veri madenciliğinin tarihsel gelişimine detaylıca göz atacak olursak;
- 1950’lerde sayım için kullanılan ilk bilgisayarlar,
- 1960’larda Verilerin depolanması,veri tabanı ve perseptonlar
- 1970’lerde İlişkisel veri tabanı yönetim sistemlerinin yanı sıra basit kurallara dayanan uzman sistemler ve makine öğrenimi
- 1980’lerde Büyük miktarda veri içeren veri tabanı ve SQL sorgu dili
- 1990’larda Veri tabanlarında bilgi keşfi çalışma grubu ve sonuç bildirgesine ek olarak veri madenciliği için ilk yazılım
- 2000’ler Tüm alanlar için veri madenciliği uygulamaları.
Veri madenciliğinde tarihsel gelişimle beraber birçok süreci de ele alacak olursak Bunlar:
- Veri Temizleme,
- Veri Bütünleştirme,
- Veri Seçme (İndirgeme),
- Veri Dönüştürme,
- Veri Madenciliği Algoritmaları Uygulanması,
- Örüntüler (Desenler)
- Sunum ve Değerlendirme şeklindedir.
Bunların yanı sıra veri madenciliğinde bazı problemlerle karşılaşabiliriz. Artık veri, belirsizlik, boş veri, dinamik veri, eksik veri gibi birçok etkeni sıralayabiliriz.
Artık veri: Artık veri, problemde istenilen sonucu elde etmek için kullanılan örneklem kümesindeki gereksiz niteliklerdir. Bu durum pek çok işlem sırasında karşımıza çıkabilir.
Belirsizlik: Yanlışlıkların şiddeti ve verideki gürültünün derecesi ile ilgilidir.
Boş veri: Bir veri tabanında boş değer, birincil anahtarda yer almayan herhangi bir niteliğin değeri olabilir. Boş değer, tanımı gereği kendisi de dâhil olmak üzere hiçbir değere eşit olmayan değerdir.
Dinamik veri: Kurumsal çevrim içi veri tabanları dinamiktir ve içeriği sürekli olarak değişir. Bu durum, bilgi keşfi metotları için önemli sakıncalar doğurmaktadır.
Eksik veri: Veri kümesinin büyüklüğünden ya da doğasından kaynaklanmaktadır. Eksik veriler olduğunda yapılması gerekenler şunlardır:
- Eksik veri içeren kayıt veya kayıtlar çıkarılabilir.
- Değişkenin ortalaması eksik verilerin yerine kullanılabilir.
- Var olan verilere dayalı olarak en uygun değer kullanılabilir.
Eksik veriler, yapılacak olan istatistiksel analizlerde önemli problemler yaratmaktadır. Çünkü istatistiksel analizler ve bu analizlerin yapılmasına olanak veren ilgili paket programlar, verilerin tümünün var olduğu durumlar için geliştirilmiştir (Albayrak, 2008).
Son olarak, bu alanda kaydedilen gelişmeler ve Türkiye’de bu alanda yapılan çalışmaların giderek önem kazanmaya başlaması bizlere veri madenciliğinin önemini bir kez daha göstermiş olacaktır.Kısaca bunları da sektörlere göre incelememiz gerekirse;
Perakendecilik: Market içinde ürünlerin yerleştirilmesi ve çapraz satış yapılması
Bankacılık: Müşteri ilişkileri yönetimi, kampanya yönetimi, kredi puanının hesaplanması, kredi kartı sahtekarlığının saptanması.
Sigortacılık: Soruşturma gerektiren tazmin taleplerinin saptanması.
Telefonla pazarlama: Pazarlama amacıyla aranacak kişinin ilgi gösterebileceği ürünün saptanması.
İnsan Kaynakları Yönetimi: Firmadan ayrılma ihtimali olan personelin tespiti.