Veri Madenciliği ve Makine Öğrenmesi’nin ortak paydası olan veriden gizli kalmış bilgiyi çıkarma amacı taşıyan bu kitap; makine öğrenmesi ve veri madenciliğindeki temel algoritmaları ele almıştır. Veriden öğrenme yoluyla sınıflandırma ve kümeleme algoritmaları kullanılarak basit Excel örnekleri ile model kurmanın anlaşılmasına öncelik verilmiştir. Uygulama aracı olarak R dili seçilmiş ve kitapta R diline giriş amacı niteliğinde bir bölüme yer verilmiştir. Kitabın devamı R dili ile yapılan farklı disiplinlerden uygulamaları ve performans ölçümlerini kapsamaktadır. İşletme Eğitim Tıp ve Spor alanlarında daha büyük veri setleri üzerinde R kodları ile uygulamalar yapılmıştır. Bu kitap; akademik hayatta ve iş hayatında veri’den bilgi çıkarımında bulunmak öngörüye dayalı bu bilgiyi kararlarında kullanmak ve uygulamak isteyenler için hazırlanmıştır.
1. YAPAY ZEKÂ, MAKİNE ÖĞRENMESİ ve VERİ MADENCİLİĞİ 15
1.1. YAPAY ZEKÂ 15
1.2. YAPAY ZEKÂ TEKNOLOJİLERİ 19
1.1.1. Uzman Sistemler 20
1.1.2. Genetik Algoritmalar 21
1.1.3. Bulanık Mantık 22
1.3. VERİ MADENCİLİĞİ 23
1.4. MAKİNE ÖĞRENMESİ 26
1.5. ÖĞRENME STRATEJİLERİ 29
1.5.1. Danışmanlı Öğrenme 31
1.5.2. Danışmansız Öğrenme 33
1.5.3. Pekiştirmeli Öğrenme 34
1.6. MAKİNE ÖĞRENMESİ SÜRECİ ADIMLARI 34
1.6.1. Problemin Tanımlanması 35
1.6.2. Veriyi Anlama 37
1.6.3. Veri Hazırlama 39
Uç Noktalar (Outliers) 39
Tekrar Eden Gözlemler 40
Kayıp Değerlerin Tamamlanması 40
Normalizasyon 42
1.6.4. Model Kurma 42
1.6.5. Model Değerlendirme ve Seçimi 43
Model Performans Değerlendirme Yöntemleri 44
Model Performans Değerlendirme Ölçütleri 47
1.7. SORULAR 52
2. TEMEL ALGORİTMALAR 53
2.1. UZAKLIK ÖLÇÜLERİ 54
2.2. K-EN YAKIN KOMŞU ALGORİTMASI 58
2.3. BASİT (NAIVE) BAYES SINIFLANDIRICI 66
2.4. LOGİSTİK REGRESYON ANALİZİ 75
2.5. KARAR AĞAÇLARI 91
2.5.1. ID3 Karar Ağacı Algoritması 97
2.5.2. C4.5 Karar Ağacı Algoritması 107
2.5.3. Karar Ağaçlarında Nitelik Seçmeye İlişkin İki Yeni Yöntem Önerisi 114
2.6. K-ORTALAMALAR ALGORİTMASI 120
2.7. SORULAR 130
3. R DİLİNDE TEMEL KOMUTLAR 133
3.1. KURULUM 134
3.2. PAKETLER 140
3.3. RStudio KURULUMU ve TEMEL ÖZELLİKLERİ 143
3.4. NESNELER VE BASİT İŞLEMLER 147
3.4.1. Vektörler 150
3.4.2. Diziler ve Matrisler 155
3.4.3. Listeler 158
3.4.4. Data Frame 159
3.5. VERİ TİPİ DÖNÜŞÜMLERİ 162
3.6. VERİ SETİ OKUMA ve YAZDIRMA 163
3.7. VERİ SETİNİ ALT KÜMELERE AYIRMA 167
3.8. VERİ SETİNİ PARÇALAMA (EĞİTİM/TEST) 168
3.9. KARAR YAPISI 176
3.10. DÖNGÜLER 176
3.11. FONKSİYON YAZMAK 177
3.12. GRAFİKLER 177
3.13. OPTİMİZASYON 181
3.14. SORULAR 183
4. R ile UYGULAMALAR 185
4.1. ÖĞRETİM PERFORMANSINI DEĞERLENDİRME (k-En Yakın Komşu Algoritma Uygulaması) 186
4.2. KREDİ RİSKİNİN TAHMİNİ (Basit Bayes Sınıflandırıcı Uygulaması) 190
4.3. POTANSİYEL BANKA MÜŞTERİLERİNİN ÖNGÖRÜLMESİ (Logistik Regresyon Analizi Uygulaması) 198
4.4. TENİS MAÇI SONUCUNUN TAHMİNİ (C4.5 Karar Ağacı Uygulaması) 205
4.5. TOPTAN SATIŞ MÜŞTERİLERİNİN KÜMELENMESİ (k-Ortalamalar Algoritma Uygulaması) 220
5. R DİLİ İLE BİR VAK’A ÇALIŞMASI: KARDİYOLOJİK RİSK DEĞERLENDİRMESİ 225
KALP HASTALIĞI TEŞHİSİ 225
Problemin Tanımlanması 226
Veriyi Anlama 226
Veri Hazırlama 232
Model Kurma ve Performans Değerlendirme 233
Genel Değerlendirme ve Model Seçimi 257
Seçilen Modelin Kalp Hastalığı Teşhisinde Kullanımı 258
6. KAYNAKLAR 263