R ile Veri Madenciliği Uygulamaları

R ile Veri Madenciliği Uygulamaları


Yazar Dr. Mehmet Erdal BALABAN Dr. Elif KARTAL
Yayınevi Caglayan Kitabevi
ISBN 9789754360936
Baskı yılı 2016
Sayfa sayısı 295
Edisyon 1
Stok durumu Tükendi   

R programlama dili; her geçen gün eklenen paketler ile zenginleştirilmektedir. Açık kaynak kodlu bir dil olan R herkes tarafından paylaşılmakta, R’ın hem akademik dünyada hem de iş hayatında kullanımı giderek artmaktadır. Yapay zekânın uzantısında geliştirilmiş olan Veri Madenciliği ise, her geçen gün yeni algoritmalar ve yeni uygulama alanları ile geliştirilmektedir. Veri Madenciliği yöntemleri, geleceği öngörme ve gizli kalmış bilgiyi keşfetme özellikleri ile günümüzün ve geleceğin en önemli araçları haline gelmiştir. Bu kitapta; çok disiplinli bir bilim dalı (veri bilimi) olarak bilinen ve özellikle günümüzde büyük verinin (big data) analizinde kullanılan Veri Madenciliğinin farklı alanlardaki uygulamalarına eksiklikleri olsa da yer verilmiştir.
“R ile Veri Madenciliği Uygulamaları” kitabı ile R programlama dili ile veri madenciliği bir araya getirilerek on bir bölümlü ve 14 yazarlı bir eserin ortaya çıkması sağlanmıştır. Bu kitap, Türkçe literatüre kazandırılarak önemli bir boşluğun doldurulması amaçlanmıştır. İşletme disiplinlerinde, eğitim, sağlık ve spor gibi birçok alanda uygulamalar ve farklı yöntemler ele alınarak kitaba ayrıca zenginlik katılmıştır. Bölüm yazarlarının titiz ve değerli çalışmaları ile ortaya çıkarılan bu eserin Türk İş hayatına ve akademik dünyaya katkı sağlaması en büyük dileğimizdir. Öğrenmeye ve araştırmaya meraklı, analitik düşünebilen İşletmecilere, Bilişimcilere, Endüstri Mühendislerine ve yolu bilgiden geçen herkese armağan olsun.

İÇİNDEKİLER
BÖLÜM 1 VERİ MADENCİLİĞİ SÜRECİ ve FUTBOL MAÇ
SONUÇLARININ ÖNGÖRÜLMESİNE İLİŞKİN BİR UYGULAMA ....... 1
1.1 Problemin Tanımı................................................................................... 4
1.1.1 Futbol Maçı Sonuçlarının Veri Madenciliği ile Öngörülmesine
İlişkin bir Uygulama ................................................................................. 5
1.2 Veri Toplama ve Hazırlama .................................................................... 5
1.2.1 Futbol Maçı Veri Seti ...................................................................... 7
1.3 Veri Madenciliğini Uygulama .............................................................. 13
1.3.1 Futbol Maçı Veri Setine Uygun Veri Madenciliği Uygulamasının
Seçimi .................................................................................................... 13
1.4 Model Performansını Değerlendirme Yöntemleri .................................. 14
1.4.1 Futbol Maçı Örneğinde Eğitim ve Test Veri Setlerini Belirleme .... 15
1.5 Algoritma Seçimi ve Model Kurma ...................................................... 17
1.5.1 Futbol Maçı Veri Seti İçin Sınıflandırma Algoritmasının Seçimi ... 17
1.6 Model Değerlendirme ve Performans Ölçütleri ..................................... 18
1.6.1 Futbol Maçı Veri Setine İlişkin Model Performansının Ölçülmesi . 20
1.7 Sonuçlar ............................................................................................... 21
BÖLÜM 2 SAĞLIK BİLİMLERİNDE R ile VERİ MADENCİLİĞİ ....... 25
2.1 Problemin Tanımlanması ...................................................................... 28
2.2 Seçim ................................................................................................... 28
2.2.1 Verinin Toplanması ...................................................................... 28
2.2.2 Verinin Anlaşılması ...................................................................... 28
2.3 Ön İşleme ............................................................................................. 32
2.4 Dönüştürme.......................................................................................... 32
2.5 Veri Madenciliği .................................................................................. 33
2.5.1 C4.5 Algoritması........................................................................... 33
2.5.2 Gini Algoritması ........................................................................... 37
2.5.3 Rastgele Orman Algoritması ......................................................... 39
2.5.4 Regresyon Ağaçları ....................................................................... 40
2.6 Yorumlama .......................................................................................... 42
2.7 Sonuçlar ............................................................................................... 43
BÖLÜM 3 EĞİTSEL VERİ MADENCİLİĞİ ÇALIŞMASI: LİSE
ÖĞRENCİLERİNİN OKULA DEVAMLILIK DURUMLARININ
ÖNGÖRÜLMESİ ......................................................................................... 47
3.1 Amaç ................................................................................................... 49
3.2 Kapsam ................................................................................................ 49
3.3 Yöntem ................................................................................................ 50
ii
3.3.1 Verileri Anlama ve Hazırlama Adımı ............................................ 52
3.3.2 C4.5 Karar Ağacı Algoritmasının Uygulanması ............................. 59
3.4 Sonuçlar ............................................................................................... 65
3.5 Tartışma ............................................................................................... 66
BÖLÜM 4 R ile GERİ YAYILIM YAPAY SİNİR AĞI ALGORİTMASI
KULLANARAK BİR SINIFLANDIRMA UYGULAMASI ....................... 73
4.1 Öğrenme Algoritması ve Veri Seti Hakkında Genel Bilgiler ................. 74
4.1.1 Geri Yayılım (Backpropagation) Algoritması ................................ 75
4.1.2 Pima Indians Diabet Veri Seti ....................................................... 77
4.2 Veri Önişleme ...................................................................................... 79
4.3 Geri Yayılım Algoritmasının Eğitimi .................................................... 82
4.4 Geri Yayılım Algoritmasının Test Edilmesi .......................................... 87
4.5 Sonuçlar ............................................................................................... 95
BÖLÜM 5 BULANIK ZAMAN SERİLERİNDE YAPAY SİNİR AĞLARI
İLE TAHMİN ............................................................................................. 101
5.1 Bulanık Kümeler ve Üyelik Derecesi .................................................. 102
5.2 Yapay Sinir Ağları ............................................................................. 103
5.3 Bulanık Zaman Serileri ....................................................................... 105
5.3.1 Zaman Serileri ............................................................................ 105
5.3.2 Bulanık Zaman Serileri ............................................................... 106
5.4 Tarihçe ............................................................................................... 107
5.5 Yöntem .............................................................................................. 110
5.5.1 Problemin Tanımlanması ............................................................ 110
5.5.2 Türkiye Trafik Kazaları Verisi ve Tanımı .................................... 112
5.5.3 Değişkenlerin Seçimi ve Verinin Hazırlanması............................ 113
5.6 Sonuçlar ............................................................................................. 113
5.6.1 Veri Setinin Eğitim ve Test Setlerine Ayrılması .......................... 114
5.6.2 Bulanık Zaman Serisinde Yapay Sinir Ağı ile Tahmin ................. 114
5.7 Tartışma ve Sonuçların Yorumlanması ............................................... 130
BÖLÜM 6 VERİ MADENCİLİĞİNDE VERİNİN ÖN İŞLENMESİ ..... 143
6.1 Veri Madenciliği ve Bilgi Keşfi .......................................................... 144
6.2 Veri Hazırlanması / Önişleme ............................................................. 145
6.2.1 Veri Okunması ve Verinin İncelenmesi ....................................... 145
6.2.2 Veri Temizlenmesi ...................................................................... 148
6.2.3 Verilerdeki Gürültünün Giderilmesi ............................................ 152
6.2.4 Eğri Uydurma (Regresyon) ......................................................... 156
6.2.5 Kümeleme .................................................................................. 156
6.3 Verilerin Yapılandırılması .................................................................. 157
6.3.1 Verilerin Bütünleştirilmesi .......................................................... 157
iii
6.3.2 Verilerin Dönüştürülmesi ............................................................ 157
6.3.3 Verilerin İndirgenmesi ................................................................ 161
6.4 Sonuçlar ............................................................................................. 161
BÖLÜM 7 GERÇEK DÜNYA HARİTASI ÜZERİNDE GENETİK
ALGORİTMALARLA GEZGİN SATICI PROBLEMİ UYGULAMASI
.................................................................................................................... 165
7.1 Yöntem .............................................................................................. 170
7.2 Uygulama........................................................................................... 172
7.3 Tartışma ve Sonuçlar .......................................................................... 178
BÖLÜM 8 VERİ MADENCİLİĞİNDE KÜMELEME ALGORİTMALARI
İLE MÜŞTERİ SEGMENTASYONU ....................................................... 187
8.1 Segmentasyon .................................................................................... 188
8.2 Kümeleme .......................................................................................... 189
8.3 Uzaklık Ölçüleri ................................................................................. 191
8.3.1 Veri Matrisi ve Uzaklık Matrisi ................................................... 191
8.3.2 Öklid Uzaklığı ............................................................................ 192
8.3.3 Minkowski Uzaklığı.................................................................... 193
8.3.4 Manhattan Uzaklığı ..................................................................... 193
8.4 Normalizasyon ................................................................................... 193
8.5 K-Ortalamalar Algoritması (K-Means) ............................................... 195
8.6 Bulanık C-Ortalamalar Algoritması (Fuzzy C-Means) ........................ 196
8.7 Kümeleme Kalitesinin Ölçülmesi ....................................................... 197
8.7.1 Silhouette İndeksi ....................................................................... 198
8.7.2 Dunn İndeksi .............................................................................. 198
8.7.3 Calinski-Harabasz İndeksi ........................................................... 199
8.7.4 Davies-Bouldin İndeksi ............................................................... 199
8.7.5 Xie-Beni İndeksi ......................................................................... 200
8.8 K-Ortalamalar ve Bulanık C-Ortalamalar Algoritmalarıyla Müşteri
Segmentasyonu ........................................................................................ 200
8.8.1 Problemin Tanımlanması ............................................................ 200
8.8.2 Verinin Anlaşılması ve Hazırlanması .......................................... 201
8.8.3 Modelin Oluşturulması................................................................ 205
8.8.4 Model Performanslarının Değerlendirilmesi ................................ 210
8.9 Sonuç ve Değerlendirme .................................................................... 214
BÖLÜM 9 BİRLİKTELİK KURALLARI İLE VERİ MADENCİLİĞİNDE
BİR PAZARLAMA UYGULAMASI GERÇEKLEŞTİRİLMESİ ........... 221
9.1 Birliktelik Kurallarında Bazı Önemli Kavramlar ................................. 222
9.1.1 Destek Değeri ............................................................................. 222
9.1.2 Güven Değeri.............................................................................. 222
iv
9.1.3 Kaldıraç Değeri........................................................................... 223
9.2 Apriori Algoritması ............................................................................ 223
9.2.1 Apriori Algoritmasının Adımları ................................................. 223
9.3 Birliktelik Kuralları ile Veri Madenciliğinde Bir Pazarlama Uygulaması
224
9.3.1 Problemin Tanımlanması ............................................................ 224
9.3.2 Veriyi Anlama ............................................................................ 224
9.3.3 Veri Hazırlama ........................................................................... 230
9.3.4 Modelleme .................................................................................. 232
9.4 Birliktelik Kuralı Apriorinin Uygulanması .......................................... 233
9.5 Sonuçlar ............................................................................................. 235
9.5.1 Birliktelik Kuralların Görselleştirilmesi ....................................... 236
BÖLÜM 10 VERİ MADENCİLİĞİ BANKACILIK UYGULAMASI ..... 243
10.1 Veri Ön Analizi ............................................................................... 245
10.2 Veri Doğrulanması........................................................................... 247
10.3 Model Oluşturma ............................................................................. 249
10.3.1 C4.5 Algoritması Teorik Çerçeve.............................................. 249
10.3.2 Modelin Uygulanması .............................................................. 249
10.3.3 Model Performans Ölçümü ....................................................... 252
10.4 Sonuçlar .......................................................................................... 253
BÖLÜM 11 SHINY ile R UYGULAMASI GELİŞTİRME ve KALP
RİSKİNİ DEĞERLENDİRMEYE İLİŞKİN WEB DESTEKLİ BİR
ÖRNEK ÇALIŞMA ................................................................................... 257
11.1 Bazı Temel Kavramlar ..................................................................... 258
11.1.1 Shiny ile Yeni Bir Uygulama Oluşturmak ................................. 258
11.1.2 Shiny’de Kullanıcı Arayüzü ve Sunucu Dosyası İşlemleri ......... 260
11.1.3 Kontrol Grafik Bileşenleri ........................................................ 262
11.1.4 Çıktı Fonksiyonları ................................................................... 263
11.1.5 Render Fonksiyonları ............................................................... 263
11.1.6 Uygulamanın Webden Paylaşılması .......................................... 263
11.2 Shiny’de Karar Ağaçları ile Kardiyolojik Risk Değerlendirmesi ....... 268
11.2.1 Statlog (Kalp) Veri Seti ............................................................ 268
11.2.2 C4.5 Karar Ağacı Algoritması .................................................. 270
11.3 Shiny Uygulamasının Gerçekleştirilmesi .......................................... 270
11.3.1 Uygulama Dosyalarının Hazırlanması ....................................... 271
11.4 Sonuçlar .......................................................................................... 292
v
ŞEKİLLER
Şekil 1.1: Veri madenciliği süreci akış şeması (Balaban, 2015). .............. 3
Şekil 1.2: Veri setinden bir görünüm. ..................................................... 7
Şekil 1.3: Futbol veri setinin RStudio’daki görünümü............................. 8
Şekil 1.4: Futbol veri setinin RStudio’daki görünümü............................. 8
Şekil 1.5: aggregate() fonksiyonunun ekran çıktısı................................ 10
Şekil 1.6: sVurus niteliğindeki kayıp değerin tamamlanması. ............... 10
Şekil 1.7: Veri setinin özeti. ................................................................. 11
Şekil 1.8: korner ve sut niteliklerine ait grafik. ..................................... 12
Şekil 1.9: pas ve iMcdl niteliklerine ait grafik. ...................................... 12
Şekil 1.10: 5-kat çapraz geçerleme. ...................................................... 14
Şekil 1.11: Tabakalı örnekleme. ........................................................... 15
Şekil 1.12: Eğitim veri setinde hedef niteliğin frekans değerleri. ........... 16
Şekil 1.13: Test veri setinde hedef niteliğin frekans değerleri. .............. 16
Şekil 1.14: Eğitim veri setinden elde edilen ağaç modeli....................... 18
Şekil 1.15: İkili sınıf sınıflandırma perofrmans değerlendirilmesi tablosu.
............................................................................................................. 19
Şekil 1.16: Futbol maçı test veri setinden elde edilen performans. ........ 20
Şekil 2.1: Veri tabanından bilgi keşif sürecine genel bakış (Fayyad ve
diğ., 1996; Akpınar, 2014). ................................................................... 26
Şekil 2.2: Veri setinin boyutları. ........................................................... 29
Şekil 2.3: Örnek ve nitelik adları eklenen veri seti (ilk 10 kayıt yer
almaktadır). .......................................................................................... 30
Şekil 2.4: Veri setinin özeti. ................................................................. 30
Şekil 2.5: Tiroid veri setine ait kutu grafiği. .......................................... 31
Şekil 2.6: Tiroid veri setinin T3, T4, TSH ve Diyagnoz niteliklerine ait
kutu grafikleri....................................................................................... 31
Şekil 2.7: Tiroid veri setinin yeni özet görüntüsü. ................................. 32
Şekil 2.8: C4.5 algoritması ile elde edilen sınıflandırma kuralları. ........ 34
Şekil 2.9. C4.5 algoritması ile elde edilen sınıflandırma işlemine ait
istatistiksel bilgi. .................................................................................. 34
Şekil 2.10: C4.5 Algoritması ile oluşturulan karar ağacı. ...................... 35
Şekil 2.11: C4.5 algoritması ile elde edilen ağacın test verisi ile kestirimi.
............................................................................................................. 36
Şekil 2.12: C4.5 algoritması ile elde edilen ağacın karışıklık matrisi. .... 37
Şekil 2.13: C4.5 algoritması ile elde edilen ağacın doğruluk ölçütü. ..... 37
Şekil 2.14: Gini algoritması ile elde edilen sınıflandırma kuralları. ....... 38
vi
Şekil 2.15: Gini algoritması ile elde edilen ağaç yapısı. ........................ 38
Şekil 2.16: Gini algoritması ile elde edilen ağacın karışıklık matrisi. .... 39
Şekil 2.17: Gini algoritması ile elde edilen ağacın doğruluk ölçütü. ...... 39
Şekil 2.18: Rastgele orman algoritması ile elde edilen sınıflandırma
kuralları. ............................................................................................... 39
Şekil 2.19: Rasgele orman algoritması ile elde edilen ağacın karışıklık
matrisi. ................................................................................................. 40
Şekil 2.20: Rasgele orman algoritması ile elde edilen ağacın doğruluk
ölçütü. .................................................................................................. 40
Şekil 2.21: Regresyon ağaçları algoritması ile elde edilen sınıflandırma
kuralları. ............................................................................................... 41
Şekil 2.22: Regresyon ağaçları algoritması ile elde edilen ağaç yapısı. . 41
Şekil 2.23: Regresyon ağaçları algoritması ile elde edilen ağacın
karışıklık matrisi. ................................................................................. 42
Şekil 2.24: Regresyon ağaçları algoritması ile elde edilen ağacın
doğruluk ölçütü. ................................................................................... 42
Şekil 3.1: Kronikleşen devamsızlık davranışları bakımından OECD ülke
kıyaslamaları (Yıldırım ve diğ., 2013). ................................................. 48
Şekil 3.2: CRISP-EDM modelinin adımları (Özdemir, 2016). .............. 51
Şekil 3.3: Veri türlerinin RStudio’daki tür ve genel dağılımları. ........... 53
Şekil 3.4: Niteliklerin genel bir özeti. ................................................... 53
Şekil 3.5: DROP veri setindeki sayısal niteliklerin değişimlerini gösteren
histogram grafikleri. ............................................................................. 54
Şekil 3.6: Başarı değişkenine göre devamsızlık yoğunluk grafiği. ......... 55
Şekil 3.7: Devamsızlık değişkenine göre cinsiyet yoğunluk grafiği. ...... 55
Şekil 3.8: Başarı değişkenine göre cinsiyet yoğunluk grafiği. ............... 56
Şekil 3.9: Devamsızlık değişkenine göre sınıf mevcudu yoğunluk grafiği.
............................................................................................................. 56
Şekil 3.10: Cinsiyete göre DROP veri setinin sayısal değişkenlerindeki
değişim. ............................................................................................... 57
Şekil 3.11: Sınıf mevcuduna göre DROP veri setinin sayısal
değişkenlerindeki değişim. ................................................................... 57
Şekil 3.12: Devamsızlığın İstanbulda ikamet süresine göre dağılım
grafiği. ................................................................................................. 58
Şekil 3.13: DROP veri setindeki sayısal nitelikler arası korelasyon
değerleri ............................................................................................... 58
Şekil 3.14: Hedef nitelik ile diğer nitelikler (sayısal) arasındaki
korelasyonu gösteren grafikler. ............................................................. 59
vii
Şekil 3.15: %60 ayırımla elde edilen karar ağacının ekran görüntüsü. ... 61
Şekil 3.16: Modelin yazdırılması ile elde edilen ayrımların ekran
görüntüsü. ............................................................................................ 62
Şekil 3.17: %60 eğitim ve test verisi ayrımında GİNİ karar ağacı. ........ 65
Şekil 4.1: Geri Yayılım Algoritması YSA Yapısı.................................. 76
Şekil 4.2: RStudio editörünün sağ tarafındaki kısımda veri setleri yer
almaktadır. ........................................................................................... 78
Şekil 4.3: Pima.tr veri seti. ................................................................... 79
Şekil 4.4: Pima.tr veri setinin özet bilgisi. ............................................. 79
Şekil 4.5: Ağın performans istatistikleri. ............................................... 89
Şekil 4.6: Ağın performans grafiği........................................................ 90
Şekil 4.7: Kurulan yapay sinir ağının grafiksel temsili. ......................... 91
Şekil 5.1: Bir Yapay Sinir Ağının Genel Yapısı. ................................. 103
Şekil 5.2: Yapay Sinir Hücresi (Çuhadar, 2006: 117; Yıldız, 2006:52).
........................................................................................................... 104
Şekil 5.3: Küme Sayısına Göre Grup İçi Uzaklık Kareleri Toplamı. ... 117
Şekil 5.4: Sigmoidal fonksiyonu üyelik değerleri için YSA hedef ve çıktı
değerleri grafiği. ................................................................................. 126
Şekil 5.5: Sigmoidal Fonksiyon Üyelik Değerleri YSA Mimarisi. ...... 127
Şekil 6.1: Veri madenciliğinde bilgi keşfi. .......................................... 144
Şekil 6.2: Hepatitis.data dosyasının Notepad++ ile görünümü. ........... 147
Şekil 6.3: Üsten aşağıya sgot niteliğinin Orijinal Veri, Ortalama Değere
göre kutulama, Maksimum-Minumum Farkına göre ve Maksimum-
Minumum yakınlığına göre kutulama değerlerinin grafiksel gösterimi.
........................................................................................................... 156
Şekil 7.1: Örnek Bir GSP Çözümü (Clegg, Miller, Massey, & Petty,
2014). ................................................................................................. 166
Şekil 7.2: Ackley fonksiyonunun grafiği. ............................................ 167
Şekil 7.3: Simülasyonla modelleme (Kates, 2012). ............................. 168
Şekil 7.4: rtsp fonksiyonunun çalışma algoritması. ............................. 170
Şekil 7.5: Birinci örnek için seçilen yerlerin gerçek harita üzerindeki
yerleşimi. ........................................................................................... 173
Şekil 7.6: Birinci örnek için rtsp fonksiyonunun ekran çıktısı. ............ 174
Şekil 7.7: İkinci örnek için seçilen yerlerin gerçek harita üzerindeki
yerleşimi. ........................................................................................... 176
Şekil 7.8: İkinci örnek için rtsp fonksiyonunun ekran çıktısı. .............. 177
Şekil 7.9: Üçüncü örnek için rtsp fonksiyonunun ekran çıktısı. ........... 178
Şekil 8.1: Üç farklı kümenin koordinat düzleminde gösterimi. ............ 189
viii
Şekil 8.2: Kümeleme yöntemleri (Han ve Kamber, 2006). .................. 190
Şekil 8.3: İki nokta arasındaki uzaklığın koordinat düzleminde gösterimi.
........................................................................................................... 192
Şekil 8.4: K-ortalamalar algoritmasının görsel anlatımı. ..................... 196
Şekil 8.5: RStudio’da veri setinin görünümü....................................... 203
Şekil 8.6: dataCustomer verisi özet görünümü. ................................... 204
Şekil 8.7: dataCustomerN verisi özet görünümü. ................................ 205
Şekil 8.8: Modelin kümeleme sonuçları. ............................................. 206
Şekil 8.9: Modelin küme merkezleri sonucu. ...................................... 206
Şekil 8.10: Modelin küme vektörü. ..................................................... 207
Şekil 8.11: Modelin küme içi ve kümeler arası uzaklık sonuçları. ....... 207
Şekil 8.12: Manhattan uzaklığı ile elde edilen k-ortalamalar modeli
sonuçları............................................................................................. 208
Şekil 8.13: Modelin kümeleme sonuçları ve küme merkezleri. ........... 209
Şekil 8.14: Modelin küme üyelik değerleri. ........................................ 209
Şekil 8.15: Modelin küme vektörü. ..................................................... 210
Şekil 9.1: Niteliklerin dağılımı. .......................................................... 228
Şekil 9.2: Yaş, konuşma süresi, daha önce aranma zamanı niteliklerine ait
histogramlar. ...................................................................................... 229
Şekil 9.3: Yaş, konuşma süresi, daha önce aranma zamanı niteliklerine ait
kutu grafiği çizimleri. ......................................................................... 229
Şekil 9.4: Veri setinin içerisinde yer alan niteliklerin türleri................ 230
Şekil 9.5: Bank_Marketing veri setinin ilk durumdaki özeti. ............... 232
Şekil 9.6: Bank_Marketing veri setinin düzenlemeler sonrası özeti. .... 232
Şekil 9.7: Varsayılan ayarlar ile elde edilen ilk 10 kural. .................... 233
Şekil 9.8: Kaldıraca göre sıralı kurallar. .............................................. 234
Şekil 9.9: Kaldıraca göre sıralı kurallar. .............................................. 235
Şekil 9.10: Birliktelik kuralları için serpilme diyagramları. ................. 236
Şekil 9.11: Serpilme diyagramları-2. .................................................. 237
Şekil 9.12: Serpilme diyagramları-3. .................................................. 238
Şekil 9.13: Birliktelik kuralları için graf diyagramı. ............................ 238
Şekil 9.14: Paralel koordinatlar diyagramı. ......................................... 239
Şekil 10.1 Nümerik değişkenler için scatter plot diagramı .................. 248
Şekil 11.1: ui.R ve server.R dosyalarını kullanarak bir Shiny uygulaması
geliştirmek. ........................................................................................ 259
Şekil 11.2: Run App butonu seçenekleri. ............................................ 260
Şekil 11.3: “ui.R” dosyasının sadece 4. satırının Console’da
çalıştırılması. ...................................................................................... 261
ix
Şekil 11.4: Örneğe ait ekran görüntüleri. ............................................ 262
Şekil 11.5: shinyapps.io web sitesinden bir görünüm. ......................... 264
Şekil 11.6: shinyapps.io web sitesine giriş ekranından bir görünüm. ... 264
Şekil 11.7: shinyapps.io Token üretme ekranı. .................................... 265
Şekil 11.8: shinyapps.io hesabı ve RStudio bağlantısının oluşturulması
için kullanılan ekran. .......................................................................... 265
Şekil 11.9: Uygulamanın webe aktarımı, ekran görüntüsü 1. ............... 266
Şekil 11.10: Uygulamanın webe aktarımı, ekran görüntüsü 2. ............. 266
Şekil 11.11: Uygulamanın shinyapps.io hesabındaki görüntüsü. ......... 266
Şekil 11.12: Uygulamanın webdeki görüntüsü. ................................... 267
Şekil 11.13: Uygulamanın klasör yapısı. ............................................. 271
Şekil 11.14: Uygulama için tasarlanan sayfa yapısı. ............................ 273
Şekil 11.15: numericInputta yaş niteliğinin ekran görüntüsü. ............. 275
Şekil 11.16: selectInputta cinsiyet niteliğinin ekran görüntüsü. .......... 275
Şekil 11.17: Kullanıcı arayüzüne ilişkin ekran görüntüsü. ................... 280
Şekil 11.18: Kullanıcı arayüzünden girilen veri. ................................. 287
Şekil 11.19: Ekrana sonuçların yazdırılması. ...................................... 288
x
TABLOLAR
Tablo 1.1: Futbol veri seti. ...................................................................... 7
Tablo 1.2: Futbol veri setinde sınıf değerlerinin hedef nitelikte dağılımı.
............................................................................................................. 15
Tablo 1.3: Eğitim veri setinde sınıf değerlerinin hedef nitelikte dağılımı.
............................................................................................................. 16
Tablo 1.4: Test veri setinde sınıf değerlerinin hedef nitelikte dağılımı. . 16
Tablo 2.1: ”Thyroid gland data“ isimli veri setine ait nitelikler ve
değerleri. .............................................................................................. 28
Tablo 2.2: Model değerlendirme tablosu............................................... 42
Tablo 3.1: Cronbach Alfa güvenirlik katsayısının yorum aralıkları. ...... 50
Tablo 3.2: DROP veri setine ilişkin tüm değişkenler, gösterim biçimleri
ve türleri. .............................................................................................. 52
Tablo 3.3: %60 ayırımda modelin confusion matrisi. ............................ 64
Tablo 3.4: Ayırımlara ilişkin ACC, TPR ve TNR değerleri. .................. 65
Tablo 4.1: R dilindeki Yapay Sinir Ağı paketleri. ................................. 74
Tablo 4.2: Veri setinde yer alan nitelikler. ............................................ 77
Tablo 4.3: Farklı katman ve nöron sayılarına göre ağın ürettiği doğruluk
değerleri. .............................................................................................. 92
Tablo 5.1: Türkiye ve Avrupa Ülkelerine Ait 2013 Yılı Trafik Kazası ve
Otomobil Sayısı Bilgileri. ................................................................... 111
Tablo 5.2: Değişkenlere Ait Tanımsal İstatistikler. ............................. 113
Tablo 5.3: Model İçin Uygun Gecikme Seçimi. .................................. 115
Tablo 5.4: Sigmoidal Üyelik Fonksiyonu İçin Yapay Sinir Ağı Girdi ve
Hedef Değişkenleri. ............................................................................ 120
Tablo 5.5: Sigmoidal fonksiyon üyelik değerleri YSA eğitim sonuçları.
........................................................................................................... 124
Tablo 5.6: YSA eğitim sonuçlarına göre ağ modellerinin karşılaştırılması.
........................................................................................................... 126
Tablo 5.7: YSA Test Sonuçları. .......................................................... 127
Tablo 5.8: Gerçek gözlem değerleri. ................................................... 129
Tablo 5.9: Durulaştırılmış öngörü verileri. .......................................... 129
Tablo 5.10: 2015 yılı için tahmin değerleri. ........................................ 130
Tablo 6.1: hepatitis.name vasıtası çıkarılan değişkenler ...................... 146
Tablo 7.1: Birinci Örnek İçin Mesafeler Matrisi ................................. 174
Tablo 7.2. İkinci örnek için mesafeler matrisi. .................................... 177
Tablo 8.1: Min-max normalizasyon işlemi. ......................................... 194
xi
Tablo 8.2: Min-max normalizasyon işlemi. ......................................... 194
Tablo 8.3: Veri Seti Nitelik Alanları. .................................................. 201
Tablo 8.4: İndekslerin değerlendirme kuralları. .................................. 213
Tablo 8.5: Kümeleme algoritmalarının kümeleme kriterlerine göre
performans değerleri........................................................................... 213
Tablo 8.6: K-Ortalamalar algoritması ve k=13 küme sayısı için küme
merkezleri. ......................................................................................... 214
Tablo 9.1: Veri seti niteliklerinin açıklaması....................................... 225
Tablo 10.1:Verisetini oluşturan değişkenler ........................................ 245
Tablo 10.2: Verisetini oluşturan kategorik değişkenler ....................... 246
Tablo 11.1: Kontrol grafik bileşenleri. ................................................ 262
Tablo 11.2: Çıktı fonksiyonları. .......................................................... 263
Tablo 11.3: Render fonksiyonları. ...................................................... 263
Tablo 11.4: Veri setinde yer alan nitelikler. ........................................ 269
Tablo 11.5: Analiz sonuçları elde edilmek istenen kişiye ait bilgiler. .. 286