Veri madenciliğine genel bakış ve Random Forests yönteminin incelenmesi: Sağlık alanında bir uygulama
dc.contributor.advisor | Genç, Yasemin | |
dc.contributor.advisor | Ankaralı, Handan | |
dc.contributor.author | Akman, Muhammet | |
dc.contributor.department | Biyoistatistik | tr_TR |
dc.date.accessioned | 2022-05-12T12:56:37Z | |
dc.date.available | 2022-05-12T12:56:37Z | |
dc.date.issued | 2010 | |
dc.description.abstract | Data Mining is processed in order to help policy makers for giving valid and efficient decisions using the available data on the subject. In general, data mining has descriptive and predictive perspectives. In medicine, especially its predictive aspects are used.Within this thesis study, data mining techniques are introduced briefly. Further, decision trees, part of classification models, which has an important place in data mining are explained. Also, tree-based data mining method Random Forests (RF) is analyzed and applied on periodontology data set.In RF method, decision trees which form decision forest are created with different data sets. These data sets are bootstrapped samples from original data set. Also each decision tree is created with less randomly selected parameters from all of the predictors. Each decision tree votes for one class and forest aggregates votes from all trees, and makes final decision for the class. Using these properties RF gives fairly good results.Using RF method, 95,4 % of successful classification rate is achieved. Decision Forest?s error rate was found 3,33 % . Classification was made by Bagging method and CART method for the same data set and the error rates were found 5,4 % and 8,75 % respectively.Using RF method, even there exists many predictors and large amount of data, generally lower error rate of classification is achieved. As RF is an ensemble method it gives better results. It can be used for determining important ones from large amount of DNA data set which has thousands of predictors(genes) | tr_TR |
dc.description.ozet | Karar vericilere, eldeki verilerden yola çıkarak doğru ve etkin kararlar almasına yardımcı olmak amacıyla veri madenciği yapılmaktadır. Veri madenciliği, genel olarak tanımlayıcı ve tahmin edici olmak üzere iki ana başlıkta incelenmektedir. Özellikle tıp alanında veri madenciliği daha çok tahmin edici yönüyle kullanılmaktadır.Bu tez çalışmasında öncelikle veri madenciliği yöntemleri genel olarak tanıtılmış, veri madenciliğinde önemli yer tutan ve sınıflama modellerinden olan karar ağaçları anlatılmıştır. Ayrıca ağaç tabanlı yöntemlerden olan Random Forests (RF) yöntemi incelenmiş ve periodontoloji bilim dalından elde edilen bir veri seti üzerinde uygulaması yapılmıştır.RF yönteminde, karar ormanını oluşturan karar ağaçları orijinal veri setinden bootstrap yöntemiyle seçilen farklı örneklerden oluşturulmaktadır. Her karar ağacında veri setindeki tüm değişkenlerden rastgele seçilen az sayıda değişken kullanılmaktadır. Her ağaç bir sınıf için oy vermektedir ve orman sınıflayıcısı bütün ağaçların verdiği oyları toplayarak bir sınıf için son tahminini yapmaktadır. Bu özelliği sebebiyle RF yöntemi oldukça başarılı sonuçlar vermektedir.RF yöntemiyle % 95,4 oranında başarılı bir sınıflama yapılmıştır. Oluşturulan karar ormanının hata oranı ise % 3,33 olarak bulunmuştur. Aynı veri seti için Bagging ve CART yöntemi ile de sınıflama yapılmıştır. Bagging yöntemi ile hata oranı % 5,4 , CART yöntemi ile % 8,75 olarak bulunmuştur.RF yöntemi ile, veri setindeki değişken sayısı ve örnek sayısı ne kadar çok olursa olsun genellikle hata oranı düşük sınıflamalar yapılmaktadır. Hata oranının düşüklüğü ise bir topluluk yöntemi olmasından kaynaklanmaktadır. Özelikle çok sayıda değişkenin olduğu DNA veri seti gibi binlerce gen arasından önemli olanları tespit etmek için kullanılabilir. | tr_TR |
dc.identifier.uri | http://hdl.handle.net/20.500.12575/80242 | |
dc.language.iso | tr | tr_TR |
dc.publisher | Sağlık Bilimleri Enstitüsü | tr_TR |
dc.subject | Veri madenciliği | tr_TR |
dc.subject | Sağlık | tr_TR |
dc.title | Veri madenciliğine genel bakış ve Random Forests yönteminin incelenmesi: Sağlık alanında bir uygulama | tr_TR |
dc.title.alternative | An overview of data mining techniques and analysis of Random Forests method: An application on medical field | tr_TR |
dc.type | masterThesis | tr_TR |