Randomize olmayan klinik çalışmalarda en uygun eşleştirme analizi için makine öğrenme algoritmaları ile yeni propensity skor tahmin modellerinin geliştirilmesi
dc.contributor.advisor | Köse, Serdal Kenan | |
dc.contributor.author | Demir, Emre | |
dc.contributor.department | Biyoistatistik | tr_TR |
dc.date.accessioned | 2023-12-26T13:08:15Z | |
dc.date.available | 2023-12-26T13:08:15Z | |
dc.date.issued | 2019 | |
dc.description.abstract | Randomizasyonun yapılamadığı gözlemsel araştırmalarda, tedavi ve kontrol grupları arasında araştırma öncesinde birçok ortak değişken veya faktöre göre farklılıklar bulunabilir. Gruplar araştırılan etken dışında diğer özellikler açısından homojen olmadığında saf tedavi etkisi kestirilemeyecek ve yanlı tahminlere ulaşılacaktır. Gözlemsel araştırmalarda tedavi etkisinin yansız tahminlerini elde etmek ve karıştırıcı (confounder) değişkenlerin etkisini gidermek için literatürde yaygın olarak Lojistik Regresyon (LR) ile hesaplanan Propensity skor (PS) tahminine dayalı eşleştirme analizi kullanılmaktadır. Bu çalışmada tedavi grupları ile ortak değişkenler arasında ana etkiler dışında etkileşim etkilerinin ve doğrusal olmayan ilişkilerin bulunduğu modellerde PS tahmini için klasik yöntem olan LR'ye alternatif olarak makine öğrenme yöntemleri (genelleştirilmiş boosted modeller, sınıflandırma ve regresyon ağaçları, destek vektör makineleri ve yapay sinir ağları vb.) ve bazı yaygın kullanılan yöntemlerin (bayesci genelleştirilmiş doğrusal modeller, kuadratik diskriminant analizi ve adımsal akaike bilgi kriteri vb.) başarısını benzetim çalışması ile değerlendirmek suretiyle yeni bir kombine tahminci model geliştirmek amaçlanmıştır. Bu amaçla gerçekleştirilen birinci benzetim çalışmasında sadece ana etkilerin bulunduğu modelde LR ile hesaplanan PS değerleri ile en uyumlu sonuç veren ilk üç algoritma 500 ve 1000 örneklem büyüklüğü için sırasıyla BAYESGLM, GLMNET ve GAM olarak bulunmuştur. Sadece temel etkilerin olduğu birinci benzetim senaryosunda LR ile rekabet edebilen ve etkileşim ve kuadratik ilişkilerin olduğu daha karmaşık ikinci ve üçüncü benzetim senaryosunda da LR'den daha başarılı olan 1000 örneklem büyüklüğünde KSVM, NNET, DBARTS, QDA, EARTH, STEPAIC ve 500 örneklem büyüklüğünde NNET, QDA, EARTH ve STEPAIC algoritmaları PS tahmininde üstün algoritmalar olarak belirlenmiştir. LR ile birlikte bu algoritmalar kullanılarak oluşturulan yeni kombine PS tahmin modelleri ile yapılan üç farklı benzetim senaryosu sonucunda model zorluluk derecesi arttıkça LR ile elde edilen tahminlerde yanlılık değerinin arttığı görülmüştür. Özellikle karmaşık modellerde kombine tahminci ile LR sonuçları arasında büyük yanlılık farkı bulunması kombine tahmincinin veya KSVM, NNET, DBARTS, QDA, EARTH ve STEPAIC algoritmalarının LR'ye alternatif veya daha başarılı algoritma olarak PS tahmininde kullanılabileceğini göstermiştir. Ayrıca gerçek veri ile yapılan uygulama sonuçları da tez hipotezini desteklemiştir. PS vaka ve kontrol grubundaki bireylerin sahip olduğu karıştırıcı değişken özelliklerine göre elde edilen bir özet istatistiktir. Bu yüzden vaka veya kontrol grubuna atanma olasılığı ile ortak değişkenler arasında doğrusal olmayan ilişkiler veya etkileşimlerin bulunduğu modellerde LR yöntemiyle PS hesaplanması durumunda yanlı tahminler elde edilmiş olacaktır. Elde ettiğimiz sonuçlara göre gözlemsel çalışmalarda LR'ye ek olarak başarılı bulunan ML algoritmaları veya diğer algoritmaların da PS hesaplanmasında kullanılarak denge değerlendirmesinin yapılması önerilebilir. Parametrik yöntemler (LR) deney gruplarına atanma olasılığı ile ortak değişkenler arasındaki ilişkinin fonksiyonel yapısı ile ilgili varsayımlar gerektirir. PS hesabı için modelin yanlış belirlenmesi tedavi etkisinin yanlı tahminlerine sebep olabilmektedir. Modelde sadece temel etkiler olduğunda LR ile dengeli eşleştirme analizi gerçekleştirilmekte ve buna dayalı olarak yansız tahminlere ulaşılmaktadır. Ancak tedavi veya kontrol grubuna atanma olasılığı ile ortak değişkenler/farktörler arasında etkileşim etkileri ve/veya kuadratik ilişkiler bulunan modeller için ML yöntemleri ve kombine tahminciler ile daha dengeli ve yansız tahminler elde edilmiştir. Bu çalışma sonucunda araştırmacılara bu modellerin denenmesi önerilmektedir. ML yöntemlerinde doğrusallık veya etkileşimler incelenmeden doğrudan ortak değişkenler seçilerek skorlar hesaplanabilmektedir. PS hesaplamak ve gruplar arası dengeyi değerlendirebilmek için son yıllarda kullanımı artmaya başlayan ML yaklaşımlarının gözlemsel çalışmaların güvenirliğini arttıracağı düşünülmektedir. | tr_TR |
dc.description.ozet | In observational studies in which randomisation cannot be performed, there may be differences between treatment and control groups according to many covariates or factors prior the research. When the groups are not homogeneous in terms of other characteristics beside the investigated factors, pure treatment effect cannot be predicted, which will cause biased estimates. In observational studies, matching analysis based on Propensity Score (PS) estimation calculated by Logistic Regression (LR) is widely used in the literature in order to obtain unbiased estimates of the treatment effect and to eliminate the influence of confounding variables. This study aims to develop a new combined predictor model by evaluating success of machine learning methods (generalized boosted models, classification and regression trees, support vector machines, artificial neural networks etc.) and some commonly used methods (Bayesian generalized linear models, quadratic discriminant analysis, stepwise akaike information criterion, etc.) with simulation studies as an alternative to logistic regression which is the classical method for PS estimation in the models with interaction effects and nonlinear relations. In the first simulation studies having 500 and 1000 sample size, the first three algorithms showing best agreement with the PS values calculated with LR were found as BAYESGLM, GLMNET and GAM respectively in the model having only the main effects. KSVM, NNET, DBARTS, QDA, EARTH, STEPAIC algorithms and NNET, QDA, EARTH and STEPAIC algorithms, which are more successful than LR in the more complex second and third simulation scenarios formed, which can compete with LR in the first simulation scenario with only basic effects, were determined as superior algorithms in PS estimation for sample size of 1000 and 500 respectively. As a result of three different simulation scenarios formed with new combined PS estimation models using LR together with these algorithms, the value of bias was found to increase in the estimates obtained through LR. Especially in complex models, the difference between the combined estimator model and the LR results showed that the combined estimator or the KSVM, NNET, DBARTS, QDA, EARTH and STEPAIC algorithms could be used to estimate PS as an alternative or more successful algorithm to LR. In addition, the application results with real data supported the hypothesis of the thesis. PS is a summary statistics obtained according to the covariate variable characteristics of subjects in the case and control group. Therefore, if there are nonlinear relationships or interactions between the covariates and the probability of being assigned to the case or control group, biased predictions will be obtained in the cases of calculating PS by LR method. According to the results obtained in this study, in addition to LR, it can be suggested to perform a balance assessment using ML algorithms or other algorithms in calculating PS in observational studies. Parametric methods (LR) require assumptions about the functional structure of the relationship between the probability of being assigned to experimental groups and the covariates. Incorrect determination of the model for a propensity score calculation may lead to biased estimation of treatment effect. When there are only basic effects in the model, balanced matching analysis with LR is performed and unbiased estimations are achieved. However, more balanced and unbiased estimates were obtained with the ML methods and combined estimators in the models with interaction effects and/or quadratic relations between the probability of being assigned to the treatment or control groups and the covariates/factors. As a result of this study, researchers are recommended to try these models. In ML methods, the scores can be calculated by directly selecting covariates without examining linearity and interactions. It is thought that the reliability of observational studies will increase with the use of ML approaches that have started to increase in recent years in order to calculate PS and to evaluate the balance between groups. | tr_TR |
dc.identifier.uri | http://hdl.handle.net/20.500.12575/90049 | |
dc.language.iso | tr | tr_TR |
dc.publisher | Sağlık Bilimleri Enstitüsü | tr_TR |
dc.subject | Algoritmalar | tr_TR |
dc.subject | Eşleştirme | tr_TR |
dc.subject | Makine öğrenmesi | tr_TR |
dc.title | Randomize olmayan klinik çalışmalarda en uygun eşleştirme analizi için makine öğrenme algoritmaları ile yeni propensity skor tahmin modellerinin geliştirilmesi | tr_TR |
dc.title.alternative | Development of new propensity score estimation models with machine learning algorithms for optimal matching analysis in non-randomized clinical trials | tr_TR |
dc.type | doctoralThesis | tr_TR |