Hücresel aykırı gözlem olması durumunda sağlam tahmin yöntemleri ile istatistiksel veri analizi

No Thumbnail Available

Date

2023

Journal Title

Journal ISSN

Volume Title

Publisher

Ankara Üniversitesi

Abstract

Bu çalışmanın genel amacı, çok değişkenli veri setinde hücresel aykırı değer olması durumda bu gözlemlerden daha az etkilenecek sağlam istatistiksel yöntemler kullanarak yerine değer atama (imputasyon) yöntemlerinin incelemesidir. Literatürde karşılaşılan aykırı değer ve kayıp veri kavramlarından bahsedilmiştir. Tek ve çok değişkenli durumunda aykırı değer problemlerinde kullanılan sağlam yöntemler incelenmiştir. Çok değişkenli veri setinde, hücresel ve satırsal aykırı değer problemleri genelde bir arada ya da sadece satırsal olduğu durumlarda yapılan çok sayıda çalışma mevcut iken, sadece hücresel aykırı değer durumunda kullanılan sağlam yöntemler için az sayıda araştırmayla karşılaşılmıştır. Çalışmada çok değişkenli veri setinde sadece hücresel aykırı değer varlığında karşılaşılan problem ele alınmıştır. Kayıp veriyi ve aykırı değeri eş zamanlı aynı veri setinde değerlendirebilmek için, çok değişkenli veri setinde kayıp veri durumunda karşılaşılan problem, hücresel aykırı değer gibi değerlendirilmiştir. Uygulamada IWGPS kuruluşları tarafından kayıp veri durumunda TÜFE hesaplamalarında kullanılan imputasyon yöntemleri ele alınmıştır. Teknolojik cihazların yaygınlaşmasıyla, istatistik ofislerinin veri derleme araçlarına uyarlanabilecek şekilde, anında alandan veri derleme ve istatistik üretme talebine uygun yöntemler önerilmiştir. Önerilen yöntemlerin imputasyon sonuçları, IWGPS kuruluşlarınca kullanılan yöntem sonuçlarıyla ve istatistiksel programlama dilindeki hücresel aykırı değer ve kayıp veri imputasyon sonuçlarıyla karşılaştırılmıştır. Önerilen yöntemler arasında i_müd19 sonuçları, sağlam aykırı değer imputasyon sonuçlarına benzerlik göstermiştir. Tüm dünyada TÜFE hesaplamasında kullanılan ve istatistiklerden üretilen imputasyon araçlarına yardımcı olması için önerilen i_müd19'un, tüm kullanıcılara kolaylık sağlaması amaçlanmıştır ve başka panel veri türü çalışmalarda veri yapısına göre uyarlanabilirdir. Çok değişkenli veri setinde hem hücresel aykırı değer hem de kayıp veri durumu için ortak bir ağırlıklı imputasyon yöntemi olarak da önerilmektedir. The general aim of this study is to examine the methods of assigning values using robust statistical methods that will be less affected by these observations in the case of cellwise outliers in the multivariate dataset. The concepts of outlier and missing data encountered in the literature are mentioned. Robust methods used in outlier problems in the case of univariate and multivariate are examined. In the multivariate dataset, there are many studies conducted in cases where cellwise and casewise outlier problems are generally together or only casewise, while there are few studies have been encountered for a robust method used for imputation only in the case of a cellwise outlier. In the study, the problem encountered only in the presence of cellwise outliers in the multivariate dataset is discussed. In order to be able to evaluate missing data and outlier simultaneously in the same data set, the problem encountered in the case of missing data in the multivariate data set is evaluated as a cellwise outlier. In practice, imputation methods used by IWGPS organizations in CPI calculations in case of missing data are discussed. With the widespread use of technological devices, methods suitable for the demand of collecting data and producing statistics from the field immediately, in a way that can be adapted to the data collection tools of statistics offices have been proposed. The imputation results of the proposed methods are compared with the method results used by the IWGPS organizations and imputation results of cellwise outlier and missing data in the statistical programming language. Among the proposed methods, i_müd19 results were similar to the results of robust outlier imputation. The i_müd19 proposed to assist the imputation tools used in CPI calculation all over the world and produced from statistics is intended to provide convenience to all users and can be adapted according to the data structure in other panel data type studies. It is also suggested as a common weighted imputation method for both cellwise outlier and missing data case in multivariate dataset.

Description

Keywords

Atama yöntemi, Aykırı değerler, Gürbüz kestirim

Citation