ÇOKLU LİNEER REGRESYONDA EN İYİ MODEL SEÇİMİ

Selection Of The Best Model In Multiple Linear Regression

Pelin İYİ                                                                                    Hamza EROL
İstatistik Anabilim Dalı                                                              İstatistik Anabilim Dalı

ÖZET
            Çoklu lineer regresyon modelinde açıklayıcı değişken ya da regresör sayısının az olması durumunda en iyi regresyon modelinin seçimi için klasik yöntem veya adımsal yöntemler uygulanır. En iyi modelin seçiminde iki amaç vardır. Birincisi, oluşturulan modelin olası tüm regresörleri içermesi istenir. Böylece bu etkenlerdeki bilgi içeriği oluşturulan yanıt değerlerini etkiler. İkincisi, oluşturulan modelin en az sayıda regresör içermesi istenir. Çünkü oluşturulan yanıt değerlerinin varyansı, regresör sayılarının artışıyla artar. Ayrıca modeldeki regresör sayısının artması daha fazla veri toplama demektir. Bu da işlem için gereken süreyi ve maliyeti arttırır. Bu iki amaç arasındaki uzlaşma olan bir model oluşturma işlemine “en iyi” regresyon modelini ya da denklemini seçme denir. En iyinin tek bir açıklaması yoktur. Ayrıca değişken seçimi için uygulanan birçok yöntem vardır. Bu yöntemler, çoğu kez aday regresörlerin farklı alt kümelerini en iyi olarak belirtirler. Bu çalışmada en iyi regresyon modelini oluşturmak için bu yöntemler karşılaştırılacaktır.
Anahtar kelimeler: Bilgi kriteri, Çoklu lineer regresyon, Genetik algoritma, Model seçimi.

ABSTRACT
Traditional method or stepwise methods applied for selection of the best model in multiple linear regression model with less number of explanatory variables or regressors. There are two purposes in model selection in multiple linear regression. First, it is expected that the fitted model includes all possible regressors in the regression model so that the information contents of the regressors effects the response values of the fitted model. Second, it is wanted that the fitted model includes minimum number of regressors in the regression model since the variance for the values of fitted model increases as the number of regressors increases. Morever increase in the number of regressors means more data collection. More data collection leads increase in process time and increase in process costs. The agreement between these two purposes is called as the selection of the best regression model. There is no unique explanation of the word the best. There are many methods for variable selection in multiple regression model. These methods gives different subsets of the candidate variables as the best model. In this study, the traditional method and stepwise methods applied for selection of the best model will be compared.
Key words: Information criterion, Multiple linear regression, Genetic algorithm, Model selection.