SOUDOBÉ TECHNIKY ZJIŠŤOVÁNÍ MULTIKOLINEARITY
24.09.1999 | Odborné konference
v ekonometrických modelech
Recent methods of the detection of multicollinearity in econometric models
Bohumil Kába
Adresa autora:
Katedra statistiky PEF, Česká zemědělská univerzita, 165 21 Praha 6 - Suchdol
e-mail: kaba@pef.czu.cz
Anotace:
Existence multikolinearity může závažným způsobem ovlivnit kvalitu a vypovídací schopnost regresního modelu. Detekce multikolinearity je tedy významnou součástí konstrukce ekonometrického modelu. Daný příspěvek uvádí a stručně charakterizuje některé soudobé techniky zjišťování multikolinearity, jež jsou implementovány v nejrozšířenějších statistických programových paketech (SAS, SPSS).
Summary:
The problem of multicollinearity arises when the independent variables in multiple regression model tend to be correlated among themselves. The results of the regression model with high multicollinearity become unstable and may be confusing and misleading, This paper presents some recent methods for detecting the presence of serious multicollinearity implemented in statistical programme packages SAS and SPSS.
Klíčová slova:
regresní model, vysvětlující proměnná, multikolinearita, detekce multikolinearity
Key words:
regression model, explanatory variable, multicollinearity, detection of multicollinearity
Úvod
Mezi ekonometrickými modely jsou velmi frekventovány vícenásobné lineární regresní modely. Pro jednoznačný odhad vektoru regresních koeficientů takových modelů je nezbytné, aby vysvětlující proměnné byly lineárně nezávislé, tedy aby žádná vysvětlující proměnná nebyla přesnou lineární kombinací ostatních regresorů. Tomuto požadavku lze vždy vyhovět, pokud jsou data získávána na základě plánovaných experimentů. V sociálně ekonomických aplikacích se však obvykle pracuje s daty, jež mají neexperimentální charakter a v takových případech se v regresním modelu téměř vždy vyskytuje jistý stupeň multikolinearity, tzn., že jeho vysvětlující proměnné jsou určitým způsobem korelovány. Takto vzájemně sdružené vysvětlující proměnné poskytují podobnou respektive nadbytečnou informaci a při statistickém zpracování způsobují řadu obtíží, jež narůstají se stupněm (intenzitou) multikolinearity. Závažným problémem je zejména nestabilita odhadů regresních koeficientů, které jsou velmi citlivé i na malé změny v datech a vykazují obvykle vysokou variabilitu. Multikolinearita rovněž komplikuje a někdy zcela znemožňuje identifikaci a vyjádření odděleného působení jednotlivých vysvětlujících proměnných na závisle proměnnou. Vzhledem ke všem právě uvedeným okolnostem je tedy zřejmé, že nezbytnou součástí regresní diagnostiky konkrétního regresního modelu musí být detekce a posouzení závažnosti multikolinearity v daném výběrovém souboru.
Detekce multikolinearity
Pro zjišťování multikolinearity se v odborné literatuře uvádí řada pravidel a doporučení. Za klasický příznak multikolinearity bývá považována vysoká a statisticky významná hodnota koeficientu mnohonásobné determinace a naopak malé, statisticky nevýznamné hodnoty testových statistik pro testování významnosti odhadů jednotlivých regresních koeficientů. Na přítomnost multikolinearity se též často usuzuje z vysokých hodnot párových korelačních koeficientů mezi jednotlivými vysvětlujícími proměnnými, jiný postup je založen na porovnávání hodnot koeficientu mnohonásobné korelace a hodnot parciálních korelačních koeficientů. Vedle těchto jednoduchých pravidel byly pro detekci a posouzení významnosti multikolinearity navrženy i velmi sofistikované postupy (např. Farrarův - Glauberův test), které však někdy bývají založeny na obtížně splnitelných předpokladech.
V moderní statistické metodologii se za velmi efektivní nástroje detekce multikolinearity a zkoumání její intenzity pokládají tzv. VIF - faktory a indexy podmíněnosti korelační matice vysvětlujících proměnných. Jedná se o teoreticky i numericky náročné postupy, které vyžadují užití specializovaného statistického softwaru. V následující části budou stručně prezentovány tyto techniky regresní diagnostiky, implementované ve statistickém programovém systému SAS. (Obdobné diagnostické prostředky pro detekci a určení síly multikolinearity jsou uváděny rovněž v nabídce statistického paketu SPSS.)
Budeme uvažovat klasický lineární regresní model
, (1)
kde:
je vektor n pozorování hodnot vysvětlované proměnné
je matice n x p pozorování hodnot vysvětlujících proměnných
je vektor neznámých regresních koeficientů
je vektor n hodnot náhodné složky (vektor náhodných chyb).
Budeme dále předpokládat, že jsou splněny tyto požadavky:
,
, rozdělení náhodných chyb je normální a matice
je regulární.
Detekce multikolinearity v modelu (1) se ve statistickém programovém systému SAS i v systému SPSS uskutečňuje pomocí tzv. VIF - statistik (Variance Inflation Factor). Tyto statistiky ukazují, jak multikolinearita, přítomná v daném modelu, zvýší variabilitu regresních koeficientů v porovnání s případem, kdy vysvětlující proměnné jsou lineárně nezávislé. VIF - faktor vysvětlující proměnné Xk je definován vztahem:
VIFk =
, k = 1, 2, …, p-1, (2)
kde
je koeficient mnohonásobné determinace mezi regresorem Xk a zbývajícími p - 2 vysvětlujícími proměnnými regresního modelu. Vzhledem k souvislosti koeficientů mnohonásobné determinace
a diagonálních prvků matice
lze VIF - statistiky ekvivalentně definovat jako diagonální prvky matice
.
Ze vzorce (2) je patrné, že existence závažné multikolinearity v regresním modelu se projeví vysokými hodnotami statistiky VIF (pro některé vysvětlující proměnné budou odpovídající hodnoty VIF výrazně větší než 1). I když není exaktně znám rozsah přijatelných hodnot statistiky VIF, ustálilo se pravidlo, že hodnoty VIF > 10 signalizují přítomnost silné multikolinearity vysvětlujících proměnných zařazených v modelu (1). Při detekci multikolinearity prostřednictvím VIF - faktorů je třeba brát v úvahu okolnost, že tyty ukazatele nedokáží rozlišit případné simultánní interkorelační vazby mezi regresory.
Detailnější analýzu zjištěné multikolinearity lze uskutečnit pomocí tzv. indexů podmíněnosti matice
. Uvedené indexy jsou založeny na rozkladu příslušné matice podle jejích vlastních čísel
(i = 1, 2, …, p), která představují velmi efektivní prostředek vyšetřování multikolinearity datové matice. (Připomeňme, že hodnota
se nazývá vlastní číslo matice
, jestliže existuje nenulový vektor
takový, že platí
, viz [2]).
Indexy podmíněnosti
matice XTX jsou zavedeny předpisem
, i = 1, 2, …, p. (3)
Pro hodnocení stupně multikolinearity pak lze užívat této orientační stupnice:
Ţ slabá multikolinearita
Ţ střední multikolinearita
Ţ silná multikolinearita
Informaci, kterou podávají indexy podmíněnosti, lze dále doplnit prostřednictvím ukazatelů Variance Proportion (VarProp), které v množině vysvětlujících proměnných dovolují identifikovat podmnožiny kolineárních (tzn. korelovaných) regresorů. Tyto veličiny (“podíly rozptylu”), které charakterizují podíl vlivu jednotlivých indexů podmíněnosti na rozptyl regresních koeficientů modelu (1), jsou vypočítávány postupně pro všechny vysvětlující proměnné (včetně absolutního členu regresního modelu). Proměnné, jejichž hodnoty VarProp jsou asociované s vysokými hodnotami indexů podmíněnosti (cca 100) a splňují relaci VarProp > 0,5, pak lze interpretovat jako podmnožinu kolineárních proměnných. Protože takové proměnné poskytují duplicitní respektive multiplicitní informaci, je účelné některé z nich z daného regresního modelu vyřadit. Je samozřejmé, že při této eliminaci proměnných je rozhodující věcná analýza daného problému. Jako statistické kriterium pak lze uvést skutečnost, že pro regresní model je nejméně vhodná ta proměnná (ze skupiny kolineárních proměnných), která má nejvyšší p - hodnotu (tzn. vypočtenou hladinu významnosti) pro testování statistické významnosti odpovídajícího regresního koeficientu a má rovněž vysokou hodnotu statistiky VIF.
Závěr
Praktické využití vícenásobného regresního modelu musí být vždy doprovázeno zkoumáním multikolinearity v něm zařazených vysvětlujících proměnných. I když vysoká multikolinearita velmi komplikuje konstrukci a kvantifikaci modelu, nemusí být na závadu, je-li tento model užíván pouze k predikčním účelům. Koeficient mnohonásobné determinace je v případě multikolinearity vysoký a takový model pak může dobře popisovat a aproximovat experimentální data. Negativní důsledky multikolinearity se plně projevují zejména tehdy, je-li cílem regresní analýzy kvalifikovaný odhad regresních koeficientů modelu.
Závěrem je třeba poznamenat, že žádný z postupů zjišťování multikolinearity neřeší problém detekce a charakterizování stupně multikolinearity úplně. Ve všech případech se jedná vždy o aproximativní postupy a jejich volba a použití závisí na konkrétním řešeném problému a pečlivém posouzení vlastností zpracovávaných dat.
Literatura:
1. Belsey D. A., Kuh E., Welsch R.E.: Regression diagnostics: Identifying influential data and sources of collinearity, Wiley, New York 1980
2. Hušek R.: Základy ekonometrické analýzy I., Modely a metody, VŠE, Praha 1997
3. Nečas J. a kol.: Aplikovaná matematika, SNTL, Praha 1977
4. Neter J., Wasserman W., Kutner M. H.: Applied Linear Statistical Models, IRWIN, Homewood 1985
Další články v kategorii Zemědělství
- Kvůli erozi se mají řepa či kukuřice pěstovat na menší ploše. Ale až za rok (14.05.2024)
- Seznam Zprávy: Soud přikázal smazat z webu záběry z chovu kuřat farmy Rabbit (14.05.2024)
- Musíme usilovat o zvyšování společenské prestiže zemědělství jako živitele lidí (14.05.2024)
- Rychlý nástup jara a mrazy zničily sadařům úrodu, ale části zemědělců dává počasí naději. Rozhodne jeho vývoj v květnu a červnu (14.05.2024)
- Nový kombinovaný kypřič FINISHER se představí na Bata Agro v Bulharsku (14.05.2024)
- Další zemědělské protesty budou 22. května v Praze, rozhodly jejich organizace (14.05.2024)
- Hrabošů na polích v dubnu ubylo, riziko poškození porostů ale trvá (13.05.2024)
- Upravená zemědělská politika EU dostala finální zelenou (13.05.2024)
- Výborný: Pěstitelům bez pojištění bude stát krátit kompenzace o polovinu (13.05.2024)
- Jednání francouzských plemen na Statku Lipka (13.05.2024)