SOUDOBÉ TECHNIKY ZJIŠŤOVÁNÍ MULTIKOLINEARITY

24.09.1999 | Odborné konference

v ekonometrických modelech

Recent methods of the detection of multicollinearity in econometric models

Bohumil Kába

Adresa autora:

Katedra statistiky PEF, Česká zemědělská univerzita, 165 21 Praha 6 - Suchdol

Anotace:

Existence multikolinearity může závažným způsobem ovlivnit kvalitu a vypovídací schopnost regresního modelu. Detekce multikolinearity je tedy významnou součástí konstrukce ekonometrického modelu. Daný příspěvek uvádí a stručně charakterizuje některé soudobé techniky zjišťování multikolinearity, jež jsou implementovány v nejrozšířenějších statistických programových paketech (SAS, SPSS).

Summary:

The problem of multicollinearity arises when the independent variables in multiple regression model tend to be correlated among themselves. The results of the regression model with high multicollinearity become unstable and may be confusing and misleading, This paper presents some recent methods for detecting the presence of serious multicollinearity implemented in statistical programme packages SAS and SPSS.

Klíčová slova:

regresní model, vysvětlující proměnná, multikolinearita, detekce multikolinearity

Key words:

regression model, explanatory variable, multicollinearity, detection of multicollinearity

Úvod

Mezi ekonometrickými modely jsou velmi frekventovány vícenásobné lineární regresní modely. Pro jednoznačný odhad vektoru regresních koeficientů takových modelů je nezbytné, aby vysvětlující proměnné byly lineárně nezávislé, tedy aby žádná vysvětlující proměnná nebyla přesnou lineární kombinací ostatních regresorů. Tomuto požadavku lze vždy vyhovět, pokud jsou data získávána na základě plánovaných experimentů. V sociálně ekonomických aplikacích se však obvykle pracuje s daty, jež mají neexperimentální charakter a v takových případech se v regresním modelu téměř vždy vyskytuje jistý stupeň multikolinearity, tzn., že jeho vysvětlující proměnné jsou určitým způsobem korelovány. Takto vzájemně sdružené vysvětlující proměnné poskytují podobnou respektive nadbytečnou informaci a při statistickém zpracování způsobují řadu obtíží, jež narůstají se stupněm (intenzitou) multikolinearity. Závažným problémem je zejména nestabilita odhadů regresních koeficientů, které jsou velmi citlivé i na malé změny v datech a vykazují obvykle vysokou variabilitu. Multikolinearita rovněž komplikuje a někdy zcela znemožňuje identifikaci a vyjádření odděleného působení jednotlivých vysvětlujících proměnných na závisle proměnnou. Vzhledem ke všem právě uvedeným okolnostem je tedy zřejmé, že nezbytnou součástí regresní diagnostiky konkrétního regresního modelu musí být detekce a posouzení závažnosti multikolinearity v daném výběrovém souboru.

Detekce multikolinearity

Pro zjišťování multikolinearity se v odborné literatuře uvádí řada pravidel a doporučení. Za klasický příznak multikolinearity bývá považována vysoká a statisticky významná hodnota koeficientu mnohonásobné determinace a naopak malé, statisticky nevýznamné hodnoty testových statistik pro testování významnosti odhadů jednotlivých regresních koeficientů. Na přítomnost multikolinearity se též často usuzuje z vysokých hodnot párových korelačních koeficientů mezi jednotlivými vysvětlujícími proměnnými, jiný postup je založen na porovnávání hodnot koeficientu mnohonásobné korelace a hodnot parciálních korelačních koeficientů. Vedle těchto jednoduchých pravidel byly pro detekci a posouzení významnosti multikolinearity navrženy i velmi sofistikované postupy (např. Farrarův - Glauberův test), které však někdy bývají založeny na obtížně splnitelných předpokladech.

V moderní statistické metodologii se za velmi efektivní nástroje detekce multikolinearity a zkoumání její intenzity pokládají tzv. VIF - faktory a indexy podmíněnosti korelační matice vysvětlujících proměnných. Jedná se o teoreticky i numericky náročné postupy, které vyžadují užití specializovaného statistického softwaru. V následující části budou stručně prezentovány tyto techniky regresní diagnostiky, implementované ve statistickém programovém systému SAS. (Obdobné diagnostické prostředky pro detekci a určení síly multikolinearity jsou uváděny rovněž v nabídce statistického paketu SPSS.)

Budeme uvažovat klasický lineární regresní model

, (1)

kde:

je vektor n pozorování hodnot vysvětlované proměnné

je matice n x p pozorování hodnot vysvětlujících proměnných

je vektor neznámých regresních koeficientů

je vektor n hodnot náhodné složky (vektor náhodných chyb).

Budeme dále předpokládat, že jsou splněny tyto požadavky:

, rozdělení náhodných chyb je normální a matice

je regulární.

Detekce multikolinearity v modelu (1) se ve statistickém programovém systému SAS i v systému SPSS uskutečňuje pomocí tzv. VIF - statistik (Variance Inflation Factor). Tyto statistiky ukazují, jak multikolinearita, přítomná v daném modelu, zvýší variabilitu regresních koeficientů v porovnání s případem, kdy vysvětlující proměnné jsou lineárně nezávislé. VIF - faktor vysvětlující proměnné Xk je definován vztahem:

VIFk =

, k = 1, 2, …, p-1, (2)

kde

je koeficient mnohonásobné determinace mezi regresorem Xk a zbývajícími p - 2 vysvětlujícími proměnnými regresního modelu. Vzhledem k souvislosti koeficientů mnohonásobné determinace

a diagonálních prvků matice

lze VIF - statistiky ekvivalentně definovat jako diagonální prvky matice

Ze vzorce (2) je patrné, že existence závažné multikolinearity v regresním modelu se projeví vysokými hodnotami statistiky VIF (pro některé vysvětlující proměnné budou odpovídající hodnoty VIF výrazně větší než 1). I když není exaktně znám rozsah přijatelných hodnot statistiky VIF, ustálilo se pravidlo, že hodnoty VIF > 10 signalizují přítomnost silné multikolinearity vysvětlujících proměnných zařazených v modelu (1). Při detekci multikolinearity prostřednictvím VIF - faktorů je třeba brát v úvahu okolnost, že tyty ukazatele nedokáží rozlišit případné simultánní interkorelační vazby mezi regresory.

Detailnější analýzu zjištěné multikolinearity lze uskutečnit pomocí tzv. indexů podmíněnosti matice

. Uvedené indexy jsou založeny na rozkladu příslušné matice podle jejích vlastních čísel

(i = 1, 2, …, p), která představují velmi efektivní prostředek vyšetřování multikolinearity datové matice. (Připomeňme, že hodnota

se nazývá vlastní číslo matice

, jestliže existuje nenulový vektor

takový, že platí

, viz [2]).

Indexy podmíněnosti

matice XTX jsou zavedeny předpisem

, i = 1, 2, …, p. (3)

Pro hodnocení stupně multikolinearity pak lze užívat této orientační stupnice:

Ţ slabá multikolinearita

Ţ střední multikolinearita

Ţ silná multikolinearita

Informaci, kterou podávají indexy podmíněnosti, lze dále doplnit prostřednictvím ukazatelů Variance Proportion (VarProp), které v množině vysvětlujících proměnných dovolují identifikovat podmnožiny kolineárních (tzn. korelovaných) regresorů. Tyto veličiny (“podíly rozptylu”), které charakterizují podíl vlivu jednotlivých indexů podmíněnosti na rozptyl regresních koeficientů modelu (1), jsou vypočítávány postupně pro všechny vysvětlující proměnné (včetně absolutního členu regresního modelu). Proměnné, jejichž hodnoty VarProp jsou asociované s vysokými hodnotami indexů podmíněnosti (cca 100) a splňují relaci VarProp > 0,5, pak lze interpretovat jako podmnožinu kolineárních proměnných. Protože takové proměnné poskytují duplicitní respektive multiplicitní informaci, je účelné některé z nich z daného regresního modelu vyřadit. Je samozřejmé, že při této eliminaci proměnných je rozhodující věcná analýza daného problému. Jako statistické kriterium pak lze uvést skutečnost, že pro regresní model je nejméně vhodná ta proměnná (ze skupiny kolineárních proměnných), která má nejvyšší p - hodnotu (tzn. vypočtenou hladinu významnosti) pro testování statistické významnosti odpovídajícího regresního koeficientu a má rovněž vysokou hodnotu statistiky VIF.

Závěr

Praktické využití vícenásobného regresního modelu musí být vždy doprovázeno zkoumáním multikolinearity v něm zařazených vysvětlujících proměnných. I když vysoká multikolinearita velmi komplikuje konstrukci a kvantifikaci modelu, nemusí být na závadu, je-li tento model užíván pouze k predikčním účelům. Koeficient mnohonásobné determinace je v případě multikolinearity vysoký a takový model pak může dobře popisovat a aproximovat experimentální data. Negativní důsledky multikolinearity se plně projevují zejména tehdy, je-li cílem regresní analýzy kvalifikovaný odhad regresních koeficientů modelu.

Závěrem je třeba poznamenat, že žádný z postupů zjišťování multikolinearity neřeší problém detekce a charakterizování stupně multikolinearity úplně. Ve všech případech se jedná vždy o aproximativní postupy a jejich volba a použití závisí na konkrétním řešeném problému a pečlivém posouzení vlastností zpracovávaných dat.

Literatura:

1. Belsey D. A., Kuh E., Welsch R.E.: Regression diagnostics: Identifying influential data and sources of collinearity, Wiley, New York 1980

2. Hušek R.: Základy ekonometrické analýzy I., Modely a metody, VŠE, Praha 1997

3. Nečas J. a kol.: Aplikovaná matematika, SNTL, Praha 1977

4. Neter J., Wasserman W., Kutner M. H.: Applied Linear Statistical Models, IRWIN, Homewood 1985

Tisk