UŽITÍ SYSTÉMU SAS VE VÝUCE STATISTICKÝCH KURSŮ NA PEF

UŽITÍ SYSTÉMU SAS VE VÝUCE STATISTICKÝCH KURSů NA PEF

Using SAS system for teaching statistics courses at the faculty of economics and management

Bohumil Kába, Libuše Svatošová

Adresa autorů:

katedra statistiky PEF, Česká zemědělská univerzita, 165 21 Praha 6 - Suchdol

Anotace:

V roce 1997 získala Česká zemědělská univerzita v Praze v rámci grantu Fondu rozvoje vysokých škol licenci na statistický programový systém SAS (Statistical Analysis System). Příspěvek podává informaci o prvních zkušenostech katedry statistiky PEF s využitím statistického paketu SAS ve výuce některých statistických kursů.

Summary:

SAS System, installed at the Czech University of Agriculture in 1997, is a large software package, which provides a wide range of statistical, graphical and report writing facilities. In this article, some basic experiences of the Department of Statistics are presented which give an idea how SAS software is used to support and complement courses in advanced statistics.

Klíčová slova:

statistický paket, statistická procedura, předpoklady použitelnosti statistického modelu

Key words:

statistical package, statistical procedure, model assumptions

Úvod

Nabídka dostupného programového vybavení pro statistickou analýzu dat je v současné době velmi široká a zahrnuje několik set evidovaných statistických programových paketů. Většina z nich se zaměřuje na určitý typ statistického uživatele (např. SPSS se prosazuje zejména v oblasti sociálních věd, BMDP v oblasti biologických respektive lékařských věd, GENSTAT v oblasti zemědělských věd, pro výuku statistických disciplin jsou na různé úrovni užívány tradičně MINITAB, STATGRAPHICS, UNITAB, v poslední době se prosazují STATISTICA, S - PLUS, XploRE a na vybraných vysokých školách v ČR se využívá i systém ADSTAT).

Zcela výlučné postavení mezi všemi disponibilními statistickými pakety má systém SAS. Tento mimořádně rozsáhlý modulární paket byl původně koncipován jako univerzální systém pro statistickou analýzu dat (SAS = Statistical Analysis System). Většina modulů soudobé verze systému SAS však výrazně přesahuje rámec statistických analýz a může být využita pro velmi široký okruh aplikací - např. pro ekonometrickou analýzu a prognózování, finanční plánování, vytváření finančních zpráv, operační výzkum, podporu rozhodování, matematické programování, obecné ekonomické analýzy apod. Zmíněné široké zaměření systému SAS predeterminuje jeho využití nejen v akademických a vědeckovýzkumných institucích, ale zejména též v bankovnictví, pojišťovnictví, poradenských a servisních firmách, obchodních, projekčních a informačních institucích. (Poznamenejme, že SAS Institute eviduje cca 3,5 milionu uživatelů svého programového systému ve více než 120 zemích světa.) Protože mnozí absolventi PEF nacházejí v právě zmíněných oblastech své profesní uplatnění, je velmi žádoucí, aby byli se systémem SAS již během studia seznámeni. Je však třeba zdůraznit, že vzhledem k rozsahu, možnostem a programovatelnosti uživatelských aplikací paketu SAS není kvalifikované zvládnutí práce s ním jednoduché a jeho uživatel se musí dobře orientovat nejen ve standardní statistické metodologii, ale musí mít i jisté programátorské zkušenosti. I když tyto podmínky výrazně omezují edukační využití paketu SAS ve výuce statistiky, ukazuje se, že v některých typech statistických kursů může být SAS velmi efektivním a cenným prostředkem podpory výuky.

Možnosti využití paketu SAS ve specializovaných kurzech statistiky

Základní statistické kursy, tvořící povinnou součást výuky všech inženýrských oborů PEF, jsou orientovány především na:

· elementy teorie pravděpodobnosti

· deskriptivní statistiku

· statistickou analýzu dat z výběrových zjišťování (odhady parametrů vybraných pravděpodobnostních rozdělení, klasické parametrické testy a vybrané neparametrické testy)

· statistické zkoumání závislosti.

Všechny tyto okruhy jsou na plně vyhovující úrovni zařazeny v nabídce statistického paketu STATGRAPHICS (základního statistického softwaru užívaného ve výuce na PEF), jenž je pro studenty, kteří se teprve začínají seznamovat se statistickou metodologií, uživatelsky mnohem příjemnější než obsažnější, ale těžkopádnější, nestandardně ovládaný a množstvím poskytovaných informací i poněkud zavádějící systém SAS.

Zcela jiná situace je u specializovaných volitelných kursů (většinou na studijním oboru “Informatika” ), jež si zapisují posluchači s dobrou informatickou i statistickou průpravou. Tyto kurzy se zaměřují na pokročilejší statistickou metodologii - vícerozměrné statistické metody, statistické modelování, metody explorační statistické analýzy a metody analýzy časových řad. Zkušenosti katedry statistiky PEF ukazují, že výklad zmíněných tématických celků může být velmi efektivně doplňován, prohlouben - s akcentem na teoretická respektive filozofická východiska jednotlivých statistických procedur a názorně ilustrován na reálných příkladech, je-li výuka podporována adekvátními statistickými moduly paketu SAS. Ve zmíněném servisním respektive podpůrném využití paketu SAS plně vyniknou jeho silné stránky, z nichž je účelné zmínit alespoň:

· dokonalý “data management”

· velmi rozsáhlý okruh nabízených statistických procedur, jenž je neustále revidován, inovován a doplňován - zejména o robustní statistické postupy, které dovolují adekvátnější analýzu reality a nejsou svázány některými omezujícími předpoklady použitelnosti klasických statistických postupů

· vynikající a nápaditou grafiku, která se uplatňuje zejména v postupech průzkumové analýzy dat i při vizuálním ověřování kvality odhadnutých statistických modelů

· nabídku moderních velmi sofistikovaných technologií zpracování dat (např. technologie “Data Mining”, která může být interpretována jako počítačově automatizovaná průzkumová analýza velmi rozsáhlých datových souborů

· soustavný akcent na dodržení předpokladů použitelnosti všech nabízených statistických metod, jež jsou neustále ověřovány a kontrolovány a v případě jejich nesplnění jsou automaticky nabízena některá nápravná opatření (transformace dat apod.)

· rozsáhlou nabídku programátorských nástrojů (včetně samostatného programovacího jazyka), která dovoluje vývoj vlastních uživatelských aplikací a rozšíření systému o nové procedury a funkce (systém SAS je tedy velmi vhodný pro zpracování disertačních případně i diplomových prací, jejichž autoři se nemusí omezovat na klasickou matematickou statistiku, ale mohou si vytvářet i velmi nestandardní vlastní aplikace).

Pro ilustraci právě zmíněných vlastností paketu SAS porovnejme tento systém (konkrétně jeho modul SAS/LAB) s paketem STATGRAPHICS z hlediska velmi frekventované statistické procedury, jakou je jednoduchá regrese. Základní výstupní tabulka v případě jednoduché lineární regrese je u obou paketů velmi podobná a obsahuje odhady parametrů výběrové regresní přímky, testová kriteria pro posouzení jejich statistické významnosti a vypočtené hladiny významnosti (Probability Levels), umožňující alternativní ověření jejich statistické významnosti. Dále jsou prezentovány příslušné korelační charakteristiky a tabulka analýzy rozptylu, dovolující globální posouzení vhodnosti odhadnutého regresního modelu. STATGRAPHICS však již explicitně nenabízí detekci a identifikaci odlehlých respektive extrémních pozorování v analyzovaném datovém souboru. Ta může být realizována pouze orientačně vizuálním posouzením grafu reziduí, jestliže v nabídce doplňkového menu zvolíme variantu Plot Residuals. Komplexnější avšak nedokončenou detekci odlehlých pozorování lze uskutečnit vyvoláním procedury Multiple Regression a volbou varianty Influence Measures v doplňkovém menu.

Mnohem úplněji a pohodlněji lze regresní diagnostiku (tedy posouzení vhodnosti zvoleného regresního modelu) realizovat pomocí systému SAS. Modul SAS/LAB automaticky prostřednictvím studentizovaných reziduí identifikuje potenciální odlehlá pozorování, otestuje jejich statistickou významnost, explicitně tento výsledek uvede a komentuje jak u numerických tak u grafických výstupů. V další fázi doporučí kontrolu správnosti nalezených odlehlých pozorování (outliers) a navrhne možná nápravná opatření pro zlepšení kvality modelu:

· posouzení nelineárního regresního modelu

· vhodnou transformaci dat

· eventuální vyloučení nalezených odlehlých pozorování.

Podobně vyznívá srovnání obou statistických paketů u jiné velmi frekventované procedury - analýzy rozptylu (ANOVA). Tradiční výstupní tabulka analýzy rozptylu je velmi podobná a totéž platí i pro následné postupy mnohonásobného porovnávání. Kontrolu homogenity rozptylů porovnávaných souborů, jež je hlavním předpokladem korektního použití analýzy rozptylu, ponechává STATGRAPHICS na invenci uživatele a realizaci této kontroly nabízí v doplňkovém menu (nabídka Variance Check) prostřednictvím Cochranova, Bartlettova a Hartleyova testu. Tyto testy jsou však asymptotické a navíc velmi citlivé na odchylky od normality porovnávaných souborů. Paket SAS (modul SAS/LAB) ověřuje homogenitu rozptylů pomocí robustního Leveneova testu. Pokud tento test prokáže neudržitelnost předpokladu homogenity rozptylů, je na tuto skutečnost uživatel explicitně upozorněn varovným hlášením a SAS místo standardní analýzy rozptylu uskuteční tzv. Welchův test (ve výstupní tabulce je uveden jako ANOVA Weighted for Unequal Variances). Pro pohodlí uživatele jsou výstupy všech procedur doplňovány krátkým komentářem, jak interpretovat dosažené výsledky.

Tak rozsáhlý statistický paket jakým je SAS se pochopitelně nevyvaruje některých nedostatků a problémů. Jedná se např. o zbytečná duplicitní i multiplicitní zařazování deskriptivních i analytických postupů v různých procedurách. Pro systém SAS je typické, že jeho výstupy bývají obsáhlé a prezentují někdy až nadbytek informací, jež mohou být pro dané analýzy irelevantní a méně zkušený uživatel se v nich velmi obtížně orientuje. Zavádějící mohou někdy být doprovodné komentáře, interpretující dosažené výsledky. Jistým problémem mohou být rovněž manuály a různé dokumentační materiály systému SAS. Ty sice velmi detailním způsobem popisují jednotlivé moduly paketu SAS a v nich zařazené procedury, rozsah a množství těchto materiálů jsou však skutečně ohromující a jejich detailní zvládnutí je pro běžného uživatele prakticky nemožné. Nevýhodou těchto manuálů je rovněž skutečnost, že se poněkud jednostranně soustřeďují především na technické otázky spojené s ovládáním systému.

Závěr

Systém SAS nesporně představuje špičkovou technologii zpracování statistických datových souborů a plným právem může být charakterizován jako “produkt budoucnosti”. V akademických a vědeckovýzkumných institucích všech vyspělých zemí je považován za jistý standard z hlediska statistické i numerické kvality a je běžně využíván pro referenční účely. Vzhledem k těmto okolnostem i vzhledem k výše zmíněnému širokému okruhu praktické využitelnosti systému SAS je velmi cenné, že posluchači respektive postgraduanti PEF mají možnost se s tímto produktem během svého studia seznámit a zvládnout základy práce s ním.

I když systém SAS nebyl koncipován pro pedagogické účely, nabízí jeho architektura a výstavba některé zajímavé možnosti didaktického využití pro podporu výuky statistiky ve specializovaných (volitelných) kursech. Tyto možnosti byly na dílčích příkladech v příspěvku prezentovány. Začátečníci (ale nejen oni) při práci se statistickým softwarem často chybují tím, že jej používají zcela mechanicky, rutinně a mnohdy nekvalifikovaně či necitlivě. Autoři statistických paketů tomu čelí tím, že do svých produktů zařazují různé diagnostické prostředky a postupy, umožňující identifikovat a posoudit kvalitu dat pro zvolený model respektive kvalitu modelu pro disponibilní data. Okruh těchto diagnostických prostředků, implementovaných v systému SAS, je ve srovnání s jinými statistickými pakety mnohem širší a tvoří logicky uspořádanou sekvenci postupů, nabízených a prezentovaných velmi nápaditě a aktivně. V řadě případů jsou automaticky doplňovány o návrhy nápravných opatření a způsobů řešení zjištěných nedostatků ve zpracovávaných datech či narušení předpokladů použitelnosti zvolených statistických modelů. Pedagogické zkušenosti katedry statistiky naznačují, že posluchačům tato filozofie systému SAS vyhovuje a pomáhá jim efektivněji a trvaleji zvládnout korektní metodiku statistické práce.

Literatura:

Uživatelské manuály firmy SAS Institute Inc. (SAS/ASSIST, SAS/LAB), Cary, NC, USA, 1995

Tisk

Další články v kategorii Zemědělství

Agris Online

Agris Online

Agris on-line
Papers in Economics and Informatics


Kalendář


Podporujeme utipa.info