abc Matlab - elektronski priručnik
III dio Matematika u Matlabu - 3.4. Vjerovatnoća i statistika

3.4.1. Uvod

Očigledno, računarska statistika je srodna tradicionalnoj disciplini statistike. Zato, prije nego što definišemo računarsku statistiku, potrebno je razjasniti šta se podrazumijeva pod oblašću koja se naziva statistika. Na najosnovnijem nivou, statistika se bavi transformacijom sirovih podataka u znanje.
Kada se suoči sa analizom sirovih podataka, svaki istraživač mora naći odgovore na sljedeća pitanja:
• Koji podaci se moraju prikupiti da bi se dobili odgovori na pitanja u analizi?
• Koliko podataka se mora prikupiti?
• Koji se zaključci mogu izvući iz podataka?
• Do kojeg stepena se može vjerovati tim zaključcima
Statistika je nauka o neodređenostima i može pomoći istraživaču da se suočava sa takvim pitanjima. Mnogi klasični metodi statistike (regresija, testiranje hipoteza, parametarska estimacija, intervali povjerenja, itd.) razvijeni tokom prošlog stoljeća su poznati istraživačima i u širokoj su upotrebi u mnogim disciplinama.
Dakle, šta se podrazumijeva pod računarskom statistikom? Ona se danas definiše kao kolekcija tehnika koje imaju snažan fokus na eksploataciji računarstva prilikom kreiranja novih statističkih metodologija.
Mnoge od ovih metodologija su postale provedive nakon razvoja jeftinog računarskog hardvera počev od 1980-ih. Ova računarska revolucija je omogućila naučnicima i inženjerima da čuvaju i procesiraju ogromne količine podataka. Međutim, ovi podaci su obično sakupljani bez jasne ideje o tome u kakvim će proučavanjima biti korišteni. Na primjer, u savremenoj praksi analize podataka, često se prvo sakupljaju podaci, a zatim projektuju studije da bi se iz tih podataka dobile neke korisne informacije. Nasuprot tome, tradicionalni pristup je bio da se prvo projektuju studije na osnovu pitanja iz istraživanja, a zatim sakupljaju traženi podaci.
Zbog toga što je skladištenje i sakupljanje tako jeftino, skupovi podataka sa kojima analitičari danas rade teže da budu veoma veliki i višedimenzionalni. Upravo u ovakvim situacijama mnoge od klasičnih metoda u statistici postaju neadekvatne. Kao primjere računarskih statističkih metoda možemo navesti paralelne koordinate za višedimenzionalnu reprezentaciju podataka, neparametarsku funkcionalnu inferenciju, i mapiranje skupa podataka gdje se tehnike analize smatraju fiksnim.
Računarska statistika obuhvata ono što se naziva računarsko-intenzivne statističke metode. Primjeri tog tipa tehnika su: bootstrap metode, neparametarska regresija, generalizovani aditivni modeli i klasifikaciona i regresiona stabla. Ovi metodi se razlikuju od klasičnih metoda u statistici zato što ovdje računarski algoritmi zamjenjuju tradicionalne matematičke metode za dobijanje odgovora. Važan aspekt računarske statistike je da njeni metodi oslobađaju analitičara potrebe da bira koje će metode koristiti uglavnom zbog njihove matematičke fleksibilnosti.
Tabela 1. – Poređenje između računarske i tradicionalne statistike


Tradicionalna statistika

Računarska statistika

Mala do umjerena veličina uzorka

Velika do veoma velika veličina uzorka

Nezavisni, identično distribuirani skupovi podataka

Nehomogeni skupovi podataka

Jedno ili nisko dimenzionalna

Višedimenzionalna

Manuelno računanje

Računarski intenzivna

Matematički fleksibilna

Numerički fleksibilna

Dobro fokusirana pitanja

Neprecizna pitanja

Jake nepotvrdive pretpostavke:
Relacije (linearnost, aditivnost)
Strukture grešaka (normalnost)

Slabe ili nikakve pretpostavke:
Relacije (nelinearnost)
Strukture grešaka (bez distribucija)

Statistička inferencija (zaključci)

Strukturalna inferencija (zaključci)

Predominantno zatvorena forma algoritama

Mogući su iterativni algoritmi

Statistička optimalnost

Statistička robustnost

Matlab-ove naredbe Interp1 i Interp2    <    Index    >    Koncepti vjerovatnoće - Uvod