Matlab - abc tutorijal

abc Matlab - elektronski priručnik
III dio Matematika u Matlabu - 3.4. Vjerovatnoća i statistika

3.4.1. Uvod

Očigledno, računarska statistika je srodna tradicionalnoj disciplini statistike. Zato, prije nego što definišemo računarsku statistiku, potrebno je razjasniti šta se podrazumijeva pod oblašću koja se naziva statistika. Na najosnovnijem nivou, statistika se bavi transformacijom sirovih podataka u znanje.
Kada se suoči sa analizom sirovih podataka, svaki istraživač mora naći odgovore na sljedeća pitanja:
• Koji podaci se moraju prikupiti da bi se dobili odgovori na pitanja u analizi?
• Koliko podataka se mora prikupiti?
• Koji se zaključci mogu izvući iz podataka?
• Do kojeg stepena se može vjerovati tim zaključcima
Statistika je nauka o neodređenostima i može pomoći istraživaču da se suočava sa takvim pitanjima. Mnogi klasični metodi statistike (regresija, testiranje hipoteza, parametarska estimacija, intervali povjerenja, itd.) razvijeni tokom prošlog stoljeća su poznati istraživačima i u širokoj su upotrebi u mnogim disciplinama.
Dakle, šta se podrazumijeva pod računarskom statistikom? Ona se danas definiše kao kolekcija tehnika koje imaju snažan fokus na eksploataciji računarstva prilikom kreiranja novih statističkih metodologija.
Mnoge od ovih metodologija su postale provedive nakon razvoja jeftinog računarskog hardvera počev od 1980-ih. Ova računarska revolucija je omogućila naučnicima i inženjerima da čuvaju i procesiraju ogromne količine podataka. Međutim, ovi podaci su obično sakupljani bez jasne ideje o tome u kakvim će proučavanjima biti korišteni. Na primjer, u savremenoj praksi analize podataka, često se prvo sakupljaju podaci, a zatim projektuju studije da bi se iz tih podataka dobile neke korisne informacije. Nasuprot tome, tradicionalni pristup je bio da se prvo projektuju studije na osnovu pitanja iz istraživanja, a zatim sakupljaju traženi podaci.
Zbog toga što je skladištenje i sakupljanje tako jeftino, skupovi podataka sa kojima analitičari danas rade teže da budu veoma veliki i višedimenzionalni. Upravo u ovakvim situacijama mnoge od klasičnih metoda u statistici postaju neadekvatne. Kao primjere računarskih statističkih metoda možemo navesti paralelne koordinate za višedimenzionalnu reprezentaciju podataka, neparametarsku funkcionalnu inferenciju, i mapiranje skupa podataka gdje se tehnike analize smatraju fiksnim.
Računarska statistika obuhvata ono što se naziva računarsko-intenzivne statističke metode. Primjeri tog tipa tehnika su: bootstrap metode, neparametarska regresija, generalizovani aditivni modeli i klasifikaciona i regresiona stabla. Ovi metodi se razlikuju od klasičnih metoda u statistici zato što ovdje računarski algoritmi zamjenjuju tradicionalne matematičke metode za dobijanje odgovora. Važan aspekt računarske statistike je da njeni metodi oslobađaju analitičara potrebe da bira koje će metode koristiti uglavnom zbog njihove matematičke fleksibilnosti.
Tabela 1. – Poređenje između računarske i tradicionalne statistike

Tradicionalna statistika	Računarska statistika
Mala do umjerena veličina uzorka	Velika do veoma velika veličina uzorka
Nezavisni, identično distribuirani skupovi podataka	Nehomogeni skupovi podataka
Jedno ili nisko dimenzionalna	Višedimenzionalna
Manuelno računanje	Računarski intenzivna
Matematički fleksibilna	Numerički fleksibilna
Dobro fokusirana pitanja	Neprecizna pitanja
Jake nepotvrdive pretpostavke: Relacije (linearnost, aditivnost) Strukture grešaka (normalnost)	Slabe ili nikakve pretpostavke: Relacije (nelinearnost) Strukture grešaka (bez distribucija)
Statistička inferencija (zaključci)	Strukturalna inferencija (zaključci)
Predominantno zatvorena forma algoritama	Mogući su iterativni algoritmi
Statistička optimalnost	Statistička robustnost

Matlab-ove naredbe Interp1 i Interp2 < Index > Koncepti vjerovatnoće - Uvod

abc Matlab - elektronski priručnik III dio Matematika u Matlabu - 3.4. Vjerovatnoća i statistika

3.4.1. Uvod

abc Matlab - elektronski priručnik
III dio Matematika u Matlabu - 3.4. Vjerovatnoća i statistika