Sådan bestemmes sandsynlighedsfordelingstypen for data

Indholdsfortegnelse:

Anonim

Når du har indsamlet data på dit system eller proces, er det næste skridt at bestemme, hvilken type sandsynlighedsfordeling man har. Typen af ​​sandsynlighedsfordeling er: diskret ensartet, Bernoulli, binomial, negativ binomial, Poisson, geometrisk, kontinuerlig ensartet, normal (bellkurve), eksponentiel, gamma og beta-distribution. At begrænse selv nogle få fra listen over muligheder gør det muligt at bestemme, hvilken er den nærmeste R-kvadreret værdi meget hurtigere.

Elementer du skal bruge

  • Graphing software

  • Midler til beregning af R-kvadreret værdi (bedst egnet analyse)

Plot dataene for en visuel repræsentation af datatypen.

Et af de første skridt til at bestemme, hvilken datafordeling man har - og dermed ligningstypen, der skal bruges til at modellere dataene - er at udelukke, hvad det ikke kan være. • Hvis der er nogen toppe i datasættet, kan det ikke være en diskret ensartet fordeling. • Hvis dataene har mere end en top, er det ikke Poisson eller binomial. • Hvis den har en enkelt kurve, ingen sekundære toppe og har en langsom hældning på hver side, kan det være Poisson eller en gammafordeling. Men det kan ikke være en diskret ensartet fordeling. • Hvis dataene er jævnt fordelt, og det er uden skævhed mod den ene side, er det sikkert at udelukke en gamma- eller Weibull-distribution. • Hvis funktionen har en jævnt fordeling eller en top i midten af ​​de grafede resultater, er det ikke en geometrisk fordeling eller en eksponentiel fordeling. • Hvis forekomsten af ​​en faktor varierer med en miljøvariabel, er det sandsynligvis ikke en Poisson-fordeling.

Når sandsynlighedsfordelingstypen er blevet indsnævret, skal du foretage en R-kvadratanalyse af hver mulig form for sandsynlighedsfordeling. Den med den højeste R-kvadreret værdi er højst sandsynligt korrekt.

Eliminer et outlier datapunkt. Derefter genberegne R-kvadreret. Hvis den samme sandsynlighedsfordelingstype kommer op som nærmeste match, er der stor tillid til, at dette er den korrekte sandsynlighedsfordeling, der skal bruges til datasættet.

Tips

  • Hvis dataene viser flere toppe en bred scatter, er det muligt, at to separate processer foregår eller det produkt, der samples, blandes. Recollect dataene og derefter reanalyse.

Advarsel

Validér ligningerne genereret mod senere datasæt for at bekræfte, at det stadig er nøjagtigt for datasættet. Det er muligt, at miljøfaktorer og procesdrift har gjort nuværende ligninger og modeller forkerte.