Spørgsmål:
Et robust (ikke-parametrisk) mål som variationskoefficient - IQR / median eller alternativ?
Assad Ebrahim
2012-10-04 15:51:46 UTC
view on stackexchange narkive permalink

For et givet datasæt beregnes spredning ofte enten som standardafvigelsen eller som IQR (interkvartilinterval).

Mens en standardafvigelse er normaliseret (z-scores osv.) og så kan bruges til at sammenligne spredningen fra to forskellige populationer, dette er ikke tilfældet med IQR, da prøverne fra to forskellige populationer kunne have værdier i to helt forskellige skalaer,

f.eks Pop A: 100, 67, 89, 75, 120, ... Pop B: 19, 22, 43, 8, 12, ...

Det jeg leder efter er en robust (ikke-parametrisk) måling, som jeg kan bruge til at sammenligne variationen inden for forskellige populationer.

Valg 1: IQR / Median - dette ville være analogt med variationskoefficient, dvs. til $ \ frac {\ sigma} {\ mu} $.

Valg 2: Område / IQR

Spørgsmål: Hvilket er det mest meningsfulde mål for sammenligning af variation mellem populationer? Og hvis det er valg 1, er valg 2 nyttigt til noget / meningsfuldt, eller er det en grundlæggende fejlbehæftet foranstaltning?

Tak for den meget nyttige diskussion. Nogle nyttige opfølgninger - forskellige definitioner af kvartiler og dermed IQR (John), standardafvigelse, der faktisk ikke standardiserer (Harvey), og QQ-plots som et værktøj til at sammenligne to distributioner (Peter). (+1 til alle tre svar!)
Seks svar:
gung - Reinstate Monica
2012-10-05 19:41:34 UTC
view on stackexchange narkive permalink

Det er vigtigt at indse, at minimum og maksimum ofte ikke er så gode statistikker, der skal bruges (dvs. de kan svinge meget fra prøve til prøve og ikke følge en normalfordeling som f.eks. middelværdien på grund af den centrale Limit Theorem). Som et resultat er området sjældent et godt valg til andet end at angive området for denne nøjagtige prøve . For en simpel, ikke-parametrisk statistik, der repræsenterer variation, er Inter-Quartile Range meget bedre. Mens jeg ser analogien mellem IQR / median og variationskoefficienten, tror jeg dog ikke, at dette sandsynligvis vil være den bedste mulighed.

Det kan være en god idé at undersøge median absolut afvigelse fra medianen ( MADM). Det vil sige: $$ MADM = \ text {median} (| x_i- \ text {median} (\ bf x) |) $$ Jeg formoder, at en bedre ikke-parametrisk analogi til variationskoefficienten ville være MADM / median, snarere end IQR / median.

Interessant valg af `MADM / median`, i det væsentlige den midterste forskel fra den midterste værdi. Lad os kalde dette valg 3. Enig med din vurdering af valg 1, så det er ude, tak. Når du foreslår 'bedre', hvilke egenskaber kan man bruge til at sammenligne valg 2 med valg 3 for at se, hvad der er bedre?
De attributter, du vil bruge, afhænger af, hvad dine mål for metricen er. Imidlertid mente jeg kun, at det er en bedre * analogi * for CoV. NB, at 3. kvartil er medianen for dine data, der er over medianen, og 1. q er medianen for dem nedenfor, så IQR / 2 i det lange løb vil svare til MADM (nb, de garanteres ikke at være lige i en given prøve). IQR vil variere yderligere, på afvejen, fra det er den sande værdi i popen, men jeg er ikke sikker på, hvilke, hvis nogen, implikationer, der ville have, og standen. fejler af IQR / 2 skal være den samme som SE for MADM.
Jeg ser tak for afklaringen. Godt punkt om medianfortolkningen af ​​Q3 og Q1. Jeg prøver 'MADM / median' sammen med 'IQR / median'. Sammenligningen side om side kan være interessant. (+1 for det interessante forslag)
Harvey Motulsky
2012-10-04 18:35:14 UTC
view on stackexchange narkive permalink

Spørgsmålet indebærer, at standardafvigelsen (SD) på en eller anden måde er normaliseret, så den kan bruges til at sammenligne variationen i to forskellige populationer. Ikke så. Som Peter og John sagde, foretages denne normalisering som ved beregning af variationskoefficienten (CV), der er lig med SD / gennemsnit. SD er i de samme enheder som de originale data. I modsætning hertil er CV'et et enhedsløst forhold.

Dit valg 1 (IQR / Median) svarer til CV'et. Ligesom CV'et ville det kun give mening, når dataene er forholdsdata. Dette betyder, at nul virkelig er nul. En vægt på nul er ingen vægt. En længde på nul er ingen længde. Som et modeksempel ville det ikke give mening for temperatur i C eller F, da temperatur på 0 grader (C eller F) ikke betyder, at der ikke er nogen temperatur. Bare at skifte mellem at bruge C- eller F-skala vil give dig en anden værdi for CV'et eller for forholdet mellem IQR / Median, hvilket gør begge disse forhold meningsløse.

Jeg er enig med Peter og John i, at din anden idé (Range / IQR) ville ikke være meget robust over for outliers, så sandsynligvis ville det ikke være nyttigt.

Harvey - tak - du har ret, * SD * er overhovedet ikke normaliseret ... Jeg forvirrede begrebet `z-scores` for standardisering af værdier og normalisering af deres position inden for en fordeling med hensyn til gennemsnit og standard afvigelse med dette problem, som handler om at kunne rangordne produktgrupper efter deres variation. At vælge dit svar som det rigtige, for mens Peter og Johns begge var meget hjælpsomme, advarede dit mig om den konceptuelle blanding. Godt punkt på valg 1 er begrænset brugt nær median 0. Heldigvis i mit problem behøver jeg ikke bekymre mig om dette.
Jeg vil gerne bruge dette i et papir.Er der et godt sted, det henvises til (bog / et sted peer-reviewed)?
John
2012-10-04 17:13:28 UTC
view on stackexchange narkive permalink

"Valg 1" er det, du ønsker, hvis du bruger ikke-parametriske til det fælles formål at reducere effekten af ​​outliers. Selvom du bruger det på grund af skævhed, der også har bivirkningen ved ofte at have ekstreme værdier i halen, kan det være outliers. Dit "Choice 2" kan blive dramatisk påvirket af outliers eller ekstreme værdier, mens komponenterne i din første ligning er relativt robuste mod dem.

[Dette afhænger lidt af, hvilken type IQR du vælger (se R-hjælp til kvantil).]

Du har ret, jeg skulle have sagt "dette er * analogt" til definitionen af ​​variationskoefficienten ... (fast nu i spørgsmålet)!
Tak for kommentaren * afhængig af hvilken type IQR du vælger ... * - Jeg havde ikke indset, at der var så mange mulige definitioner for kvartiler / kvantiler! Jeg bruger Excels indbyggede funktion 'kvartil ()' og tager derefter 'IQR: = Q3 - Q1'. Mine tal kommer fra en tidsserie med ugentlige målinger over et år. Målingerne er målinger af industriel ydeevne, og det er også fra en kontinuerlig distribution. De forskellige populationer er forskellige produktgrupper. I denne situation tror jeg ikke, at de forskellige definitioner ville være meget forskellige i praksis?
Frank Harrell
2015-09-16 05:01:35 UTC
view on stackexchange narkive permalink

Jeg foretrækker ikke at beregne foranstaltninger som CV, fordi jeg næsten altid har en vilkårlig oprindelse for den tilfældige variabel. Med hensyn til valget af en robust dispersionsmåling er det vanskeligt at slå Gini's gennemsnitlige forskel, som er gennemsnittet af alle mulige absolutte værdier af forskelle mellem to observationer. For effektiv beregning se fx R rms -pakke GiniMd -funktionen. Under normalitet er Ginis gennemsnitlige forskel 0,98 så effektiv som SD til estimering af dispersion.

Peter Flom
2012-10-04 17:19:59 UTC
view on stackexchange narkive permalink

Ligesom @John har jeg aldrig hørt om den definition af variationskoefficient. Jeg ville ikke kalde det, hvis jeg brugte det, vil det forvirre folk.

"Hvilket er mest nyttigt?" afhænger af, hvad du vil bruge det til. Bestemt valg 1 er mere robust over for outliers, hvis du er sikker på, at det er det, du vil have. Men hvad er formålet med at sammenligne de to distributioner? Hvad prøver du at gøre?

Et alternativ er at standardisere begge mål og derefter se på resuméer.

Et andet er et QQ-plot.

Der er også mange andre.

Godt punkt - burde have sagt * analogt * til variationskoefficienten (jeg har foretaget korrektionen).
Mine tal kommer fra en tidsserie med ugentlige målinger over et år. Målingerne er industrielle præstationsmålinger, og det er også fra en kontinuerlig distribution. De forskellige populationer er forskellige produktgrupper, og jeg har omkring 50 produktgrupper. Det jeg prøver at gøre er at være i stand til at sammenligne den iboende variation mellem forskellige produktgrupper. Især vil jeg være i stand til at rangordne produktgrupperne i faldende rækkefølge.
Hvad mener du med at 'standardisere begge mål og derefter se på resuméer'? Jeg troede, at valg 1 standardiserede dem ...!
Armando
2019-08-27 01:30:12 UTC
view on stackexchange narkive permalink

Dette papir præsenterer to gode robuste alternativer til variationskoefficienten.Den ene er interkvartilområdet divideret med medianen, det vil sige:

IQR / median = (Q3-Q1) / median

Den anden er median absolut afvigelse divideret med medianen, dvs.:

MAD / median

De sammenligner dem og konkluderer, at det andet generelt er lidt mindre variabelt og sandsynligvis bedre for de fleste applikationer.



Denne spørgsmål og svar blev automatisk oversat fra det engelske sprog.Det originale indhold er tilgængeligt på stackexchange, som vi takker for den cc by-sa 3.0-licens, den distribueres under.
Loading...