Jeg vil prøve at føje til det andet svar. For det første er fuldstændighed en teknisk betingelse, som hovedsagelig er berettiget af de sætninger, der bruger den. Så lad os starte med nogle relaterede begreber og sætninger, hvor de forekommer.
Lad $ X = (X_1, X_2, \ dotsc, X_n) $ repræsenterer en vektor af iid-data, som vi modellerer som en distribution $ f (x; \ theta), \ theta \ i \ Theta $ hvor parameteren $ \ theta $ , der styrer dataene, er ukendt. $ T = T (X) $ er tilstrækkelig hvis den betingede fordeling af $ X \ mid T $ afhænger ikke af parameteren $ \ theta $ . $ V = V (X) $ er accessor , hvis fordelingen af $ V $ span> afhænger ikke af $ \ theta $ (inden for familien $ f (x; \ theta) $ span >). $ U = U (X) $ er en upartisk estimator af nul hvis dens forventning er nul, uanset $ \ theta $ . $ S = S (X) $ er en komplet statistik hvis nogen upartisk estimator på nul er baseret på $ S $ er identisk nul, dvs. hvis $ \ DeclareMathOperator {\ E} {\ mathbb {E}} \ Eg (S) = 0 (\ sms {for alle $ \ theta $}) $ og derefter $ g (S) = 0 $ ae (for alle $ \ theta $ ).
Antag nu, at du har to forskellige upartiske estimatorer af $ \ theta $ baseret på den tilstrækkelige statistik $ T $ , $ g_1 (T), g_2 (T ) $ . Dvs. i symboler $$ \ E g_1 (T) = \ theta, \\ \ E g_2 (T) = \ theta $$
og $ \ DeclareMathOperator {\ P} {\ mathbb {P}} \ P (g_1 (T) \ not = g_2 (T)) > 0 $ (for alle $ \ theta $ ). Derefter er $ g_1 (T) -g_2 (T) $ en upartisk estimator af nul, hvilket ikke er identisk nul, hvilket viser, at $ T $ er ikke komplet. Så fuldstændigheden af en tilstrækkelig statistik $ T $ giver os, at der kun findes en unik upartisk estimator af $ \ theta $ baseret på $ T $ . Det er allerede meget tæt på Lehmann-Scheffé sætningen.
Lad os se på nogle eksempler. Antag at $ X_1, \ dotsc, X_n $ nu er ens ensartede i intervallet $ (\ theta, \ theta + 1) $ . Vi kan vise, at ( $ X _ {(1)} < X _ {(2)} < \ dotsm < X _ {(n)} $ er ordrestatistikken) par $ (X _ {(1)}, X _ {(n)}) $ er tilstrækkelig, men det er ikke komplet, fordi forskellen $ X _ {(n)} - X _ {(1)} $ er supplerende, vi kan beregne dens forventning, lad det være $ c $ span> (som kun er en funktion af $ n $ ) og derefter $ X _ {(n)} - X_ { (1)} -c $ vil være en upartisk estimator af nul, som ikke er identisk nul. Så vores tilstrækkelige statistik er i dette tilfælde ikke fuldstændig og tilstrækkelig. Og vi kan se, hvad det betyder: der findes funktioner af tilstrækkelig statistik, som ikke er informative om $ \ theta $ (i sammenhæng med modellen). Dette kan ikke ske med en fuldstændig tilstrækkelig statistik; det er på en måde maksimalt informativt, idet ingen funktioner i det er uinformative. På den anden side, hvis der er en eller anden funktion af den minimalt tilstrækkelige statistik, der har forventning nul, kan det ses som et støjudtryk , har forstyrrelse / støjudtryk i modeller forventet nul. Så vi kan sige, at ikke-komplette tilstrækkelige statistikker indeholder noget støj .
Se igen i området $ R = X _ {(n)} - X _ {(1)} $ i dette eksempel. Da distributionen ikke afhænger af $ \ theta $ , indeholder den ikke alene i sig selv nogen oplysninger om $ \ theta $ . Men sammen med den tilstrækkelige statistik gør det det! Hvordan? Se på det tilfælde, hvor $ R = 1 $ observeres. Derefter har vi i sammenhæng med vores (kendt for at være sandt) model perfekt kendskab til $ \ theta $ ! Vi kan nemlig med sikkerhed sige, at $ \ theta = X _ {(1)} $ . Du kan kontrollere, at enhver anden værdi for $ \ theta $ derefter fører til enten $ X _ {(1)} $ span> eller $ X _ {(n)} $ er en umulig observation under den antagne model. På den anden side, hvis vi observerer $ R = 0,1 $ , så er rækkevidden af mulige værdier for $ \ theta $ er ret stort (øvelse ...).
I denne forstand indeholder den supplerende statistik $ R $ nogle oplysninger om den præcision, hvormed vi kan estimere $ \ theta $ baseret på disse data og model. I dette eksempel og andre overtager den supplerende statistik $ R $ "rollen som stikprøvestørrelsen". Normalt har konfidensintervaller og sådan brug for prøvestørrelsen $ n $ , men i dette eksempel kan vi lave et betinget konfidensinterval dette beregnes bruger kun $ R $ , ikke $ n $ (øvelse.) Dette var en idé fra Fisher, at slutning bør være betinget af en vis hjælpestatistik.
Basus sætning nu: Hvis $ T $ er tilstrækkelig komplet, så er den uafhængig af enhver hjælpestatistik. Det vil sige, at slutning baseret på en fuldstændig tilstrækkelig statistik er enklere, idet vi ikke behøver at overveje betinget slutning. Betingelse af en statistik, der er uafhængig af $ T $ , ændrer selvfølgelig ikke på noget.
Derefter et sidste eksempel for at give noget mere intuition . Skift vores ensartede fordelingseksempel til en ensartet fordeling i intervallet $ (\ theta_1, \ theta_2) $ (med $ \ theta_1< \ theta_2 $ ). I dette tilfælde er statistikken $ (X _ {(1)}, X _ {(n)}) $ fuldstændig og tilstrækkelig. Hvad ændrede sig? Vi kan se, at fuldstændighed virkelig er en egenskab ved modellen . I det tidligere tilfælde havde vi et begrænset parameterrum. Denne begrænsning ødelagde fuldstændigheden ved at indføre forhold i ordrestatistikken. Ved at fjerne denne begrænsning fik vi fuldstændighed! Så på en måde betyder manglende fuldstændighed, at parameterrummet ikke er stort nok, og ved at forstørre det kan vi håbe på at gendanne fuldstændighed (og dermed lettere slutning).
Nogle andre eksempler, hvor mangel på fuldstændighed skyldes begrænsninger i parameterrummet,
-
se mit svar på: Hvilken type information er Fisher-information?
-
Lad $ X_1, \ dotsc, X_n $ være iid $ \ mathcal {Cauchy} (\ theta, \ sigma) $ (en model for lokalitetsskala). Derefter er ordrestatistikkerne tilstrækkelige, men ikke komplette. Men forstør nu denne model til en fuldt ikke-parametrisk model, stadig iid, men fra en fuldstændig uspecificeret distribution $ F $ . Derefter er ordrestatistikkerne tilstrækkelige og komplette.
-
For eksponentielle familier med kanonisk parameterplads (dvs. så stor som muligt) er den minimale tilstrækkelige statistik også komplet. Men i mange tilfælde ødelægger fuldstændigheden at indføre begrænsninger på parameterrummet, som med buede eksponentielle familier .
Et meget relevant papir er En fortolkning af fuldstændighed og Basus sætning.