Mens estimering i sig selv er rettet mod at komme med værdier for de ukendte parametre (f.eks. koefficienter i logistisk regression eller i det adskillende hyperplan i supportvektormaskiner), statistisk slutning forsøger at knytte et mål for usikkerhed og / eller en sandsynlighedserklæring til parameterværdierne (standardfejl og konfidensintervaller). Hvis modellen, som statistikeren antager, er tilnærmelsesvis korrekt, så forudsat at de nye indgående data fortsat er i overensstemmelse med den model, kan usikkerhedserklæringerne have en vis sandhed i sig og give et mål for, hvor ofte du laver fejl ved at bruge model til at træffe dine beslutninger.
Kilderne til sandsynlighedserklæringerne er todelt. Nogle gange kan man antage en underliggende sandsynlighedsfordeling af det, du måler, og med noget matematisk hekseri (multivariat integration af en Gaussisk fordeling osv.) Opnår du sandsynlighedsfordelingen af resultatet (eksemplets gennemsnit af de Gaussiske data er i sig selv Gaussisk ). Konjugeret priors i Bayesiansk statistik falder inden for den heksekunstkategori. Andre gange er man nødt til at stole på de asymptotiske (store stikprøve) resultater, der siger, at i stor nok prøve er ting bundet til at opføre sig på en bestemt måde (Central Limit Theorem: stikprøveværdien af de data, der er iid med middel $ \ mu $ og varians $ \ sigma ^ 2 $ er cirka Gaussisk med gennemsnit $ \ mu $ og varians $ \ sigma ^ 2 / n $ uanset formen på distributionen af de originale data).
Det tætteste, som maskinindlæring kommer til, er krydsvalidering, når prøven opdeles i trænings- og valideringsdelene, hvor sidstnævnte effektivt siger, "hvis de nye data ligner de gamle data, men ikke er fuldstændigt relateret til de data, der blev brugt til opsætning af min model, så er et realistisk mål for fejlprocenten sådan og sådan ". Det er afledt fuldt empirisk ved at køre den samme model på dataene, snarere end at forsøge at udlede modelens egenskaber ved at lave statistiske antagelser og involvere eventuelle matematiske resultater som ovenstående CLT. Formentlig er dette mere ærligt, men da det bruger mindre information og derfor kræver større stikprøvestørrelser. Det antager også implicit, at processen ikke ændres, og at der ikke er nogen struktur i dataene (som klynge- eller tidsseriekorrelationer), der kan krybe ind og bryde den meget vigtige antagelse om uafhængighed mellem trænings- og valideringsdataene. / p>
Selvom udtrykket "at udlede den bageste" måske giver mening (jeg er ikke Bayesian, kan jeg ikke rigtig fortælle, hvad den accepterede terminologi er), tror jeg ikke, der er meget involveret i at lave nogen antagelser i dette inferentielle trin. Alle de Bayesiske antagelser er (1) i den foregående og (2) i den antagne model, og når de er oprettet, følger den bageste automatisk (i det mindste i teorien via Bayes sætning; de praktiske trin kan være meget komplicerede, og Sipps Gambling ... undskyld, Gibbs-prøveudtagning kan være en relativt let komponent for at komme til den bageste). Hvis "at udlede den bageste" henviser til (1) + (2), så er det en smag af statistisk slutning for mig. Hvis (1) og (2) er angivet særskilt, og derefter "at udlede den bageste" er noget andet, så kan jeg ikke helt se, hvad det andet måske kan være oven på Bayes sætning.