Jeg læste i løbet af Naive Bayes-klassifikationen i dag. Jeg læste under overskriften Parameterestimering med tilføj 1 udjævning :
Lad $ c $ henvise til en klasse (såsom positiv eller negativ), og lad $ w $ henvise til et token eller ord.
Den maksimale sandsynlighedsestimator for $ P (w | c) $ er $$ \ frac {count (w, c)} {count (c)} = \ frac {\ text {tæller w i klasse c}} {\ text {tæller ord i klasse c}}. $$
Dette skøn over $ P (w | c) $ kan være problematisk, da det giver os sandsynlighed $ 0 $ for dokumenter med ukendte ord. En almindelig måde at løse dette problem på er at bruge Laplace-udjævning.
Lad V være ordsættet i træningssættet, tilføj et nyt element $ UNK $ (for ukendt) til sæt af ord.
Definer $$ P (w | c) = \ frac {\ text {count} (w , c) +1} {\ text {count} (c) + | V | + 1}, $$
hvor $ V $ refererer til ordforrådet (ordene i træningssættet).
Især vil ethvert ukendt ord have sandsynlighed $$ \ frac {1} {\ text {count} (c) + | V | + 1}. $$
Mit spørgsmål er dette: hvorfor generer vi overhovedet denne Laplace-udjævning? Hvis disse ukendte ord, som vi støder på i testsættet, har en sandsynlighed, som åbenbart er næsten nul, dvs. $ \ frac {1} {\ text {count} (c) + | V | + 1} $ , hvad er meningen med at inkludere dem i modellen? Hvorfor ikke bare se bort fra og slette dem?