Filmtitelordsundersökning
Sagt och gjort, jag började med att ladda ner IMDBs betygsdatabas och filtrerade ut de engelska filmerna. Jag valde de engelska filmerna av flera anledningar: dels för att att engelska filmer är de vanligasta hos oss i Sverige, dels för att minimera risken att ett ord betyder helt olika saker i olika språk (semantiska kollisioner*, om man vill vara lite fancy-mancy), men också för att det inte skulle bli alltför många ord och filmer att söka bland.
Sedan började jag skriva ett litet program som fann alla unika ord i filmtitlarna, och för varje ord fann alla filmer vars titel innhåller ordet. Medelbetyget räknades sedan ut för dessa filmer, vilket ger ordet ett medelbetyg. Slutligen sorteras orden i betygsordning.
Ord som förekommer sällan (jag valde färre än 10 gånger) sorteras bort för att undvika att att ord som förkommer i en enda superbra eller asdålig film ska förstöra min fina undersökning...
Vad var då resultatet? Ja, de filmer du inte ska hyra är de som innehåller något av följande ord:
ord betyg antal
-----------------------
witchcraft 2.8 13
ranchman 3.0 13
gratitude 3.1 11
emmanuelle 3.2 12
hubby 3.2 14
wooing 3.4 14
joke 3.4 16
ninja 3.4 57
reformation 3.4 11
squaw 3.4 11
belmont 3.4 12
bikini 3.4 23
ike 3.5 20
jealousy 3.6 19
failed 3.6 10
burglar 3.6 42
vampires 3.6 10
broncho 3.6 128
Kolumnen antal är antalet filmer med motsvarande ord i titeln. De filmer du däremot ska se är de med förljande ord i titlen:
ord betyg antal
-----------------------
sense 7.5 13
chan 7.4 28
bugs 7.4 30
concert 7.2 20
moments 7.2 13
documentary 7.1 20
hare 7.1 83
minds 7.1 14
jump 7.1 12
history 7.0 50
razor 7.0 10
speaking 7.0 10
daffy 7.0 33
language 7.0 10
alexander 7.0 10
start 7.0 10
*) Det där hittade jag bara på i skrivandets stund. Men, vem vet, det kanske kallas så på riktigt. :)
Etiketter: Film, Programmering