O νόμος του Zipf (o Zipf ήταν φιλόλογος) χρησιμοποιείται για να προβλέψει τη συχνότητα της εμφάνισης των λέξεων μέσα σε ένα κείμενο. Δηλώνει ότι “αν οι λέξεις ταξινομηθούν κατά φθίνουσα σειρά του αριθμού εμφάνισής τους σε ένα σχετικά μεγάλο κείμενο, τότε η θέση/σειρά μιας λέξης σε αυτόν τον κατάλογο όταν πολλαπλασιάζεται με τη συχνότητα εμφάνισής της είναι ίση με μια σταθερά.
Η εξίσωση για αυτή τη σχέση είναι:
r x f = k
όπου r είναι η θέση/σειρά της λέξης, f είναι η συχνότητα και k είναι η σταθερά (Palmquist, 2004). Για παράδειγμα αν μέσα σε ένα αρκετά μεγάλο κείμενο μια λέξη που βρίσκεται στην θέση 1 (π.χ. η λέξη the) εμφανίζεται 1000 φορές, τότε η λέξη της θέσης 2 (π.χ. η λέξη of) θα εμφανίζεται περίπου 500 φορές, η λέξη της θέσης 3 (π.χ. η λέξη and) θα εμφανίζεται περίπου 300 φορές, κτλ. (Wilson, 1999: 166). Ο νόμος του Zipf δεν είναι στατιστικά τέλειος, αλλά είναι χρήσιμος στους ευρετηριαστές.
Δεν υπάρχουν σχόλια:
Δημοσίευση σχολίου