Zipf’s Law adalah distribusi statistik yang muncul dalam beberapa kumpulan data, seperti kata-kata dalam korpus linguistik, di mana frekuensi kemunculan suatu kata berbanding terbalik dengan peringkatnya. Hukum ini dinamai berdasarkan George Kingsley Zipf, seorang ahli bahasa yang sekitar tahun 1935 pertama kali memperhatikan fenomena ini. Zipf’s Law melihat bagaimana kata-kata dalam bahasa alami muncul dengan pola tertentu: kata yang paling sering muncul akan muncul dua kali lebih sering dibanding kata peringkat kedua, tiga kali lebih sering dibanding kata berikutnya, dan seterusnya hingga kata yang paling jarang muncul. Kata pada posisi ke-n muncul sebanyak 1/n dari frekuensi kata yang paling sering digunakan.
Kalau kita mengurutkan kata berdasarkan frekuensinya dalam kumpulan teks yang cukup besar, lalu memplot frekuensi terhadap peringkatnya, hasilnya adalah kurva logaritmik. (Jika menggunakan skala log, hasilnya akan berupa garis lurus.)
Kata yang paling sering muncul dalam bahasa Inggris adalah “the”, yang muncul sekitar sepersepuluh dari total kata dalam teks biasa. Kata paling umum berikutnya (peringkat 2) adalah “of,” yang muncul sekitar seperdua puluh dari total kata. Dalam distribusi seperti ini, frekuensi kata turun drastis seiring meningkatnya peringkat, sehingga hanya sedikit kata yang muncul sangat sering, sementara sebagian besar kata jarang sekali muncul.
Distribusi Zipfian dalam kata-kata ini bersifat universal dalam bahasa alami. Fenomena ini ditemukan dalam ujaran anak-anak berusia di bawah 32 bulan, maupun dalam kosakata khusus di buku teks universitas. Studi menunjukkan bahwa pola ini berlaku di hampir setiap bahasa.
Secara individu, sintaksis atau semantik saja tidak cukup untuk membentuk distribusi Zipfian. Namun, kombinasi antara sintaksis dan semantiklah yang menciptakan pola ini.
Baru-baru ini, Zipf’s Law diuji secara ketat menggunakan database yang cukup besar untuk memastikan validitas statistiknya. Para peneliti dari Centre de Recerca Matematica, bagian dari jaringan CERCA Pemerintah Catalonia dan terafiliasi dengan Departemen Matematika Universitat Autonoma de Barcelona, menganalisis seluruh koleksi teks berbahasa Inggris di Project Gutenberg, sebuah database gratis yang berisi lebih dari 30.000 karya. Ketika kata-kata yang paling jarang digunakan dikeluarkan dari analisis, Zipf’s Law terbukti berlaku untuk lebih dari setengah jumlah kata yang ada.
Menariknya, Zipf’s Law tidak cuma berlaku di bidang literatur. Pola distribusi Zipfian juga ditemukan dalam peringkat populasi kota di berbagai negara, ukuran perusahaan, peringkat pendapatan, dan jumlah orang yang menonton saluran TV yang sama.