Apa Itu Entropi File?

Apa Itu Entropi File?
Apa Itu Entropi File?

Video: Apa Itu Entropi File?

Video: Apa Itu Entropi File?
Video: 14 04 Pengenalan entropi 2024, April
Anonim

Setiap file komputer terdiri dari byte. Satu byte dapat mengambil nilai dari 0 hingga 255. Entropi informasi adalah parameter statistik yang menunjukkan kemungkinan kemunculan byte tertentu dalam suatu file.

Apa itu entropi file?
Apa itu entropi file?

Anda dapat menilai tingkat entropi secara visual menggunakan histogram - distribusi probabilitas pengulangan byte yang sama dalam file. Dari entropi file, kita dapat menebak jenis file apa yang ada di depan kita, hanya melihat histogramnya.

Untuk demonstrasi, mari kita ambil tiga file dari jenis yang berbeda dan bandingkan histogramnya. Biarkan yang pertama menjadi file teks (*. TXT). Histogramnya ditunjukkan pada gambar:

гистограмма=
гистограмма=

File teks hanya berisi teks. Setiap karakter teks dikodekan dengan byte tertentu sesuai dengan tabel encoding. Meskipun ada sejumlah besar jenis pengkodean, jelas bahwa ada sejumlah karakter alfanumerik yang terbatas, yang biasanya kurang dari 255. Oleh karena itu, hanya beberapa area yang ditempati pada histogram pertama, dan beberapa byte tidak terisi sama sekali.

File berikut akan dalam format PDF:

гистограмма=
гистограмма=

File ini berisi semua kemungkinan byte, karena PDF dikodekan secara berbeda dari file teks. Ini menyimpan banyak informasi layanan: pemformatan, font, gambar, dll. Tetapi histogramnya menunjukkan bahwa beberapa byte muncul dengan probabilitas yang hampir sama, sementara yang lain - jauh lebih sering daripada yang lain. Oleh karena itu beberapa semburan tajam pada histogram, dan secara umum memiliki tampilan yang agak "kasar", meskipun menempati seluruh lebar yang tersedia.

Dan file terakhir di-zip dalam format 7Z:

гистограмма=
гистограмма=

Histogram ini memiliki dua fitur utama: pertama, semua byte ditemukan dalam file zip dengan probabilitas yang kurang lebih sama (tepi atas yang cukup datar), dan kedua, praktis tidak ada ruang kosong di atas histogram, yang mengindikasikan hampir tidak ada sama sekali. redundansi file tersebut. Oleh karena itu, kita dapat menyimpulkan bahwa algoritma pengarsip dalam beberapa cara khusus "mencampur" byte file untuk mencapai distribusi seragam maksimum.

Jadi, entropi dalam ilmu komputer, seperti dalam fisika, adalah ukuran ketidakteraturan dalam sistem, dalam hal ini, ketidakteraturan dalam distribusi byte dalam file. Entropi memungkinkan Anda untuk menilai tingkat kompresi file dan - secara tidak langsung - tentang jenisnya.

Direkomendasikan: