Ինչ է ֆայլերի էնտրոպիան

Ինչ է ֆայլերի էնտրոպիան
Ինչ է ֆայլերի էնտրոպիան

Video: Ինչ է ֆայլերի էնտրոպիան

Video: Ինչ է ֆայլերի էնտրոպիան
Video: Ինչ է իրենից ներկայացնում դոմենը կամ դոմենային անունը 2024, Ապրիլ
Anonim

Computerանկացած համակարգչային ֆայլ բաղկացած է բայթերից: Բայթը կարող է արժեքներ վերցնել 0-ից 255-ը: Տեղեկատվական էնտրոպիան վիճակագրական պարամետր է, որը ցույց է տալիս ֆայլում որոշակի բայթերի առաջացման հավանականությունը:

Ինչ է ֆայլերի էնտրոպիան
Ինչ է ֆայլերի էնտրոպիան

Դուք կարող եք տեսողականորեն գնահատել entropy- ի աստիճանը `օգտագործելով histogram - ֆայլում նույն բայթերը կրկնելու հավանականության բաշխումը: Ֆայլի էնտրոպիայից մենք կարող ենք կռահել, թե ինչ տեսակի ֆայլ է մեր առջև ՝ տեսնելով միայն դրա հիստոգրամը:

Rationուցադրման համար եկեք վերցնենք տարբեր տեսակի երեք ֆայլեր և համեմատենք դրանց հիստոգրամները: Թող առաջինը լինի տեքստային ֆայլ (*. TXT): Դրա հիստոգրամը ներկայացված է նկարում.

гистограмма=
гистограмма=

Տեքստային ֆայլը պարունակում է միայն տեքստ: Տեքստի յուրաքանչյուր նիշ կոդավորվում է որոշակի բայթերով ՝ համաձայն ծածկագրման աղյուսակի: Չնայած կան մեծ թվով կոդավորող տեսակներ, ակնհայտ է, որ կա սահմանափակ թվով ալֆան թվային նիշ, որը սովորաբար 255-ից պակաս է: Հետևաբար, միայն որոշ տարածքներ զբաղեցնում են առաջին հիստոգրամը, իսկ որոշ բայթ ընդհանրապես բացակայում են:

Հետևյալ ֆայլը կլինի PDF ձևաչափով.

гистограмма=
гистограмма=

Այս ֆայլը պարունակում է բոլոր հնարավոր բայթերը, քանի որ PDF- ը այլ կերպ է կոդավորվում տեքստային ֆայլերից: Այն պահպանում է ծառայությունների վերաբերյալ շատ տեղեկություններ ՝ ձևաչափում, տառատեսակներ, պատկերներ և այլն: Բայց դրա հիստոգրաման ցույց է տալիս, որ բայթերի մի մասը տեղի է ունենում մոտավորապես հավասար հավանականությամբ, իսկ մյուսները ՝ շատ ավելի հաճախ, քան մյուսները: Այստեղից էլ առաջանում են հիստոգրամայի բազմաթիվ սուր պոռթկումները, և, ընդհանուր առմամբ, այն ունի բավականին «կոպիտ» տեսք, չնայած այն զբաղեցնում է առկա ամբողջ լայնությունը:

Եվ վերջին ֆայլը zip է 7Z ձևաչափով.

гистограмма=
гистограмма=

Այս հիստոգրաման ունի երկու հիմնական առանձնահատկություններ. Նախ ՝ բոլոր բայթերը հայտնաբերվում են սեղմված ֆայլում քիչ թե շատ հավասար հավանականությամբ (բավականին հարթ վերևի եզր), և երկրորդ ՝ հիստոգրամայից վեր գործնականում ազատ տարածություն չկա, ինչը ցույց է տալիս գրեթե լիակատար բացակայություն այդպիսի գործի ավելորդության մասին: Այսպիսով, մենք կարող ենք եզրակացնել, որ արխիվացնող ալգորիթմը ինչ-որ հատուկ ձևով «խառնում է» ֆայլի բայթերը ՝ դրանց առավելագույն միասնական բաշխմանը հասնելու համար:

Այսպիսով, համակարգչային գիտության մեջ էնտրոպիան, ինչպես ֆիզիկայում, համակարգում առկա խանգարման չափանիշ է, այս դեպքում ՝ ֆայլում բայթերի բաշխման խանգարում: Entropy- ն թույլ է տալիս դատել ֆայլի սեղմման աստիճանը և անուղղակիորեն `դրա տեսակի վերաբերյալ:

Խորհուրդ ենք տալիս: