Որոնիչների կողմից կայքերի ինդեքսավորումը կառավարելու գործիքներից մեկը robots.txt ֆայլն է: Այն հիմնականում օգտագործվում է կանխելու համար բոլոր կամ միայն որոշակի ռոբոտներին էջերի որոշակի խմբերի բովանդակությունը ներբեռնելու համար: Սա թույլ է տալիս ձերբազատվել որոնիչի արդյունքների «աղբից», որոշ դեպքերում էլ էապես բարելավել ռեսուրսի վարկանիշը: Հաջող կիրառման համար կարևոր է ունենալ ճիշտ robots.txt ֆայլ:
Անհրաժեշտ է
տեքստի խմբագիր:
Հրահանգներ
Քայլ 1
Կազմեք ռոբոտների ցուցակ, որոնց համար հատուկ բացառման կանոններ կսահմանվեն կամ ընդլայնված robots.txt ստանդարտի հրահանգներ, ինչպես նաև ոչ ստանդարտ և հատուկ հրահանգներ (հատուկ որոնիչի ընդլայնումներ): Այս ցուցակում մուտքագրեք ընտրված ռոբոտների կողմից կայքի սերվերին ուղարկված HTTP խնդրանքի վերնագրերի User-Agent դաշտերի արժեքները: Ռոբոտների անունները կարելի է գտնել նաև որոնման կայքերի տեղեկատու բաժիններում:
Քայլ 2
Ընտրեք կայքի ռեսուրսների URL- ների խմբերը, որոնց մուտքը պետք է մերժվի առաջին քայլում կազմված ցուցակում գտնվող ռոբոտներից յուրաքանչյուրին: Կատարել նույն գործողությունը բոլոր մյուս ռոբոտների համար (ինդեքսավորման բոտերի անորոշ շարք): Այլ կերպ ասած, արդյունքը պետք է լինի մի քանի ցուցակ, որոնք պարունակում են հղումներ դեպի կայքի բաժիններ, էջերի խմբեր կամ լրատվամիջոցների բովանդակության աղբյուրներ, որոնք արգելված է ինդեքսավորմամբ: Յուրաքանչյուր ցուցակ պետք է համապատասխանի տարբեր ռոբոտի: Պետք է լինի նաև արգելված URL- ների ցուցակ բոլոր մյուս բոտերի համար: Կազմեք ցուցակներ ՝ հիմնված կայքի տրամաբանական կառուցվածքի համեմատության վրա սերվերի տվյալների ֆիզիկական դիրքի հետ, ինչպես նաև խմբավորելով էջերի URL- ները ըստ դրանց ֆունկցիոնալ բնութագրերը: Օրինակ, մերժման ցուցակներում կարող եք ներառել ցանկացած ծառայության կատալոգների բովանդակություն (խմբավորված ըստ գտնվելու վայրի) կամ օգտագործողի պրոֆիլի բոլոր էջերի (խմբավորված ըստ նպատակի):
Քայլ 3
Երկրորդ քայլում կազմված ցուցակներում պարունակվող ռեսուրսներից յուրաքանչյուրի համար ընտրեք URL նշաններ: Ռոբոտների համար բացառիկ ցուցակները մշակելիս օգտագործելով միայն ստանդարտ robots.txt հրահանգներ և չսահմանված ռոբոտներ, ընդգծեք առավելագույն երկարության եզակի URL մասերը: Հասցեների մնացած հավաքածուների համար դուք կարող եք ստեղծել ձևանմուշներ ՝ համապատասխան հատուկ որոնիչների առանձնահատկություններին:
Քայլ 4
Ստեղծեք robots.txt ֆայլ: Դրան ավելացրեք հրահանգների խմբեր, որոնցից յուրաքանչյուրը համապատասխանում է որոշակի ռոբոտի համար արգելող կանոնների հավաքածուին, որոնց ցանկը կազմվել է առաջին քայլում: Վերջինիս պետք է հետևի մի խումբ հրահանգներ մնացած բոլոր ռոբոտների համար: Կանոնների առանձնացված խմբերը մեկ դատարկ տողով: Յուրաքանչյուր կանոնակարգ պետք է սկսվի օգտագործողի գործակալի հրահանգով, որը նույնացնում է ռոբոտը, որին հաջորդում է «Չի թույլատրվում» հրահանգը, որն արգելում է URL խմբերի ինդեքսավորումը: Երրորդ քայլում ստացված տողերը կազմեք «Չի թույլատրվում» դիրեկտիվների արժեքների հետ: Հրահանգներն ու դրանց իմաստները առանձնացրեք երկու կետով: Հաշվի առեք հետևյալ օրինակը. Օգտագործող գործակալ ՝ YandexDisallow: / տեմպ / տվյալներ / պատկերներ / Օգտագործող գործակալ ՝ * Արգելել. Yandex որոնիչը չի ինդեքսավորելու URL- ը. Որը պարունակում է ենթատող / temp / տվյալներ / պատկերներ /: Այն նաև կանխում է բոլոր մյուս ռոբոտներին ինդեքսավորելու / temp / տվյալներ / պարունակող URL- ները:
Քայլ 5
Լրացրեք robots.txt- ը ընդլայնված ստանդարտ հրահանգներով կամ հատուկ որոնիչների հրահանգներով: Նման դիրեկտիվների օրինակներն են. Հոստ, Կայքի քարտեզ, Հայցերի տեմպ, Այցելության ժամանակ, Քաշման հետաձգում: