Salah satu alat untuk mengelola pengindeksan situs oleh mesin pencari adalah file robots.txt. Ini terutama digunakan untuk mencegah semua atau hanya robot tertentu mengunduh konten grup halaman tertentu. Ini memungkinkan Anda untuk menyingkirkan "sampah" di hasil mesin pencari dan, dalam beberapa kasus, secara signifikan meningkatkan peringkat sumber daya. Penting untuk memiliki file robots.txt yang benar agar aplikasi berhasil.
Diperlukan
editor teks
instruksi
Langkah 1
Buat daftar robot yang aturan pengecualian khusus akan ditetapkan atau arahan dari standar robots.txt yang diperluas, serta arahan non-standar dan spesifik (ekstensi dari mesin telusur tertentu) yang akan digunakan. Masukkan ke dalam daftar ini nilai bidang Agen-Pengguna dari tajuk permintaan HTTP yang dikirim oleh robot yang dipilih ke server situs. Nama-nama robot juga dapat ditemukan di bagian referensi situs mesin pencari.
Langkah 2
Pilih grup URL sumber daya situs yang aksesnya harus ditolak ke masing-masing robot dalam daftar yang dikompilasi pada langkah pertama. Lakukan operasi yang sama untuk semua robot lainnya (satu set bot pengindeksan yang tidak terbatas). Dengan kata lain, hasilnya harus berupa beberapa daftar yang berisi tautan ke bagian situs, grup halaman, atau sumber konten media yang dilarang untuk diindeks. Setiap daftar harus sesuai dengan robot yang berbeda. Juga harus ada daftar URL terlarang untuk semua bot lainnya. Buat daftar berdasarkan perbandingan struktur logis situs dengan lokasi fisik data di server, serta dengan mengelompokkan URL halaman menurut karakteristik fungsional mereka. Misalnya, Anda dapat menyertakan dalam daftar tolak konten dari setiap katalog layanan (dikelompokkan berdasarkan lokasi) atau semua halaman profil pengguna (dikelompokkan berdasarkan tujuan).
Langkah 3
Pilih tanda URL untuk setiap sumber daya yang terkandung dalam daftar yang dikompilasi pada langkah kedua. Saat memproses daftar pengecualian untuk robot yang hanya menggunakan perintah robots.txt standar dan robot yang tidak ditentukan, sorot bagian URL unik dengan panjang maksimum. Untuk set alamat yang tersisa, Anda dapat membuat template sesuai dengan spesifikasi mesin pencari tertentu.
Langkah 4
Buat file robots.txt. Tambahkan grup arahan ke dalamnya, yang masing-masing sesuai dengan seperangkat aturan larangan untuk robot tertentu, daftar yang dikompilasi pada langkah pertama. Yang terakhir harus diikuti oleh sekelompok arahan untuk semua robot lainnya. Pisahkan grup aturan dengan satu baris kosong. Setiap aturan harus dimulai dengan direktif User-agent yang mengidentifikasi robot, diikuti dengan disallow directive, yang melarang pengindeksan grup URL. Buat garis yang diperoleh pada langkah ketiga dengan nilai-nilai arahan Disallow. Pisahkan direktif dan artinya dengan titik dua Perhatikan contoh berikut: User-agent: YandexDisallow: / temp / data / images / User-agent: * Disallow: / temp / data / Kumpulan arahan ini menginstruksikan robot utama dari Mesin pencari Yandex tidak mengindeks URL yang berisi substring / temp / data / gambar /. Ini juga mencegah semua robot lain mengindeks URL yang berisi / temp / data /.
Langkah 5
Tambahan robots.txt dengan arahan standar yang diperluas atau arahan mesin telusur tertentu. Contoh arahan tersebut adalah: Host, Peta Situs, Tingkat permintaan, Waktu kunjungan, Penundaan perayapan.