Karena sesuatu hal terkadang kita ingin agar website kita tidak terindex oleh google atau mesin pencari lainnya yaitu dengan membuat file robots.txt. Hal ini diperlukan misalnya ketika kita sedang dalam proses pembuatan website, atau karena ingin menyembunyikan folder/file tertentu agar orang lain tidak bisa menemukannya melalui mesin pencari.
Caranya anda buat file robots.txt di root folder website anda dan isi dengan command sesuai keinginan anda, sebagai contoh:
1. Command ini berfungsi untuk mencegah semua jenis bot (program) dari mesin pencari untuk mengindex semua file anda (root dan turunannya).
User-agent: * Disallow: /
2. Command ini berarti mencegah semua jenis bot mesin pencari untuk mengindex semua file yang berada di folder administration
User-agent: * Disallow: /administration/
3. Command ini berarti mencegah bot dari google ntuk mengindex semua file anda (root dan turunannya).
User-Agent: googlebot Disallow: /
4. Command ini berarti mencegah bot dari google ntuk mengindex semua file gambar anda (root dan turunannya).
User-agent: Googlebot-Image Disallow: /
5. Command ini berarti mencegah semua jenis bot mesin pencari kecuali google untuk mengindex semua file yang berada di folder root dan turunannya, bot dari google boleh mengindex kecuali untuk folder cgi-bin dan privatedir
User-agent: * Disallow: / User-agent: Googlebot Disallow: /cgi-bin/ Disallow: /privatedir/
6. Command ini berarti mencegah semua jenis bot mesin pencari untuk mengindex semua file yang berada di folder root dan turunannya, tetapi utk bot alexa (ia_archiver) diperbolehkan, karena disallow nya dikosongkan yang fungsinya spt tombol on/off
User-agent: * Disallow: / User-agent: ia_archiver Disallow:
Sebagai tambahan informasi, kita bisa menggunakan syntax allow untuk mengijinkan indexing, tapi tidak semua mesin pencari mengenali command tersebut, jadi sebaiknya gunakan disalow yang dikosongkan saja seperti contoh terakhir.
Dan ini ada contoh robots.txt untuk wordpress (copas dari diskusi di situs wordpress di sini)
User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-includes/js Disallow: /trackback Disallow: /category/*/* Disallow: */trackback Disallow: /*?* Disallow: /*? Disallow: /*~* Disallow: /*~
Semoga bermanfaat.
Saya juga pernah melakukan hal ini.. 🙂
utk apa klo blh tau mas fadhly?
Konten Adalah Raja Dan Backlink Adalah Ratu... Sebuah Blog Tidak Akan Pernah Bagus Jika Tidak Di Dukung Artikel Yang Berkualitas...
Trima kasih mas, artikelnya sangat membantu buat web saya yang baru.
terima kasih gan...
maaf gan mau tanya, ini apa artinya ?
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
utk yg
User-agent: *
Disallow: /search
Allow: /
semua bot ga blh masuk ke folder /search, ex: domainku.com/search
utk yg
User-agent: Mediapartners-Google
Disallow:
bot Mediapartners-Google (crawler utk adsense/iklan) boleh lihat semua folder
tapi, klo dua2nya digabung itu berarti khusus bot Mediapartners-Google dia boleh masuk folder /search, sementara yg lainnya ga boleh lihat folder /search, kira2 gitu mas dani
wah sangat2 bermanfaat, jadi tahu dah,,,meskipun sedikit agak bingung..hihihihi
Thanks gan sangat bermanfaat, ane coba dulu
mau tanya ini artinya apa ya
User-agent: *
Disallow: /*
krn saya mau buat agar domain.com/blabla kagak keindex tapi yg ke index domain.com/article/blabla ... apa yg diatas sudah benar
sdh benar kok mas, itu artinya smua bot tdk mengindex apa2, mungkin yg blabla itu terindex krn sdh dibuat sblm robots.txt ada, jd keburu terindex, klo mau dihapus dr catatan google bisa dari cek pke webmaster toolsnya google, atau bisa jadi ada kemungkinan lainnya