Test Block Top

The Blog...
Articles, Tips & Trick and Other Interesting Information...
Tampilkan postingan dengan label robots.txt. Tampilkan semua postingan
Tampilkan postingan dengan label robots.txt. Tampilkan semua postingan
13 Mei 2012

Sekilas Tentang Robots.txt

Dilihat dari nama ekstensi filenya .txt (text), dapat dimpulkan robots.txt merupakan file text dalam konteks artikel ini mempunyai arti file text yang dibuat khusus untuk memberitahukan robot mesin pencari (search engine) tentang apa yang harus mereka lakukan pada halaman tertentu website atau blog. Singkatnya robots.txt dikhususkan untuk membatasi aktifitas crawling search engine terhadap file ataupun direktori folder tertentu suatu website/blog.

Untuk membuat file robots.txt caranya gampang, buat file baru menggunakan text editor (notepad misalnya) dan simpan dengan nama robots.txt. Kemudian upload file ini ke direktori root website (public_html, htdocs, dlsb).

Contoh Penggunaan Syntax robots.txt

Blok Semua Robot ke Semua File/Direktori



# Blok Semua Robot ke Semua File/Direktori
User-agent: *
Disallow:

Blok Semua Robot



# Blok Semua Robot
User-agent: *
Disallow: /

Blok Semua Robot Pada Direktori/Folder Tertentu



# Blok Semua Robot Pada Direktori/Folder Tertentu
User-agent: *
Disallow: /admin/
Disallow: /member/
Disallow: /private/

Blok Spam Bots



# Blok Spam Bots
User-agent: Bad Crawler
Disallow: /

Seperti terlihat pada contoh di atas, anda bisa menyisipkan comment (komentar) pada file robots.txt untuk memudahkan identifikasi syntax. Tambahkan karakter #, kemudian tulis komentar anda.

Namun seperti layaknya karya buatan manusia lainnya, robots.txt mempunyai beberapa kelemahan, diantaranya:
  1. robots.txt tidak akan mampu blok spam bots (bad crawler/robot), biasanya spam bots mengabaikan syntax rule robots.txt.
  2. robots.txt ditujukan hanya untuk blok robot (search engine) & bukan user (site visitor).

    robots.txt merupakan public file, semua orang (site visitor) bisa melihat konfigurasi file atau direktori mana saja yang diblok oleh file robots.txt. Cukup dengan mengetikkan alamat domain atau subdomain diikuti dengan mengetikkan karakter garis miring/slash (/) + robots.txt, site visitor bisa melihat isi/konten file robots.txt (http://domain-target.com/robots.txt)

    Untuk mencegah pengunjung situs (site visitor) melihat file robots.txt, baca trik .htaccess di sini.
Tips menggunakan file robots.txt:
  1. Selalu tempatkan file robots.txt pada direktori/folder root website (baik domain utama maupun subdomain). Contoh: tempatkan pada http://domainmu.com, http://subdomain1.domainmu.com, http://subdomain2.domainmu.com, dst...
  2. Tak ada manusia yang sempurna. Tidak menutup kemungkinan penulisan code (syntax) pada file robots.txt bisa salah ketik. Gunakan tool online checker robots.txt untuk cek file robots.txt anda. Berikut beberapa situs robots.txt checker yang dapat anda kunjungi:
  3. Manfaatkan robots.txt generator pada halaman Google Webmaster Tools untuk buat file robots.txt.
  4. Untuk blok robot tertentu, info database robot bisa anda lihat pada halaman ini.
Semoga bermanfaat...
:)

Cegah Akses File robot.txt Kecuali Google

File robots.txt dikhususkan hanya untuk blok robot (search engine) & bukan user (site visitor). Karena file robots.txt merupakan public file, semua orang (site visitor) bisa melihat konfigurasi file atau direktori mana saja yang diblok oleh file robots.txt.

Cukup dengan mengetikkan alamat domain atau subdomain diikuti dengan mengetikkan karakter garis miring/slash (/) + robots.txt, site visitor bisa melihat isi/konten file robots.txt (http://domain-target.com/robots.txt) (Gambar lihat Screenshot di bawah).
Cegah Akses File robots.txt

robots.txt

Untuk menghindari visitor akses file robots.txt, berikut ada cara menyembunyikan (deny access) file robot.txt dari scanning luar kecuali untuk googlebot dan google analytics:

Buka file .htaccess, kemudian tambahkan code di bawah ini:



<Files robots.txt>
Order Deny,Allow
Deny from All
Allow from googlebot.com google.com google-analytics.com
</Files>

Simpan perubahan file .htaccess. Sekarang setiap kali ada visitor yang akses file robots.txt, akan diarahkan ke halaman error 403 (forbidden).

Forbidden

You don't have permission to access /robots.txt on this server.
Cegah Akses File robots.txt 2

robots.txt: Forbidden Error 403

Selesai. Semoga bermanfaat...
:)
Loncat ke Atas ↑