Saturday 26 December 2015

Apa itu robot.txt? Apa manfaatnya?

robots.txt? Pernahkah Anda berfikir seperti itu? Pernahkah terbesit di pikiran Anda untuk mengenal robots.txt? File text ini sering kali dip... thumbnail 1 summary
robots.txt? Pernahkah Anda berfikir seperti itu? Pernahkah terbesit di pikiran Anda untuk mengenal robots.txt? File text ini sering kali dipandang sebelah mata, padahal fungsinya sungguh sanggat luar biasa. Mengapa luar biasa? Nanti akan saya beri gambarannya. Simak terus artikel ini.

Sebelumnya lebih baik kalau kita berkenalan dengan file kecil yang satu ini.

robots.txt merupakan filter bagi website kita, atau bisa juga kita samakan dengan satpam yang ada di depan rumah atau suatu kantor. Kita tahu saptam berguna untuk memfilter siapa saja yang boleh masuk kedalam kantor dan juga memberi arahan akan kemana tamu itu, misal ke resepsionis. Satpam juga memberi larangan agar tamu tidak pergi ke suatu tempat yang tidak semestinya, misal tidak boleh pergi ke gudang, ruang rahasia, dan lainnya.

Sama dengan Satpam, robots.txt juga memberikan arahan dan larangan kepada tamu. Nah, tamu yang dimaksud di sini adalah robot search engine. Katakanlah google. Google punya sebuah robot yang bernama google-bot. Nah, tugas dari google bot ini adalah mencari dan menelusuri setiap website yang terdaftar di google webmaster. Dengan google-bot ini, google mengumpulkan semua hal tentang suatu website, seperti artikel terbaru, halaman login, halaman tertentu, dan lainnya.

Nah, di sinilah peran file kecil bernama robots.txt tadi. Dia (robots.txt) akan memberi arahan dan larangan terhadap google-bot. Misalnya robots.txt memperbolehkan google-bot untuk mengakses suatu folder, atau melarang google-bot mengakses suatu folder. Namun, apabila file robots.txt tidak ditemukan di suatu website, tentu saja google-bot akan se enaknya sendiri menjelajahi website tersebut.

Trus, klo dijelajahi se enaknya oleh google-bot ngaruhnya apa? Ini jelas berbahaya. Karena file-file config, form upload, folder upload, dan file-file rahasia lainnya akan di telusuri oleh google-bot dan menyimpannya ke database google. Sebenarnya ini tidaklah menjadi masalah. Namun masalah akan timbul saat ada orang iseng mencari website sebagai korban hacking iseng di google. Mereka akan dengan mudah menemukan file-file config website kita dan dengan mudah mengakalinya.

Jelaskan, bahwa file robots.txt sangat bergunabagi suatu website. Sekarang kita coba membuat sebuah file robots.txt walaupun sebenarnya banyak website penyedia robots.txt generator.

Sebelumnya kita buat sebuah skenario. robots milik search engine tidak boleh mengakses folder config dan admin. Berikut caranya.

Pertama buatlah sebuah file dengan nama robots dan extensi txt jadi, namanya robots.txt kemudian letakkan di folder utama (jika di hosting diletakkan di public_html/www). Kemudian ketik kode berikut (yang berwarna merah).

User-agent : * <-- ini berarti aturan yang ditulis ditujukan untuk semua robots dari semua search engine
Dissallow: /config/ <-- ini berarti melarang robots dari semua search engine untuk menelusuri folder config
Dissallow: /admin/ <-- ini berarti melarang robots dari semua search engine untuk menelusuri folder admin

Kemudian save. Jadilah file robots.txt kita. Simple memang, tapi fungsinya luar biasa.

Demikian tulisan singkat saya mengenai file robots.txt dan fungsinya beserta cara pembuatan robots.txt itu sendiri.

Cara Mengatur Robots.txt

Jika Anda ingin memodifikasi atau mengatur robots.txt Anda, terlebih dahulu Anda harus berhati-hati dan paham betul karena kesalahan pengaturan bisa membuat website anda tidak diindex search engine. Oleh karena itu, sekarang saya akan menjelaskan bagaimana mengatur robots.txt dengan benar.

A. Memblokir Url

Tidak hanya kode yang saya jelaskan di atas yang dapat digunakan dalam robots.txt. Contoh kasus, misalnya  anda ingin memblokir posting tertentu agar tidak diindeks oleh semua mesin pencari, anda dapat melakukannya dengan menempatkan kode dibawah ini.

user-agent: *
disalllow: /2015/12/bocoran-one-punch-man-season-2.html?m=1

B. Memblokir Folder/Direktori

Untuk memblokir folder atau direktori (termasuk isinya) pada situs anda, Anda dapat melakukannya seperti pada contoh dibawah. Saya menggunakan direktori pada web dengan wordpress self hosted agar lebih familiar.

user-agent: *
disallow: /cgi-bin/
disallow: /wp-admin/
disallow: /wp-includes/
disallow: /wp-content/plugins/
disallow: /wp-content/cache/
disallow: /wp-content/themes/

Kode diatas berarti melarang bot crawler untuk merayapi semua file web yang ada di dalam folder cgbin, wp-admin, wp-includes serta folder plugins, cache, dan themes yang merupakan sub-directory dari folder wp-content.


User Agent

Saat mengatur robots.txt, Anda dapat mengatur mana saja bot crawler yang diperbolehkan atau dilarang untuk mengakses atau merayapi web anda secara spesifik. Oleh karena itu, Anda harus mengetahui nama beberapa bot crawler dari mesin pencari paling terkenal.
Okey, kali ini tu saja yang bisa saya bagikan. Masih bingung? jangan sungkan buat bertanya di komentar. Insyaallah akan saya jawab sebisa saya.
Semoga bermanfaat.


No comments

Post a Comment

'; /* * * DON'T EDIT BELOW THIS LINE * * */ (function() { var dsq = document.createElement('script'); dsq.type = 'text/javascript'; dsq.async = true; dsq.src = '//' + disqus_shortname + '.disqus.com/embed.js'; (document.getElementsByTagName('head')[0] || document.getElementsByTagName('body')[0]).appendChild(dsq); })(); '; // required: replace example with your forum shortname /* * * DON'T EDIT BELOW THIS LINE * * */ (function () { var s = document.createElement('script'); s.async = true; s.type = 'text/javascript'; s.src = '//' + disqus_shortname + '.disqus.com/count.js'; (document.getElementsByTagName('HEAD')[0] || document.getElementsByTagName('BODY')[0]).appendChild(s); }());