Mengamankan robot.txt dan sitemap.xml Melalui Config Apache

Apakah robot.txt itu?

Robot.txt adalah sebuah file yang digunakan oleh sebuah aplikasi web, untuk memberikan instruksi pada Search Engine Bot, tentang apa saja yang boleh diindex dan apa saja yang tidak boleh diindex. Search Engine Bot, adalah browser milik search engine yang berguna untuk menelusuri semua link URL di seluruh dunia, untuk kemudian hasilnya dicatatkan pada database search engine. Contoh Search Engine Bot adalah : GoogleBot, YandexBot, YahooBot, Bing Bot, dan lain sebagainya.

Kadang untuk meningkatkan keamanan kita, maka pada file robot.txt akan dituliskan beberapa hal antara lain :

  1. Nama UserAgent (browser, bot)
  2. Allow/Disallow (ijin akses)
  3. Direktori yang dikenai Allow/Disallow
  4. Sitemap

Contoh file robot.txt adalah:
Continue reading “Mengamankan robot.txt dan sitemap.xml Melalui Config Apache”

Bermain-main dengan CURL

CURL adalah sebuah produk project berbasis ‘command line’ yang digunakan sebagai software client HTTP. Dalam prakteknya, CURL digunakan untuk melakukan hit terhadap sebuah URL, dan akan menangkap kembalian dalam wujud text mode. Sederhananya : browsing dengan command line. Mengapa CURL harus ada? CURL ada untuk menjadi cikal-bakal browser lainnya, dapat juga menjadi tool yang digunakan oleh bahasa-bahasa pemrograman, untuk mendapatkan hasil browsing berupa text, sehingga dapat dikenai aksi parsing.

Bagaimana instalasi CURL?

Untuk Linux user, CURL adalah perangkat yang sudah disediakan di repository instalasi distro masing-masing Linux.

Instalasi dapat juga dilakukan dengan melakukan dowload langsung dari https://curl.haxx.se, kemudian dilakukan kompilasi program sendiri, sesuai petunjuk yang ada pada dokumentasi instalasi situs tersebut.
Continue reading “Bermain-main dengan CURL”