Stop! Kita gunakan URL Grabber aja
Pagi ini setelah kerjaan rada longgar, saya melanjutkan merapikan list kajian.net yang biasa saya download. Kajian.net sendiri sudah menjadi situs wajib untuk menimba ilmu Agama. Saat ini bisa dikatakan situs kajian.net menjadi repositori “podcast” kajian terbesar di Indonesia. Entah sudah berapa ribu kajian yang sudah tersedia di sana. Menurut list yang sudah saya buat, ada 113 pemateri yang sudah tersedia podcast kajiannya di sana. Itu belum judul-judul kajiannya yang bisa puluhan per ustadznya.
Bulan ini saya memang punya projek pribadi yang ingin dilaksanakan. Bermula dari ide memanfaatkan BW kampus yang seringkali nganggur malamnya.
Yo to yud, din. Dari situ kemudian ada diskusi ringan dengan beberapa teman untuk membuat projek download bersama kajian.net. Ya kan kalo download sendiri-sendiri sayang Bandwithnya. Mendingkan bareng-bareng, jadi bisa ada saving BW. Belum lagi kalo downloadnya asal -kayak sekarang, udah deh susah trackingnya. Dari situlah kemudian muncul ide merapikan download-an kajian.net. Caranya dengan mendownload kajian per ustadz, di listing judul kajiannya dan url downloadnya. Biar rapi. Ke depannya, bisa di kategorikan berdasarkan pokok materi seperti yang sudah dilakukan di web utama kajian.net. Misal soal muslimah, soal pintu-pintu rezeki, soal problematika rumah tangga dll.

Listing sendiri baru berjalan beberapa waktu. Saya mulai dari list atas, dan salah satu teman saya mulai dari list bawah. Tapi sejalan dengan waktu kok sepertinya rada ribet. Ya karena saya harus membuka web kajian.net kemudian membuka halaman ceramah untuk mendapatkan list ustadz, kemudian di halaman ustadz ada beberapa judul kajian yang saya list terlebih dahulu ke excel. Setelah selesai terlist, saya beranjak untuk melist URL download kajian dengan membuka halaman per judul dan menyusunnya di notepad sehingga nanti tercipta file txt berisi link download. Salah satu contohnya adalah list kajian Ustadz Armen Halim Naro ini.
Proses berulang itu kemudian mengingatkan saya pada cara kerja Teleport yang biasa saya gunakan untuk mendownload keseluruhan web agar bisa diakses secara offline. Kalau tak salah, namaya web grabber. Mungkin tidak cocok kalau pada kasus ini saya menggunakan **web grabber**, tapi lebih ke arah **URL grabber**. Setahu saya, kalau web grabber hasil akhirnya adalah berbentuk halaman-halaman web yang tersimpan ketika di grab, sedang url grabber berisi kumpulan link yang sesuai kriteria ketika kita grab. Ya ini hanya dari perkiraan sotoy saya
Next, kayaknya fokus saya bakal ke tema ini. Sekilas soal cara kerja web grabber bisa dibaca di sini. Prinsipnya kan hampir sama, jadi ndak papa buat referensi. Pembeda dari keduanya adalah outputnya
Salah satu clue yang sudah saya dapat adalah pemanfaatn script perl untuk ide ini. Berikut beberapa literatur yang menurut saya relevan :
- Petunjuk Pemakaian Skrip Perl
- [PERL] URL Link Grabber
- URLGrabber Project Page Up
- Url grabber on cygwin
Popularity: 31% [?]




This post has 11 comments
February 24th, 2010
Mas.. bisa Giga tuh file nya yang sudah di download??? leh minta gak??
February 25th, 2010
Di Windows punchobiku pakek:
:\> wget -m [url]
OdyDasa punya tulisan baru berjudul : CyberLecture menggunakan Claroline
February 25th, 2010
BTW, mending di gateway dipasangin cache aja, dioptimasi ke situs yg laris…
Jadi, orang lain yg akses ke tempat yg sama akan dilayani oleh cache tsb.
Termasuk file2 multimedianya.
Sediakan aja hardisk orde tera.
OdyDasa punya tulisan baru berjudul : CyberLecture menggunakan Claroline
February 25th, 2010
#afoal : boleh main aja ke rumah besok sabtu
#kang ody : aku mau gak cuman ambil URL lho kang? tp juga judulnya. trus lagi kalo pake cache itu dah ribet. soale harus kongkalikong sama temen2 jaringan. padahal ini kan projek pribadi. trus inventnya juga mahal. padahal ini maune simpel aja “memanfaatkan bw yang kadang terbengkalai”
February 26th, 2010
Rumhnya di mana mas???
February 25th, 2010
Ya wis, gak usah ngajak orang jaringan terlibat.
Gini aja, bikin cache di PC-mu aja, yg nantinya bisa diakses oleh temen2mu di LAN.
Di aplikasi Google di desktop ada fasilitas cache macam ini, yg bisa diakses lewat localhost. Tapi hanya bisa diakses di localhost. Mungkin dg trik khusus, semacam port forwading bisa disiasati.
Misalkan
dari *:1234 bakal diambilkan konten dari localhost:1000
(nomor port ngawur, sesuaikan sendiri aja)
Ketoknen mbiyen jaman isih nduwe NIM tau nggawe semacam ini, tapi lupa sukses atau tidak ^_^
OdyDasa punya tulisan baru berjudul : CyberLecture menggunakan Claroline
February 27th, 2010
senang sekali mengetahui skrip [PERL] URL Link Grabber berguna bagi sesama…
kalo masih ada pertanyaan, silahkan bro jangan sungkan2……..
March 5th, 2010
Wah, thanks ya mas …
Program kasir punya tulisan baru berjudul : Program Kasir 
Nice for info !!!
March 31st, 2010
Kemarin sempat beberapa kali down kajian[dot]net nya bang
June 3rd, 2010
thanks ya to artikEl…..salam kenal…
June 21st, 2010
thanks to info,,,sangat bermanfaat,,,
sewa mobil di bali punya tulisan baru berjudul : Sewa Mobil Di Bali 