Latest News

Web Archiving yg Terawetkan


Tugas Softskill

Assalamu’alaikum..

            Sesuai komitmen aku yg sebelumnya telah Membahas Apa itu Web Crawler, namun kali ini aku dan sobat sahabat Bakal Bakal melanjutkan mengulas ihwal Apa Itu Web Archiving. Ada yg tau ga Web Archiving itu apa ? Jika di terjemahain pake bahasa indonesia sih Pengarsipan Web. Maksudnya pengarsipan itu setau aku kita mengelompokkan web tersebut sampai tersusun rapih. Nah untuk mengetahui lebih lanjut apa itu Web Archiving, simak dibawah ini ya.. :

Apa itu Web Archiving ?

            Web Achiving atau pengarsipan ialah proses pengumpulan bab dari World Wide Web (WWW) untuk memastikan gosip yg diawetkan dalam arsip bagi para peneliti di masa depan, sejarawan, dan masyarakat umum. Web terbesar pengarsipan organisasi menurut pendekatan merangkak massal ialah Internet Archive yg berusaha untuk memelihara arsip dari seluruh Web Perpustakaan Nasional , Arsip Nasional dan banyak sekali konsorsium organisasi juga terlibat dalam pengarsipan konten Web budaya penting. Web komersial pengarsipan perangkat lunak tersedia untuk organisasi yg perlu arsip konten web.

Pengumpulan Web

            Arsiparis web umumnya biasanya mengumpulkan arsip banyak sekali jenis konten web termasuk HTML halaman web, style sheet , JavaScript , gambar , dan video yg . Mereka juga arsip metadata ihwal sumber daya dikumpulkan mirip waktu akses, tipe MIME , dan panjang konten. Metadata ini mempunyai kegunaan dalam membangun keaslian dan asal dari koleksi arsip. Jangan lupa tak begitu saja arsiparis mengumpulkan arsip yg begitu banyak adanya, tentu saja ada metode-metodenya.

*maksudnya arsiparis diatas ialah orang yg mengelola, memelihara, dan mengatakan gosip suatu dokumen/file. Oke silahkan simak metode dibawah ini :

Metode Pengumpulan web

1.         Jauh panen

            yg paling umum teknik web pengarsipan bekerja sama dengan web crawler untuk mengotomatisasi proses pengumpulan halaman web . Web crawler biasanya mengakses halaman web dengan Caranya yg sama bahwa pengguna dengan browser melihat Web, dan alasannya ialah itu menyediakan metode yg relatif sederhana konten web panen jauh. Contoh web crawler dipakai untuk web pengarsipan meliputi:

          Heritrix
          HTTrack
          Wget

2.         On-Demand

            Ada banyak layanan yg sanggup dipakai untuk sumber arsip web "on-demand", namun menggunakan teknik web merangkak. Layanannya mirip berikut :

          Aleph Arsip , layanan pengarsipan web untuk kepatuhan terhadap peraturan dan eDiscovery bertujuan untuk perusahaan industri aturan dan pemerintah.

          Archive.is  , sebuah layanan gratis yg menyimpan halaman dan semua gambar nya. Hal ini sanggup menyimpan halaman Web 2.0.

          Arsip-It , sebuah layanan berlangganan yg memungkinkan forum untuk membangun, mengelola dan mencari arsip web mereka sendiri.

          Archivethe.net  , shared web-platform pengarsipan dioperasikan oleh Internet Research Memory, spin-off dari memori internet dasar (sebelumnya Yayasan Arsip Eropa). IM Situs Web.

          Kepatuhan WatchDog oleh SiteQuest Teknologi , sebuah layanan berlangganan yg memungkinkan pengguna untuk menelusuri situs ,  seperti yg muncul di masa lalu. Hal ini juga memonitor situs Jika disitus tersebut terdapat perubahan.

          Snapshot freezePAGE , sebuah layanan gratis / berlangganan. Untuk melestarikan snapshot.

          NextPoint , mengatakan berbasis cloud otomatis, untuk kebutuhan terkait pemasaran, kepatuhan dan litigasi termasuk inovasi elektronik

          Situs-Archive.com , layanan berlangganan. Menangkap layar-tembakan halaman, transaksi dan perjalanan pengguna menggunakan "browser yg sebenarnya". Layar-tembakan sanggup dilihat seCaranya online atau download dalam arsip bulanan. menggunakan Pengujian Cloud teknologi.

          Dll, karna penyedia layanan situs archive ini sangatlah banyak.

Database Pengarsipan

            Database pengarsipan mengacu pada metode untuk pengarsipan konten yg mendasari situs database-driven. Hal ini biasanya memerlukan ekstraksi dari basis data konten ke standar sketsa , sering menggunakan XML . setelah disimpan dalam format standar, konten diarsipkan beberapa database kemudian sanggup dibentuk tersedia menggunakan sistem saluran tunggal. Pendekatan ini dicontohkan oleh DeepArc dan Xinq alat yg dikembangkan oleh Bibliotheque nationale de France dan National Library of Australia.

Transaksional pengarsipan

            Transaksional pengarsipan merupakan pendekatan-event, yg mengumpulkan transaksi faktual yg terjadi antara server web dan browser web . Hal ini terutama dipakai sebagai sarana melestarikan bukti dari isi yg bergotong-royong dilihat pada tertentu situs web , pada tanggal tertentu.

            Sebuah sistem pengarsipan transaksional biasanya beroperasi dengan mencegat setiap HTTP request ke, dan respon dari, web server, penyaringan setiap respon untuk menghilangkan duplikat konten, dan seCaranya permanen menyimpan jawaban sebagai bitstreams. Sebuah sistem pengarsipan transaksional membutuhkan instalasi perangkat lunak pada server web, dan jadinya tidak sanggup dipakai untuk mengumpulkan konten dari situs remote.

Crawler

            Web arsip yg mengandalkan web merangkak sebagai sarana utama mereka mengumpulkan Web dipengaruhi oleh kesulitan merangkak web :

          Para robot protokol pengecualian sanggup meminta crawler tidak sanggup mengakses bab dari sebuah situs web.

          Sebagian besar dari sebuah situs web mungkin tersembunyi di dalam Web . Misalnya, halaman hasil balik formulir web terletak pada dalam Web alasannya ialah kebanyakan crawler tidak sanggup mengikuti link ke halaman hasil.

          Perangkap Crawler, sanggup menjadikan crawler untuk men-download jumlah tak terbatas halaman, sehingga crawler biasanya dikonfigurasi untuk membatasi jumlah halaman dinamis sehingga tidak pesat kemajuannya.

Namun, penting untuk dicatat bahwa format web arsip supaya, yaitu, dibrowse arsip web sepenuhnya, dengan link kerja, media, dll, hanya benar-benar mungkin menggunakan teknologi crawler.

Keterbatasan Umum

            Tidak hanya Musti arsiparis web menghadapi tantangan teknis web pengarsipan, mereka juga Musti berhadapan dengan aturan kekayaan intelektual. Peter Lyman menyatakan bahwa "Meskipun Web yg Populer Dianggap Sebagai Domain Publik Sumber Daya, Itu Hak Cipta , Dengan Demikian, Arsiparis Tidak Memiliki Hak Legal Untuk Menyalin Web ". Namun perpustakaan nasional di banyak negara mempunyai hak legal untuk menyalin bagian-bagian dari web di bawah perpanjangan deposito aturan .

            Beberapa arsip web nirlaba swasta yg dibentuk sanggup diakses publik mirip WebCite , yg Internet Archive atau memori internet memungkinkan pemilik konten untuk menyembunyikan atau menghapus konten diarsipkan bahwa mereka tidak ingin publik untuk mempunyai saluran ke. Arsip web lainnya hanya sanggup diakses dari lokasi tertentu atau mempunyai penggunaan diatur. WebCite mengutip somasi gres terhadap caching Google.

Aspek Kurasi Web (menambahkan nilai dan menentukan hanya konten yg paling relevan untuk pengguna spesifik)

Web yg mempunyai kurasi, mirip kurasi digital, Musti mempunyai mirip :

          Sertifikasi iman dan integritas isi koleksi
          Mengumpulkan aset Web diverifikasi
          Menyediakan pencarian aset Web dan pengambilan
          Kontinuitas semantik dan ontologis dan komparatif dari isi koleksi

            Dengan demikian, di samping mengulas metode pengumpulan Web, mereka mengatakan akses, sertifikasi, dan pengorganisasian Musti disertakan. Ada satu set alat terkenal yg mengulas langkah-langkah kurasi :

Sebuah suite alat untuk Web Kurasi oleh International Internet Preservation Consortium :

          Heritrix - situs resmi - mengumpulkan aset Web
          NutchWAX - pencarian Web arsip koleksi

          Wayback (Open source Wayback Machine) pencarian koleksi arsip Web menggunakan NutchWax
          Web Kurator Alat - Seleksi dan Pengelolaan Web Collection
          dll .

           Sampai disini dulu ya pembahasan ihwal Web Archiving nya.. bila ada kata-kata yg Keliru mohon dimaafkan.. nantikan pembahasan lainnya ya ihwal Analisis Web dan Search Engine.. Terima kasih... ^^



Tim Kami :

 1. Ayu Amizah                                   ( 51411317 )
 2. Mahdhika Juliansyah                   ( 54411246 )
 3. Muhammad Faris Al Fatih          ( 54411827 )
 4. Rachman Aji Putra Kusumaa     ( 58411572 )
 5. Tio Pratama Agung                      ( 57411119 )


Wassalamu'alaikum...


Baca Selengkapnya Disini



Baca Juga :


0 Response to "Web Archiving yg Terawetkan"