行業動態采集范圍

       采集范圍。網頁檔案的采集有不同的采集策略,不同的采集策略決定了不同的采集范圍,可分為完整型采集、選擇型采集以及混合型采集。

       完整型采集是對特定網域的全域進行自動化采集,采集范圍廣、內容多。美國的IA宗旨是保存互聯網的全面記錄,對全球公開的網站進行定期采集。每兩個月,網站頁面快照都會被互聯網存檔,自IA項目啟動以來,互聯網存檔已經存儲了2730億個網頁。

       選擇型采集是有針對性地捕獲特定的網站,通常是根據事件、主題進行選擇采集,采集范圍小,需要借助人力。例如,澳大利亞的PANDORA項目只采集與澳大利亞相關,且具有文化意義的網站;美國國會圖書館的Library of Congress Web Archives(以下簡稱LCWA)項目,重點采集與國家利益主題相關的網頁資源,包括美國選舉、伊拉克戰爭和911事件;蘇格蘭的NRS網頁檔案項目,事先制定指南,根據指南采集其范圍內組織創建和擁有的網站,包括蘇格蘭政府、蘇格蘭議會、蘇格蘭法院等。
       混合型采集是將兩種策略相結合,先大范圍地對網站進行完整采集,再有重點地針對某些特定的網站進行深度、頻繁的選擇性采集。英國的UKWA項目,首先爬網內容是在英國發布的網站,如那些在英國頂級域名上的網站.uk、.cymru和.scot,以及可以手動識別出在英國發布的網站,再由工作人員定期關注、收集有關特定事件、主題或興趣領域的網站。

本文地址:http://www.igfhdfxu.buzz/article/21662.html
相關文章:
最新文章:
最正规的手机棋牌游戏 mg幸运双星赔付 (★^O^★)MG黄金农场客户端下载 (★^O^★)MG日日进财免费试玩 09属虎人幸运数字 (*^▽^*)MG花花公子_最新版 码报资料 福彩18选7微信群 广东好彩1开奖助手 江西快三666最长遗漏多少期 005期波叔特码 (*^▽^*)MG幸运熊猫官网 (★^O^★)MG幸运盖尔首页 快乐双彩208期 在线甘肃快3 怎样删除微信朋友圈的内容 (^ω^)MG金钱蛙新手攻略