一、介紹
隨著計(jì)算機(jī)和計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展和計(jì)算機(jī)網(wǎng)絡(luò)的普及應(yīng)用,檔案的利用面臨新的機(jī)遇和挑戰(zhàn)。如果能夠?qū)n案發(fā)布于網(wǎng)絡(luò)之上,在對(duì)其進(jìn)行相應(yīng)的權(quán)限控制,則檔案的查閱將進(jìn)入一個(gè)新的歷史階段。它將大量的節(jié)省人力物力和維護(hù)檔案可用的資金投入。
為了實(shí)現(xiàn)和利用計(jì)算機(jī)網(wǎng)絡(luò)的優(yōu)勢(shì),面對(duì)大量存儲(chǔ)的紙介質(zhì)檔案,首先需要做的是對(duì)檔案的數(shù)字化工作,其次才是檔案的上網(wǎng)利用。本方案將詳細(xì)闡述我國(guó)目前檔案數(shù)字化面臨的挑戰(zhàn)和解決這些問題的辦法。
二、檔案數(shù)字化現(xiàn)狀和面臨的挑戰(zhàn)
2.1歷史的狀況
檔案在中國(guó),無論是專管檔案的檔案館還是企、事業(yè)單位的資料室,最大多數(shù)的檔案資料是以紙介質(zhì)的形式存在,自八十年代以來,很多的檔案資料被翻拍成縮微膠片的形式,節(jié)省了大量的存儲(chǔ)空間,同時(shí)解決了紙介質(zhì)檔案資料隨時(shí)間推移可用性不斷降低,維護(hù)成本不斷增加的問題——也就是檔案資料長(zhǎng)期保存的問題。但是檔案資料的最終價(jià)值是需要通過人們的廣泛利用來體現(xiàn)的,紙介質(zhì)和縮微膠片都沒有很好的解決檔案利用的問題,相反為了使之可用,需要不斷的進(jìn)行資金設(shè)備的投入——這些資金可能用于庫(kù)房擴(kuò)建、溫控、殺菌防霉,庫(kù)房管理人員的工資等等。
目前網(wǎng)絡(luò)和計(jì)算機(jī)設(shè)備硬件價(jià)格逐漸降低,中國(guó)經(jīng)過十幾年的計(jì)算機(jī)和網(wǎng)絡(luò)設(shè)備的建設(shè),在各個(gè)檔案館、企事業(yè)單位中都有了各自的局域網(wǎng),在各個(gè)部委或是行業(yè),甚至是一些大的企業(yè)都各自有了自己的全國(guó)范圍內(nèi)的廣域?qū)S镁W(wǎng)絡(luò)。這些網(wǎng)絡(luò)目前面臨的最大問題是網(wǎng)上數(shù)據(jù)量太小,沒有太多的可用數(shù)據(jù),使得投資巨大的網(wǎng)絡(luò)顯得得不償失。如果反過來看,這些網(wǎng)絡(luò)的建成和投入使用,恰恰為檔案資料的數(shù)字化后的成功應(yīng)用奠定了堅(jiān)實(shí)的基礎(chǔ)。那么檔案資料的數(shù)字化是不是購(gòu)置一些硬件設(shè)備——掃描儀計(jì)算機(jī)就可以完成數(shù)字化的工作呢,答案是否定的。為什么?讓我們先看看我們的檔案資料在沒有數(shù)字化之前是什么樣的。
2.2數(shù)字化面臨的挑戰(zhàn)
無論是檔案還是資料,通過上面的分析,它們之所以被保存并能被利用,是因?yàn)槿藗兪占瘷n案資料進(jìn)行保存時(shí),對(duì)其進(jìn)行了邏輯化的歸類存儲(chǔ),同時(shí)建立了索取這些被歸類的檔案資料的目錄索引信息。當(dāng)人們需要某種信息時(shí),負(fù)責(zé)管理檔案的人員通過查閱這些索引信息,找到這些檔案資料所在的位置后,將原件取出,供借閱人使用。顯然這種方式是我們熟知的方式,它的缺點(diǎn)也為人們所公認(rèn)的:速度慢,對(duì)原件損害程度大,不能實(shí)現(xiàn)多人對(duì)同一份檔案的同時(shí)共享。
如果能夠?qū)⑦@些紙面上的檔案資料信息數(shù)字化,那么上述公認(rèn)的缺點(diǎn)將不復(fù)存在。數(shù)字信息在網(wǎng)絡(luò)上以光的速度進(jìn)行傳輸,復(fù)制一份電子文件只需要幾秒鐘,而上百萬卷的檔案資料——要幾個(gè)庫(kù)房才能夠放下,現(xiàn)在只需要床頭柜大小的設(shè)備,就能夠存儲(chǔ)完畢,甚至還又可能顯得綽綽有余,對(duì)這些檔案的查詢速度,無論你是在地球的這邊還是那邊,幾秒鐘你就可以獲得您想要的檔案資料,當(dāng)然前提是你有足夠的權(quán)限能夠訪問這些信息。
事實(shí)的確如此,因而檔案資料的數(shù)字化,以一種不可逆轉(zhuǎn)的潮流席卷全球,無論是政府機(jī)關(guān),工礦企業(yè),還是學(xué)校和私營(yíng)公司都在進(jìn)行數(shù)字化的工作,與此同時(shí)數(shù)字化的設(shè)備也層出不窮。當(dāng)我們用文檔掃描儀或者膠片掃描儀對(duì)每一份檔案資料進(jìn)行掃描時(shí),我們必須像收集紙件檔案資料那樣,建立相應(yīng)的索引信息,以便我們將來能夠?qū)ξ覀兯璩龅碾娮游募M(jìn)行檢索利用,而掃描儀不能像人一樣對(duì)掃描出的電子影像進(jìn)行組卷編目歸檔存儲(chǔ),所有這一切還必須有人來完成,至少在一定的軟件幫助下建立這些索引信息。
顯然,檔案資料數(shù)字化的困難在于:
首先是由于檔案資料的數(shù)量巨大,少則上萬頁,多則上千萬頁,乃至上億頁。在掃描的過程中,都需要保證影像清晰,工整,對(duì)于檔案還要盡可能的保持檔案的原始風(fēng)貌,對(duì)于資料則盡可能的清新易于利用;
第二是檔案組卷后,有卷皮,卷內(nèi)目錄,文件,和備考表,資料可能有章、節(jié)、參考書目、關(guān)鍵字,中英文摘要等等,在掃描成電子影像的同時(shí),必須保證這些邏輯結(jié)構(gòu)。用于數(shù)據(jù)庫(kù)查詢所用的各類條目信息,都是花費(fèi)了大量人力物力獲得的寶貴信息資源,如何將這些資源充分利用起來,當(dāng)查閱這些信息的同時(shí)就能夠查到相應(yīng)的電子影像的文件,這是數(shù)字化面臨的另一巨大挑戰(zhàn);
第三是檔案一旦數(shù)字化,檔案管理的對(duì)象不再是單純的紙質(zhì)檔案單一的載體,人們已經(jīng)習(xí)慣了打開翻看就知道內(nèi)容的紙質(zhì)檔案,如何管理看不見摸不著,只能借助于計(jì)算機(jī)設(shè)備和相應(yīng)的軟件才能知道它是什么的電子檔案資料,是擺在檔案管理人員面前的另一大挑戰(zhàn),不僅于此,如何保證各種檔案資料各種介質(zhì)的統(tǒng)一或者說一致性,更是檔案管理的難題所在。
無論是數(shù)字化還是檔案資料的管理,都不是我們的目的,我們的目的是為了更好的利用檔案資料,檔案資料的數(shù)字化和數(shù)字化的管理,都是保證更好的利用的前提和手段。
總結(jié)起來,檔案資料數(shù)字化的困難分三個(gè)階段,首先是如何解決好不同紙質(zhì),不同裝訂形式,不同幅面的紙質(zhì)檔案資料,能夠被快速的掃描,并保證掃描出的電子影像是優(yōu)質(zhì)的——即沒有黑邊、不偏、不斜內(nèi)容清晰完整,適合閱讀;第二個(gè)階段如何保證掃描出的電子影像保持與紙介質(zhì)相一致的邏輯結(jié)構(gòu);第三個(gè)階段是如何保證這些電子檔案資料被方便的利用——和數(shù)據(jù)庫(kù)里的信息進(jìn)行銜接,能夠被利用者方便的查閱和使用;第三個(gè)則是檔案的安全性。
三、解決方案
面對(duì)數(shù)量巨大的檔案資料,數(shù)字化能行得通的唯一辦法,是批量處理流水作業(yè)。就目前計(jì)算機(jī)技術(shù)而言,相當(dāng)多的后處理工作可以交給軟件系統(tǒng)來處理,根據(jù)各自保管的檔案資料選取適合的掃描設(shè)備,通過軟件系統(tǒng)把這些設(shè)備處理出的結(jié)果進(jìn)行串聯(lián)和加工后,就能夠非常快的進(jìn)行檔案資料的數(shù)字化。
對(duì)于把紙件檔案資料直接數(shù)字化的用戶,可能面臨的問題是:
一、一卷檔案一本資料無法用一種掃描儀完成每一頁的掃描任務(wù)。特別是在工程類的檔案中,一卷檔案中有很小幅面的發(fā)票收據(jù),也含有整個(gè)樓宇的建筑結(jié)構(gòu)圖,它可能是幅面超過A0或者A1的大型圖紙;一本資料中也可能含有超過書本幅面的圖紙、示意圖等,為了保證完成檔案資料的數(shù)字化工作,可能需要不同幅面的掃描儀參與數(shù)字化的工作。
二、為了保證盡可能快的掃描速度,我們必須區(qū)分被掃描紙件的特征;對(duì)于紙質(zhì)優(yōu)良,拆解后再裝訂對(duì)原有的檔案資料無重大損害的,應(yīng)當(dāng)采用相對(duì)高端的商用掃描儀,這類掃描儀能快速的完成掃描任務(wù),而且包含了對(duì)影像質(zhì)量的即時(shí)處理的功能。而對(duì)于無法拆解的檔案資料,只能用平板的掃描儀進(jìn)行掃描,而這類掃描儀的掃描速度往往很慢,且不包含對(duì)影像質(zhì)量的即時(shí)處理功能。
三、考慮到查閱和利用的方便性,必須保證檔案資料查閱最小單元的完整性和順序性。掃描設(shè)備在進(jìn)行掃描的過程中,有些能夠保證將掃描完成的幾頁合并成一個(gè)包含多頁的影像文件,但這需要人工干預(yù),而這種人工干預(yù)對(duì)掃描速度會(huì)有很大的損傷。此時(shí)需要軟件進(jìn)行后續(xù)處理,在掃描過程當(dāng)中加入適當(dāng)?shù)母綦x標(biāo)識(shí)。
四、 對(duì)于只能用低端掃描儀進(jìn)行掃描的檔案資料生成的電子影像,能夠在后期對(duì)影像進(jìn)行批量的質(zhì)量處理——糾偏,去黑邊,去麻點(diǎn),調(diào)整對(duì)比度等等設(shè)備性能的補(bǔ)償處理。
五、需要軟件輔助對(duì)掃描的電子影像進(jìn)行邏輯化的處理,并提供邏輯化處理出的結(jié)果進(jìn)行質(zhì)量檢驗(yàn)的手段,和對(duì)發(fā)生錯(cuò)誤后進(jìn)行調(diào)整的辦法。
六、提取歸檔的數(shù)字化檔案資料的檢索信息,如果用戶已經(jīng)具備了大量的條目信息,則必須實(shí)現(xiàn)電子影像位置信息和數(shù)據(jù)庫(kù)條目信息的對(duì)接。對(duì)于沒有條目信息的用戶必須提供用戶錄入條目信息的窗口和操作界面,對(duì)于信息不完整的索引信息應(yīng)能進(jìn)行索引信息的批量補(bǔ)充工作,以實(shí)現(xiàn)對(duì)數(shù)據(jù)條目及全文的查閱。
綜上所述,紙件掃描數(shù)字化,必須根據(jù)自己的數(shù)字化對(duì)象具體分析,選取適應(yīng)的設(shè)備和相應(yīng)的后處理軟件,并結(jié)合自己對(duì)數(shù)字化后的檔案資料的利用方式,保證數(shù)字化后的電子影像和提取的索引信息能夠被檢索系統(tǒng)所利用。