薩克森-安哈爾特州立圖書(shū)館的報(bào)紙庫(kù)房
報(bào)紙包括著對(duì)于一個(gè)時(shí)代的政治、經(jīng)濟(jì)、文化和社會(huì)的重要見(jiàn)解,是與歷史相關(guān)的所有學(xué)科的重要信息來(lái)源。德國(guó)薩克森-安哈爾特州立圖書(shū)館是德國(guó)最大的報(bào)紙存放地之一:包括1945年前出版的1300多種報(bào)紙,其中大約800種來(lái)自德國(guó)中部。
這些報(bào)紙對(duì)于當(dāng)今德國(guó)的研究有著重要的意義。舉例來(lái)說(shuō),在研究德國(guó)中部的經(jīng)濟(jì)和社會(huì)史時(shí),《總督》和《薩勒日?qǐng)?bào)》具有非常重要的意義。因此在上個(gè)世紀(jì)90年代,出于再生性保護(hù)的考慮,薩克森-安哈爾特州立圖書(shū)館對(duì)館藏報(bào)紙進(jìn)行了縮微膠片拍攝,以滿足讀者的使用。然而到了今天,讀者不再滿足于用縮微膠片閱讀器查閱報(bào)紙,而希望采用一種更加智能和高效的方式。
因此,從2019年開(kāi)始,由德國(guó)研究基金會(huì)(Deutsche Forschungsgemeinschaft-DFG)贊助,薩克森-安哈爾特州立圖書(shū)館在賽數(shù)公司的幫助下,啟動(dòng)了《總督》《薩勒日?qǐng)?bào)》等報(bào)紙的數(shù)字化項(xiàng)目。在兩年的時(shí)間內(nèi),一百萬(wàn)頁(yè)的報(bào)紙得以數(shù)字化,并通過(guò)網(wǎng)絡(luò)免費(fèi)向公眾開(kāi)放。所有這些數(shù)字化的報(bào)紙都可以像Google搜索一樣,以全文檢索的形式簡(jiǎn)單快速地找到目標(biāo)內(nèi)容。
為了實(shí)現(xiàn)這個(gè)目標(biāo),圖書(shū)館使用了先進(jìn)的文本識(shí)別軟件(OCR)Tesseract。借助AI學(xué)習(xí),該軟件能夠正確區(qū)分報(bào)紙上看起來(lái)很相似的字母,并學(xué)習(xí)識(shí)別不同的字體。然而,要充分發(fā)揮文字識(shí)別軟件的作用,對(duì)圖像質(zhì)量的要求很高。這一問(wèn)題通過(guò)使用賽數(shù)的兩款掃描儀得以解決。
賽數(shù)OS14000掃描儀掃描幅面最大可達(dá)超A0,適用于掃描大幅面字畫(huà)、報(bào)紙、圖紙、地圖等,其高精度、真彩色掃描鏡頭可以獲得極高的色彩還原度,完美再現(xiàn)原件的所有可見(jiàn)細(xì)節(jié)。OS14000的掃描速度相較于同類型掃描儀有很大優(yōu)勢(shì),A0幅面的文檔只需小于6.5秒便可完成掃描。此外,其人性化的設(shè)計(jì)為用戶提供了安全、可靠并符合人體工程學(xué)的操作環(huán)境,從而進(jìn)一步提升了工作效率。
工作人員使用賽數(shù)OS14000掃描儀掃描報(bào)紙
對(duì)于館藏的大量縮微膠片,則使用賽數(shù)OM1800縮微膠片掃描儀進(jìn)行數(shù)字化處理。OM1800搭載新研發(fā)的攝像機(jī)和照明系統(tǒng),可提供高達(dá)600dpi的真實(shí)光學(xué)分辨率和至少12位灰度,從而以高質(zhì)量將縮微膠片有效地?cái)?shù)字化,數(shù)字化結(jié)果的文字識(shí)別準(zhǔn)確率極高。OM1800還可以自動(dòng)對(duì)齊各個(gè)頁(yè)面,并將頁(yè)邊距減小到最小,以優(yōu)化存儲(chǔ)空間的使用。
使用賽數(shù)OM1800縮微膠片掃描儀對(duì)縮微膠片進(jìn)行數(shù)字化處理
賽數(shù)掃描儀和文本識(shí)別軟件的結(jié)合提供了出色的結(jié)果,精度達(dá)到95%以上,這個(gè)成績(jī)對(duì)于歷史報(bào)紙文獻(xiàn)來(lái)說(shuō)是突破性的。