關閉→
當前位置:知科普>綜合知識>雙層pdf是什麼意思

雙層pdf是什麼意思

知科普 人氣:1.88W

雙層pdf是什麼意思

演示機型:華為MateBook X    系統版本:win10    

雙層pdf是一種具有多層結構的PDF格式文件,是PDF文件衍生的一種文件。文件既可以是文本型的(比如由word生成的文件),也可以是圖像型的,既可以100%保留原始版面效果,又便於建立索引數據庫,進行科學的管理。

小編還為您整理了以下內容,可能對您也有幫助:

演示機型:華為MateBook X    系統版本:win10    

雙層pdf是一種具有多層結構的PDF格式文件,是PDF文件衍生的一種文件。文件既可以是文本型的(比如由word生成的文件),也可以是圖像型的,既可以100%保留原始版面效果,又便於建立索引數據庫,進行科學的管理。

什麼是雙層pdf文件

雙層PDF格式文件是一種具有多層結構的PDF格式文件,是PDF文件衍生的一種文件。

操作步驟:

1、我可以現在Word裏進行編輯,然後選中全部內容點擊“開始”頁面中的複製。

2、然後我們打開PDF編輯器,點擊文件中的“新建文檔”選擇“從空白頁”新建一個空白頁面。

3、接着我們鼠標右擊選擇“粘貼”將Word中的文件粘貼進去。完成以上操作之後,保存文件就可以了。

注:迅捷PDF編輯器不僅能對PDF文件進行編輯和製作,還可以完成PDF添加水印,PDF提取頁面哦。

擴展資料:

文件掃描識別雙層PDF

一、公文掃描識別系統概述

公文掃描識別系統是一款掃描儀和OCR識別技術相結合的軟硬一體化系統,通過掃描儀進行公文掃描,採集圖像之後,利用OCR技術進行公文題錄自動提取字段信息輸出。例如公文掃描識別後可以直接提取出圖像上的文字信息,實現信息的快速提取和錄入。

二、公文掃描識別系統功能

公文掃描識別,利用快檔通進行公文掃描識別,可以對公文題錄自動提取,公文掃描識別結果支持生成可檢索雙層PDF。並且最新的公文掃描識別核心支持包含條碼打印的公文識別,多用於公文電子化。

參考資料來源:百度百科—雙層pdf

雙層PDF的問題!

分類: 電腦/網絡

問題描述:

能不能專業點介紹下什麼是雙層PDF?它有什麼重要的技術指標(或技術參數),與其他的電子文本格式有那些區別?

解析:

所謂雙層PDF就是上層是圖像,下層是隱藏文字的PDF格式。利用這種文件格式,用户就可以對PDF文檔進行正常的操作,同時安全共享網絡文件。

=================

雙層PDF是這樣的PDF文件:PDF文件的每一頁都包含兩層,上層是從紙質文件掃描出來的原始圖像,下層是用OCR軟件對掃描圖像進行識別後產生的文字結果。這樣用户在閲讀PDF文件時看到的是掃描圖像,可以100%保留原始版面效果(包括公章、簽名),在需要的時候,又可以通過下層的文字信息支持選擇、複製、檢索等功能。

與普通PDF文件相比,雙層PDF能夠同時兼顧視覺效果和使用方便性,因此在國內辦公、檔案領域正在引起重視,我個人相信會有美好的“錢途”。

顯然,雙層PDF的內容檢索、內容複製與OCR識別結果有直接的關係。先不説目前國內OCR軟件的識別率如何,最關鍵的一點是目前沒有任何一箇中文OCR引擎是免費、開源的(英文的則有gocr等一批),所以雙層PDF生成工具也都不是免費的,而是“面向企業市場”,我相信窮困的個人用户在不違法的情況下很難消受得起。

雙層掃描是什麼意思啊

雙層掃描(PDF)是把文檔圖像掃描後,將文字識別保存在相同位置,你可看到文檔的原始圖像,又可以檢索和複製其中的電子文字內容的一種PDF格式。

雙層pdf到底是怎樣的啊?

什麼是雙層PDF文件?

PDF文件是一種具有多層結構的格式文件,其特點是:文件既可以是文本型的(比如由word生成的文件),也可以是圖像型的(比如由掃描生成的文件);雙層PDF文件是指文件內容既包含文本層,也包含圖像層,且其位置上下一一相對應。

使用雙層PDF文件有什麼好處?

PDF文件格式已成為國際標準,越來越多的行業和單位正在使用它。其特點是具有多層結構,包括圖層和文字層,這樣,既可以100%保留原始版面效果(包括公章、簽名),又可以通過下層的文字信息支持選擇、複製、全文檢索等功能。因此,雙層PDF同時兼顧視覺效果和檢索方便性,極大地方便了電子文件的管理。

雙層PDF文件加工是什麼意思?

是將tif、jpg、bmp、gif、png、單層PDF(圖像)等圖像類文件經加工後輸出為可全文檢索的雙層(圖層和文字層)PDF文件。

彩色雙層二值pdf特點

雙層PDF格式文件是一種具有多層結構的PDF格式文件,是PDF文件衍生的一種文件,其特點是:文件既可以是文本型的(比如由word生成的文件),也可以是圖像型的(比如由掃描生成的文件);雙層PDF格式文件是指文件內容既包含文本層,也包含圖像層,且其位置上下一一相對應。雙層PDF是指將標準資料通過掃描儀快速錄入後,經過去污、糾偏和OCR識別,然後可以直接生成可以檢索的PDF文件,這個PDF文件是雙層的,上層是原始圖像,下層是識別結果,這樣可以100%保留原始版面效果,並且支持選擇/複製/檢索等功能,這樣的PDF文件便於建立索引數據庫,進行科學的管理。

雙層pdf和書籤的區別

雙層pdf和書籤的區別如下:

1、雙層pdf第一層是圖片,第二層是文字,書籤就只有一層。

2、雙層PDF是一種結合了圖像層和文本層的PDF格式,書籤是做標記的格式。

3、雙層PDF格式文件是一種具有多層結構的PDF格式文件,是PDF文件衍生的一種文件。

如何製作雙層PDF?

1、下面是掃描生成的PDF文檔,可以看出,文字是無法直接複製的。

2、點擊Acrobat軟件工具欄右上角的“工具”選項,打開“文本識別“,然後點擊“在本文件中”。

3、在彈出的“識別文本”對話框中,點擊“編輯”進行文字識別參數的設置。

5、文字識別參數設置:OCR識別的主要語言(這裏選擇簡體中文);PDF輸出樣式:可搜索的圖像、可搜索的圖像(精確)、ClearScan(這裏保持默認);縮減像素採樣至:600、300、150、72dpi(如果要打印建議不要小於150dpi)。

6、文字識別參數設置完成後,點擊確認開始文字識別。

7、文字識別完成,可以看到,可以通過文本選擇工具進行選擇了,可以看出,識別準確率還是比較高的。

雙層OFD版式文件是什麼意思

您是問OFD文件如何打開打印,或者轉換為其他格式吧!首先,你需要一個OFD閲讀器,這裏我們用的是數科OFD閲讀器;可以在數科網維官網選擇版式閲讀軟件進行下載,也可以網上百度搜索“數科OFD閲讀器”進行下載

2、下載安裝完成後,左上角點擊“打開”瀏覽選擇你需要查看的OFD文件

3、打開後即可查看文檔內容。如果需要將文檔打印,還是左上角文件,選擇打印。配置打印機即可打印。

4、如果想要轉換為PDF格式的,就在剛剛打印頁面中選擇打印為PDF即可。

5、通過閲讀器即可實現打開、打印、轉換格式的需求,如果是文件還直接可以進行驗證,在簽章處右鍵選擇驗證,即可查看簽章詳情。

雙層PDF在地質資料數字化中的應用

郭慧錦 賈國鋒 馬飛飛 張茜

(全國地質資料館)

摘要 本文在描述雙層PDF及OCR技術特點及應用前景基礎上,探討了地質資料數字化圖文數據雙層PDF轉換的意義;提出了轉換方法的選擇,並詳細介紹了OCR數字加工系統,以及提高識別率的方法;最後提出了雙層PDF在地質資料館建設中的意義。

關鍵詞 雙層PDF OCR識別率

當前,地質資料館藏機構都在加緊開展數字化工作。截至2013年底,全國已有20多個省級資料館完成館藏資料的數字化工作,全國地質資料館的成果地質資料數字化工作也接近尾聲,所形成的海量數據已成為地質資料信息社會化服務重要數據資源。此類數字化數據是靜態的,有利於閲覽使用,但無法進行全文檢索,也不利於進一步分析處理。因此,在現有數據的基礎上,開展OCR識別,使之轉化成雙PDF文件,實現靜態向動態的轉變,建立全文數據庫,完成對地質資料的全文信息的檢索,成為地質資料館藏機構推進資料數字化工作。

1 關於雙層 PDF與OCR技術

雙層PDF是在掃描數據的基礎上通過OCR識別生成的可檢索的PDF文件,即上層是原始圖像,下層是識別結果,且位置上下一一對應。雙層PDF文件不僅可以100%保留原始版面效果,而且支持選擇、複製、檢索等功能,這樣的PDF文件最後可以存儲在光盤、硬盤或磁盤陣列中,並通過建立索引數據庫進行科學的管理。

OCR(Optical Character Recognition),即光學字符識別,是指電子設備(如掃描儀或數碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然後用字符識別方法將形狀翻譯成計算機文字的過程。即對文本資料進行掃描,然後對圖像文件進行分析處理,獲取文字及版面信息的過程。隨着計算機網絡飛速發展,信息電子化已經成為一個時代必然趨勢。文字作為信息中最重要、最集中的載體,其電子化進程顯得尤為重要。而OCR技術則是文字電子化過程中最重要的環節,它改變了傳統的紙介質資料輸入的概念。通過OCR技術,用户可以將通過攝像機、掃描儀等光學輸入方式得到的報刊、書籍、文稿、表格等印刷品的圖像信息轉化為可以供計算機識別和處理的文本信息。因此,與傳統的手工錄入方式相比,OCR技術大大提高了人們進行資料存儲、檢索、加工的效率。

2 應用現狀

PDF正在世界各國、金融財務、法律、工程技術、醫療等諸多部門獲得廣泛的應用,並已成為、學術部門等單位標準的現代化公文格式規範,所以PDF電子格式文檔將是未來檔案部門收藏的主體。而雙層PDF的出現有效解決了識別成本和閲讀利用的矛盾,是一種較有潛力的資源格式。國外的OCR技術應用相對成熟,包括IBM、Motorola、HP和Microsoft等世界性大公司都陸續展開了這方面的研究,在他們的產品中綁定了OCR技術。

如今,OCR技術在我國的應用也極為廣泛。信息檢索技術研究,即雙層PDF檢索技術研究,中國“863”計劃在2008年以前已經開始對中文OCR、自動分詞、自動摘要、自動搜索、自動定位進行了統一測試評測。在此基礎上,國內逐步建立了以數字圖書館、數字檔案館、數字報刊、數字校園網等一系列數字化為基礎的實施案例,例如新聞出版總署、外聯部、共青團等機關文獻全文數據庫;《中國青年》75年、《新華文摘》20年等期刊全文數據庫。國家圖書館早在1999年就成立了“國家圖書館文獻數字化中心”,對各類館藏文獻進行數字化加工和OCR識別,在此基礎上形成書目型書庫、題錄型數據庫和全文型數據庫三大類,逐漸成為我國網上信息資源的中心樞紐。

隨着我國信息化建設全面普及,OCR技術的應用前景更加廣闊,數字圖書館、數字檔案館、數字資料館等概念的提出也使OCR在紙質檔案數字化過程中越來越發揮其獨特的作用,不僅節省了人力物力,更使檔案信息資源的利用價值達到最大化,能夠更好地服務於民。

3 數字化數據雙層PDF轉換的意義

3.1 是地質資料信息化建設的重要內容

隨着社會信息化程度的提高,人們對信息資源的依賴程度也越來越高,對高效率的檔案資源管理、檢索利用的需求也越來越迫切。數字化是信息化建設的重要內容,而信息化建設的核心是資源建設。資源建設包括三大任務:一是館藏紙質資料的掃描數字化與目錄數據庫建設;二是電子文件的歸檔與管理;三是全文數據庫和全文檢索體系建設。根據各資料館數字化工作進展,考慮到用户的利用需求,若要得到真正文本形態的電子信息,使資料數字化工作更加有效,更加徹底,最大限度拓寬用户利用面,就需要應用OCR技術進行掃描柵格文件的雙層PDF轉換,進而開展地質資料全文數據庫建設和全文檢索工作。

3.2 是地質資料實現全文檢索與全文數據庫建設的前提

實踐證明,基於雙層PDF文檔的全文檢索,有效地提高了查詢利用效率。它通過對檔案數據庫的數據和雙層PDF文檔的Text層建立索引,查詢時可以不訪問數據庫,有效減輕數據庫和系統的壓力。至少可以支持1000萬級的數據,毫秒級的查詢時間,每秒上千人的併發訪問,從而實現大容量、高速度的目標,並且可以適應Linux和Windows平台,支持多種數據庫接口。它具備通用搜索引擎的構架和功能,可以對用户的輸入進行分詞,可以進行多關鍵字搜索、關鍵詞組合搜索,用户友好;同時能夠根據客户的需求進行用户的數據挖掘,提高檔案全文檢索系統的價值。

3.3 是現代化數據中心標準化建設的前提

建設現代化的數據中心首先要實現電子文件存儲結構標準化,即建立一個通用性強、應用廣泛的電子文件信息存儲和交換格式。基於PDF格式已經作為電子文件管理中電子文件長期保存格式的最新標準在國際上全面實施,且具有兼容性、原始記錄性強,安全控制策略完善等優點,是電子文件長期保存的最佳選擇。所以進行館藏數字化數據PDF轉換勢在必行。

4 雙層PDF轉換方法

4.1 目前常見的雙層PDF轉換方法

目前國內雙層PDF的轉換技術已經相對成熟,從現有技術條件下來看,大體可分為以下3種:

4.1.1 軟件轉換

由目前市場上較流行的 Adobe Acrobat、ABBYY FineReader12(中英文識別)、Readiris Corporate 12(英文識別率高)、Foxit Phantom 5(可以單獨顯示文本層)、清華文通TH-OCR XP8(識別率較高)、漢王文本王5800(版面識別較好,純中文識別率高)、尚書七號OCR等轉換程序,可以經OCR識別處理後直接生成雙層PDF文件,速度快,效率高。但識別率和紙質資料原件(如印刷方式、清晰度、紙張質量等)及操作人員技術水平成正比。如果紙質原件質量好,識別率相對就高;質量差,識別率就相對較低。

4.1.2 流程加工

根據相關技術要求,對圖像進行全新的OCR識別流程加工處理,重新生成PDF文件,具有文字正確率高、文字定位準確等特點。這種方式相當於全流程化製作雙層PDF文件,工作量大,耗時長,費用高。

4.1.3 識別重構

重新生成PDF文件,實現版面字體、字號、顏色的恢復和重構。文字正確率高,頁面清晰,但和原版圖差異較大,主要在圖書方面應用較多。

4.2 地質資料雙層PDF轉換

全國館於2011年開始在掃描數字化基礎上開展雙層PDF的轉換試驗工作,主要運用第一種方法進行軟件轉換,即經過軟件自動OCR處理後直接形成雙層PDF文件。由於地質資料不同於普通的文書檔案,紙張樣式和印刷方式多樣,手寫和老舊資料多,地層、數學等特殊符號多等特點,給OCR自動識別帶來了困難,單一的軟件識別並不能滿足全文檢索90%以上識別率的要求。

在轉換試驗基礎上我們得到以下結論:

1)地質資料本身多種多樣,實際的識別率主要受印刷質量、形成年代等因素影響,老舊資料、紙質質量差的資料識別率普遍較低;受執筆人書寫習慣及書寫清晰度的影響,手寫文檔的識別準確率一般在30%以下;油印文檔識別準確率一般在50%以下;打印、鉛印和膠印文檔識別率較高,一般能達90%以上。無論在哪種類型的文檔中,標點的識別率都很低,地層和數學符號及其他特殊符號的識別率幾乎為零。

2)目前識別技術無法達到100%識別,必須根據實際需求對照紙質檔案對初次識別結果進行人工校對才能滿足全文檢索需求。

3)地質資料掃描文件數量多、容量大,轉換速度受計算機反應速度影響,大批量轉換和識別需選擇高配置計算機,且批量轉換和人工識別耗時長,耗人工多,需專項經費支持開展工作。

4.3 OCR數字加工系統的引入與功能簡介

經過對目前國內雙層PDF轉換方法的對比,結合地質資料情況複雜的特點,以及數據測試結果研究,建議地質資料的雙層PDF轉換主要採用軟件識別和流程加工相結合的方法,即採用OCR數字加工系統,可以保證高效率、高質量地完成雙層PDF轉換。該系統主要包含以下幾個主要流程:

圖1 OCR數字加工系統示意圖

1)圖像處理。為提高識別率,對圖像進行“消藍去污”的處理,去掉圖像上影響識別率的噪音,如麻點、下劃線等,由圖像質量控制程序自動監測圖像處理質量。

2)版面分析。自動進行版面理解並定位,判別劃框區域是橫排文本區、豎排文本區、表格區還是圖像區,並對不同屬性的區域以不同顏色的線框標識出來。自動版面分析在後台運行,操作人員可在前台進行確認,必要時對自動版面分析結果加入手工干預。

3)識別。把文字圖像轉化為計算機文字內碼,可以識別印刷體和手寫體中文(包括簡體字和繁體字)、中英文混排文字、表格,識別出來的文字內碼可以是GB碼、BIG5碼、GBK碼或者Unicode碼。識別過程在後台運行。

4)縱向校對。具有很強的查錯糾錯能力,是將一個或若干個圖像中識別成同一個字的文字圖像列在一起顯示,並以突出顏色標出可疑字,便於操作員發現錯誤和修改。

5)橫向校對。是傳統的人工校對方法,操作員直接對比識別結果文本和圖像,以發現識別錯誤文字。系統自動調出文字對應的圖像,進行比對。同時,以醒目的顏色標出識別可信度不離的文字。

6)版面還原。將識別並修改好的文本還原成跟掃描文稿版面的佈局一樣、可以供計算機閲讀和查詢檢索的RTF、PDF、HTML、SGML/XML格式的數字文檔。

7)數據入庫。版面還原數字文檔的保存。

4.4 提立OCR識別率的方法

利用OCR數字加工系統生成的雙層PDF,文本層差錯率最低可到萬分之一,可呈現原版底紋和色彩風貌,可進行全文檢索和複製引用,且檢索信息可準確定位到字符,便於快速查找目標信息。為了減輕橫向校對即人工校對工作量,提高工作效率,就要從根本上提高識別率。經過試驗,以下幾個方法可以提高柵格文件OCR識別率。

1)圖像色彩設定。雖然灰度或彩色模式可以最大限度還原紙質資料原貌,是我們掃描數字化的首選,但是這兩種色彩模式會增大影響識別率的背景噪音。若僅做文字識別及一般黑白插圖選取,建議可將掃描程序的圖像色彩設定設置為黑白,增大識別率。不過最終圖像色彩的設定還要按照各類具體工作的規範要求來設置。

2)分辨率設置。我們都知道掃描分辨率設置越低,掃描速度越快,但同時也導致圖像質量差,其文字識別準確率低。反之分辨率高,掃描速度慢,但文字識別準確率高。但這又不是絕對的,因為分辨率設置得太高後,紙張上的微小瑕疵也可能被認作標點符號或漢字等,文字識別準確率反而會有所降低。經反覆測試,分辨率設為300dpi,是掃描速度及文字識別準確率的最佳平衡點。

3)圖像處理。這裏圖像處理是指掃描輸出圖像前的傾斜校正和去污等。傾斜校正是為了調整文字方向使之正向,這樣才能對OCR識別有所幫助。

雙層PDF轉換完成以後,在此基礎上可以實現資料管理系統與PDF文件的掛接,對資料數據內容及其元數據等相關信息建立聯繫並形成數據包;然後通過調用全文數據庫原數據創建索引文件,最後實現全文檢索。通過全文數據庫及全文檢索的實現,得到高查全率和查準率,大幅度提高地質資料的利用價值,促進地質資料編研工作,為地質資料信息聚合的研究和深層次服務奠定了基礎。

參考文獻

[1]許呈辰.檔案數字化過程中OCR技術的應用[J].檔案管理,2011(1).

[2]徐永芳.OCR技術在檔案數字化過程中的應用[J].藝術科技,2011(2).

[3]張旋.OCR技術研究進展及前瞻[J].科學技術,2010(4).

[4]郭金光.雙層PDF技術及在檔案數字化中的應用[J].新觀察,2013(1).

[5]劉家真.文件保存格式與PDF文檔[J].檔案學研究,2002(2).

如何製作雙層PDF

先打開abbyy 10,在setting裏設置語言,一般設定chinese (traditional), japanese,english,和french。具體還得看要掃描的書使用什麼文字。如果是掃描書,就逐頁掃描,然後讓abbyy識別,識別過程可能比較花時間,尤其是一本書裏有多種語言和有很多內容的時候。

識別完畢,準備save的時候選擇,這樣,pdf就有了兩層。用pdf閲讀軟件打開閲讀時,讀者看到的是image,這樣就保證了pdf在閲讀時不會有錯誤發生,絕對忠實原來的圖像。而search或copy的時候,選擇的就是圖像下面的text了。

TAG標籤:#pdf #雙層 #