此文簡單介紹了一些經常被提到的文本文檔格式,以下內容大多數參考了維基詞條。至於遇到陌生格式如何打開這些文檔?有多格式也是我沒遇到過的,或者本身為了保密而不普及其閱讀和編輯器,所以不能一一提出方法,見諒。
安卓平臺的掌閱iReader電子書閱讀器支持EBK3/TXT/UMD/EPUB/CHM/PDF全主流閱讀格式,能滿足正常需要。
如果遇到生僻格式,可以試試calibre打開並轉格式,calibre是一個自由開源的電子書軟體套裝,可以用來組織、存放、以及管理電子書,支持大多數的電子書格式。有windows和Linux版。同時也支持與許多流行的電子書閱讀器進行同步,並可能在DRM的限制下轉換電子書的格式。
AZW3(.awz3)azw3 的本質是 KF8,是隨著 2011 年 Amazon 推出 Kindle Fire 平板時一起推出的。它填補了 Mobi 對於複雜排版支持的缺陷,支持很多 HTML5(目前尚不支持 HTML5 的視頻和音頻標籤)和 CSS3 的語法,這就大大改善了原來 mobi 或 azw 內容排版上的一些缺陷,單純從讀者的角度來講,是不輸 epub 格式的。目前從 Amazon 購買的書,大部分已經是 azw3 格式了,而以前主流的 mobi 格式則越來越少,它正逐漸取代 mobi 成為 Kindle 電子書的主流格式。
CAJ
(Chineseacademicjournal簡稱CAJ)是清華同方公司的文件格式,中國期刊網提供這種文件格式的期刊全文下載,可以使用CAJViewer在本機閱讀和列印通過「全文資料庫」獲得的CAJ文件。知網上下載的論文大多是這個格式的。 閱讀軟體:CAJViewer7.0
CEBCEB即ChineseeBook,是完全高保真的中文電子書的格式。由北京方正阿帕比技術有限公司開發的全新的電子圖書閱讀工具——方正ApabiReader使用的格式.它能夠保留原文件的字符、字體、版式和色彩的所有信息,包括圖片、數字公式、化學公式、表格、棋牌以及樂譜等,同時,該格式對文字圖象等進行很好的壓縮,文件的數據量小。
CEB的優勢和技術先進性:在不同的軟硬體環境下保持顯示不發生變化,生成後不可修改;融合了當前主要字型表示技術:包括各種編碼體系和各種字庫技術,支持少數民族文(蒙文、維文、藏文、韓文等)的轉換;自動下載補字,保證CEB文件不發生「開天窗」的情況;提供全面圖形處理技術(包括各種線形的完整描述);提供全面的圖像和顏色處理支持及壓縮(如多種色彩空間、包括ICC在內的色彩還原、RLE,G3,G4,Wavelet等數據壓縮);支持電子籤名,數據加密等安全機制;轉換方便,幾乎所有格式都可以轉換成CEB格式,包括XML、S2、 PS、 PDF、 TIFF、 DOC、WPS等;CEB文件佔用空間小,在排版比較複雜情況下,只有原來DOC文件的十分之一;CEB與XML結合,支持版面自動生成,支持信息提取,使用靈活;可以在CEB上製作目錄、連結跳轉,增加聲音、動畫和視頻。
方正CEB版式文件作為電子文檔一體化的基礎、國家電子公文的版式文件推薦的參考標準,可以原版原式、原滋原味的展現電子公文,電子文檔的不可篡改性,保證文檔的完整性。
CHM(.chm)
CHM是英文「CompiledHelpManual」的簡寫,即「已編譯的幫助文件」。CHM文件格式是微軟1998年推出的基於HTML文件特性的幫助文件系統,由於與網頁瀏覽器有著高度的相似及眾多優點,使得CHM格式的電子書及讀物廣受用戶的喜愛。被IE瀏覽器支持的Javas cript、VBs cript、ActiveX、Java Applet、Flash、常見圖形文件(GIF、JPEG、PNG)、音頻視頻文件(MID、WAV、AVI)等等,CHM同樣支持,並可以通過URL 與Internet聯繫在一起。 chm文件因為使用方便,形式多樣也被採用作為電子書的格式。
Djvu(.djvu)DjVu是一種計算機文件格式,主要用於存儲掃描的文檔。這種格式的特色包括圖像分層、漸進載入、算術編碼、對二進位圖像進行有損壓縮,從而以較小的空間,存放高質量的可讀圖像。
漸進載入使得DjVu適合於應用於網際網路。DjVu對於大部分的掃描文檔,表現都優於PDF,故常被作為PDF的替代品來進行推廣。這種格式已經在文件共享網絡中,被廣泛使用於分發數學書籍。跟PDF類似,DjVu也可以包含光學文字識別的文本層,這樣就可以使用複製與粘貼操作。
DjVu技術最初由AT&T實驗室的揚·勒丘恩(YannLe Cun)、Léon Bottou、PatrickHaffner和Paul G. Howard於1996年開發。DjVu是一種開放的文件格式,文件格式規範與參考庫的原始碼都公開發布。商業開發的所有權幾年來被轉給了不同的公司,包括AT&T和LizardTech。原來作者維護一個GPL實現/實現,稱為DjVuLibre[1]。
2002年,DjVu、TIFF和PDF被Internet Archive的百萬書籍計劃(Million Book Project)選中,作為公有領域書籍掃描後上線的文件格式[2]。
DOC(.doc)
.doc,是電腦文件常見擴展名的一種,這三個字母是英文單詞 document「文件」的縮寫。
該格式原是純文字文件使用的,多見於不同的作業系統中,軟硬體的使用說明。1980年代,WordPerfect 以此作為其專屬文件的擴展名。至1990年代,微軟在文字處理軟體 Word 中,使用了 .doc 作為擴展名,並廣為流行;而前兩者的格式已幾近絕跡。
微軟的「.doc」格式是一種自己的專屬格式,其文件可容納更多文字格式、腳本語言及撤消等信息,比其他的文檔文件格式如RTF、HTML等要多,但因為該格式是屬於專屬格式,因此其兼容性也較低。
在Palm OS系統中,「.doc」是PalmDoc所使用的擴展名,一個完全無關的格式,主要用於電子圖書的編碼。
EBK3
.ebk3是由掌中浩閱科技有限公司在推出ebk系列電子書格式,這種文件主要流行與掌閱書城。
EPUB(.epub)EPUB(Electronic Publication的縮寫,電子出版)是一種電子圖書標準,由國際數字出版論壇(IDPF)提出;其中包括3種文件格式標準(文件的附檔名為.epub),這個格式已取代了先前的Open eBook開放電子書標準。
FictionBook 是建基於XML的電子書格式,起源並流行於俄羅斯。此類文件格式為.fb2。
它包含設置碑文體、經文體及引用的標籤;而電子書的元數據,包括作者、書名及出版社等數據,亦可在文件中找到。因此,此格式適合用於各種自動處理、設置索引及電子書管理等。同時,將此文件格式轉為其他電子書格式亦較方便。
FBReader、AlReader、Haali Reader、STDU Viewer、CoolReader、Okular及iOS的Documents等閱讀器均支持FictionBook。
JAR(.jar)JAR文件格式以流行的ZIP文件格式為基礎。與ZIP文件不同的是,JAR文件不僅用於壓縮和發布,而且還用於部署和封裝庫、組件和插件程序,並可被像編譯器和JVM這樣的工具直接使用。在JAR中包含特殊的文件,如manifests和部署描述符,用來指示工具如何處理特定的JAR。
HTML
超文本標記語言(英語:HyperText Markup Language,簡稱:HTML)是一種用於創建網頁的標準標記語言。HTML是一種基礎技術,常與CSS、JavaScript一起被眾多網站用於設計令人賞心悅目的網頁、網頁應用程式以及行動應用程式的用戶界面[1]。網頁瀏覽器可以讀取HTML文件,並將其渲染成可視化網頁。HTML描述了一個網站的結構語義隨著線索的呈現,使之成為一種標記語言而非程式語言。
HTML元素是構建網站的基石。HTML允許嵌入圖像與對象,並且可以用於創建交互式表單,它被用來結構化信息——例如標題、段落和列表等等,也可用來在一定程度上描述文檔的外觀和語義。HTML的語言形式為尖括號包圍的HTML元素(如<html>),瀏覽器使用HTML標籤和腳本來詮釋網頁內容,但不會將它們顯示在頁面上。
HTML可以嵌入如JavaScript的腳本語言,它們會影響HTML網頁的行為。網頁瀏覽器也可以引用層疊樣式表(CSS)來定義文本和其它元素的外觀與布局。維護HTML和CSS標準的組織全球資訊網聯盟(W3C)鼓勵人們使用CSS替代一些用於表現的HTML元素。
HTML文檔需要以文檔類型聲明(英語非正式說法「doctype」)開頭。在瀏覽器中,文檔類型聲明有助於確定渲染模式——特別是是否使用怪異模式。
NLCNLC格式中國國家圖書館的電子圖書格式。它把掃描的圖書圖像以JBIG標準壓縮(無損壓縮)為很小的NLC文件。NLC文件是JBIG格式的一種變種。
WDL是華康公司開發的一種電子讀物文件格式。其特點是較好地保留了原來的版面設計,可以通過在線閱讀也可以將電子讀物下載到本地閱讀,但是需要使用該公司專門的閱讀器DynaDocFreeReader來閱讀,該閱讀器可以從該公司的網站免費下載。
種格式的電子讀物由於對列印和拷貝作了限制,所以適當保護了作者和出版商的利益。與PDF格式一樣,該格式依然不支持上述的一些效果。但是支持圖片的導入。該格式對文件圖像文字質量和最後成品的大小之間的平衡做了較好的處理,採用該格式的文件一般壓縮率都比較高。對大中小電子讀物都是一個不錯的選擇。
製作該種格式的電子讀物需要使用該公司的軟體DynaDoc生成器來完成。
Mobi(.mobi)mobi 和 azw 格式的推手主要是 Amazon,這兩種電子書格式的發展很大程度上依靠 Amazon 這個巨大的內容提供商及其電子書閱讀器 Kindle 的流行普及。它們同屬亞馬遜的私有格式,沒有本質的區別,可以簡單的這樣理解,mobi 是比較老的一種格式,而 azw 只是 mobi 的另一種形式而已,也可以理解為 mobi 加了個殼,亞馬遜利用它對電子書做 DRM 版權保護。
目前市面上的 mobi 文件大部分是來自兩種途徑:epub、pdf 或者 txt 轉換成的 mobi,從 Amazon 商店流出來的 mobi。前者沒什麼好說的,後者要麼是Amazon 官方製作,要麼就是自出版作者通過 KDP (Kindle Direct Publishing,作者可以繞過出版社直接在Amazon 上發售電子書 )平臺發布,通過 KDP 平臺發布時,作者只需要上傳 Word文檔,其他的事情也是 Amazon 官方來做,從而保證了 mobi 文件的規範程度。
ODF開放文檔格式(英語:OpenDocument Format,簡稱ODF),全稱用於辦公室應用程式的開放文檔格式(Open Document Format for Office Applications),是一種規範,基於XML的文件格式,因應電子表格、圖表、演示稿和文字處理文件等電子文件而設置。它的規格原本由昇陽電腦開發,標準則由OASIS Open Document Format for Office Applications(OpenDocument)TC(又稱為OASIS ODF TC)[2]所開發。存在一個自由與開放的OASIS標準,以ISO/IEC國際標準發布──《ISO/IEC26300:2015 Open Document Format for Office Applications(OpenDocument)v1.2》
PDF(.pdf)
PDF(英文全名:Portable Document Format,意思即系「可攜式文件格式」)系Adobe Acrobat輸出得到嘅一種文件格式。它嘅優點在於跨平臺、能夠保留文件原有嘅格式(layout)、開放標準,能夠免版稅(royalty-free)自由開發PDF相容軟體。
SEP
SEP是中文平臺上通用的、優秀的、安全可靠的文檔分發和交換格式,基於書生公司達到國際先進水平的技術構建,已歷經版式技術、數字紙張技術發展到了智能文檔技術。
SEP符合傳統紙張特性,可用於將基於紙張的應用e化。每一個SEP文件都相當於若干頁紙張文檔,並能附加很多數字特性和智能特性。SEP軟體可以完整地原版原貌地轉換各種來源的應用程式所生成的電子文檔,對文字、圖像、圖形、文檔布局等都可以完整地保留。書生 SEP 文件採用先進的分類壓縮方式,對於圖像、文字、圖形、影像等都採用了相應的先進壓縮算法,使得電子文檔的共享、交換和歸檔變為一件輕鬆愉快的事情。免費使用的書生SEP閱讀器,和超過1000萬份以上的各式SEP電子文檔的廣泛使用保證了該技術易用和穩定。採用SEP文件格式及SEP家族系列文檔格式的書生軟體產品,為政府與企事業單位的文檔一體化工作和電子政務建設提供了值得信賴的文檔解決方案。
STKSTK文件格式是宜銳公司開發的電子書格式,需要使用該公司的掌上閱讀器STAReBOOK以及eREAD來閱讀。eREAD閱讀軟體集成了書籍製作功能,用戶可以親手製作自己的書籍,符合了用戶分享圖書的需求,網絡上免費的STK圖書,大部分都是讀者自己製作並在網絡上傳播的。
TCR (.TCR)閱讀器文本壓縮是為在20世紀90年代使用的Psion公司3系列平臺開發的電子書格式。該格式包含文本及其格式參數。該電子書格式專門用於Psion公司的設備。
TIFF標籤圖像文件格式(Tagged Image File Format,簡寫為TIFF)是一種靈活的位圖格式,主要用來存儲包括照片和藝術圖在內的圖像。它最初由Aldus公司與微軟公司一起為PostScript列印開發。TIFF與JPEG和PNG一起成為流行的高位彩色圖像格式。TIFF格式在業界得到了廣泛的支持,如Adobe公司的Photoshop、TheGIMP Team的GIMP、UleadPhotoImpact和Paint Shop Pro等圖像處理應用、QuarkXPress和Adobe InDesign這樣的桌面印刷和頁面排版應用,掃描、傳真、文字處理、光學字符識別和其它一些應用等都支持這種格式。如今Adobe公司從Aldus獲得了印刷應用程式-PageMaker之後控制著TIFF的規範。
術語「Tagged Image File Format」或者「Tag Image File Format」在一些早期的TIFF規範中是作為副標題存在的。目前的TIFF規範TIFF 6.0不再使用這些術語,現在的名字僅僅叫做「TIFF」。
TIFF最初的設計目的是為了1980年代中期桌面掃描儀廠商達成一個公用的掃描圖像文件格式,而不是每個廠商使用自己專有的格式。在剛開始的時候,TIFF只是一個二值圖像格式,因為當時的桌面掃描儀只能處理這種格式。隨著掃描儀的功能愈來愈強大,並且桌面計算機的磁碟空間越來越大,TIFF逐漸支持灰階圖像和彩色圖像。
文本文件(.txt)文本文件一般指只有字符原生編碼構成的二進位計算機文件,與富文本相比,其不包含字樣樣式的控制元素,能夠被最簡單的文本編輯器直接讀取。
.txt是包含極少格式信息的文字文件的擴展名。.txt格式並沒有明確的定義,它通常是指那些能夠被系統終端或者簡單的文本編輯器接受的格式。任何能讀取文字的程序都能讀取帶有.txt擴展名的文件,因此,通常認為這種文件是通用的、跨平臺的。
在英文文本文件中,ASCII字符集是最為常見的格式,而且在許多場合,它也是默認的格式。對於帶重音符號的和其它的非ASCII字符,必須選擇一種字符編碼。在很多系統中,字符編碼是由計算機的區域設置決定的。常見的字符編碼包括支持許多歐洲語言的ISO 8859-1。
由於許多編碼只能表達有限的字符,通常它們只能用於表達幾種語言。Unicode制定了一種試圖能夠表達所有已知語言的標準,Unicode字符集非常大,它囊括了大多數已知的字符集。Unicode有多種字符編碼,其中最常見的是UTF-8,這種編碼能夠向後兼容ASCII,相同內容的的ASCII文本文件和UTF-8文本文件完全一致。
用文本編輯器打開一個文本文件後,用戶可以看到可讀的純文本內容。控制字符有時被編輯器當做文字指令,有時被當做像純文本那樣可編輯的轉義字符。儘管文本文件裡面有純文本信息,但是通過特殊方法,文件內的控制字符(尤其是文件結束字符)可以讓純文本不可見。
RTF富文本格式(Rich Text Format)即RTF格式,又稱多文本格式,是由微軟公司開發的跨平臺文檔格式。大多數的文字處理軟體都能讀取和保存RTF文檔。
作為微軟公司的標準文件,早期外間需要向微軟付款數十美元,才能購買一本薄薄的RTF標準文件。不過隨著採用RTF格式標準的軟體愈來愈多,RTF格式也愈來愈普遍,微軟公司就把標準文件公開,放在網上供開發者下載。
UMD(.umd)
UMD:手機電子書格式,是Universal Mobile Document的簡稱。因其壓縮比例高,支持多種功能,很多電子書被做成UMD格式。Nokia Symbian平臺的掌上書院,百閱,Qreader,熊貓看書支持打開UMD格式電子書,如J2ME的其他移動軟體平臺也有閱讀UMD的客戶端軟體。
UMD格式由@kcome在2003年末定製,其閱讀工具是掌上書院,並於同時在網際網路發布製作工具。
XML
XML是從1995年開始有其雛形,並向W3C(全球資訊網聯盟)提案,而在1998年二月發布為W3C的標準(XML1.0)。XML的前身是SGML(The StandardGeneralized Markup Language),是自IBM從1960年代就開始發展的GML(Generalized Markup Language)標準化後的名稱
XML設計用來傳送及攜帶數據信息,不用來表現或展示數據,HTML語言則用來表現數據,所以XML用途的焦點是它說明數據是什麼,以及攜帶數據信息。
每個XML文檔都由XML序言開始,在前面的代碼中的第一行就是XML序言,<?xml version="1.0"?>。這一行代碼會告訴解析器或瀏覽器這個文件應該按照XML規則進行解析。
XPS(.oxps, .xps)
XPS是XML Paper Specification的簡稱,它是微軟公司開發的一種文檔保存與查看的規範。以前的開發代號為「Metro」。這個規範本身描述了這種格式以及分發、歸檔、顯示以及處理XPS文檔所遵循的規則。最為顯著的特點是,XPS所用的置標語言是WPF所用的XAML的一個子集,因此顯示Windows應用程式所用的方法可以用於XPS文檔。
人們認為XPS是Adobe公司的PDF的潛在競爭對手。但是,XPS是一個靜態文檔格式,其本身不包括類似於PDF所具有的動態特性。
微軟公司指出高級認證的設備到2007年6月1日需要提供XPSDrv的解決方案。[1]
XPS隨著Windows Vista發布,並且已經得到了辦公用列印系統廠商佳能、愛普生、惠普、理光、施樂以及Software Imaging[2]、Informative Graphics[3]等軟體廠商的支持。
XPS文件實際上是一個包含組成文檔的各個文件的ZIP文檔。這些文件包括每頁的XML置標文件、嵌入的圖像與字體以及數字版權管理信息。XPS文件的內容可以通過按照ZIP文件打開進行閱讀:將拓展名從.xps更換為.zip,然後用一個ZIP文件查看工具打開,便可以看到其中的內容。