OmegaT是一個使用Java編程語言編寫的計算機輔助翻譯工具。它是自由軟件,最初的開發由Keith Godfrey在2000年進行,目前的開發工作由Didier Briel帶領的團隊進行。OmegaT名稱在德國是註冊商標。
OmegaT適用於專業譯員。它的功能包括使用正則表達式的可自定義分段,帶有模糊匹配和匹配傳播的翻譯記憶,術語庫匹配,詞典匹配和參考資料搜索以及使用Hunspell拼寫詞典的內聯拼寫檢查功能。
OmegaT可運行於Linux、Mac OS X和Microsoft Windows 98 SE或更高版本,[1]並且需要Java 1.5。它的界面和文檔被翻譯成27種語言。在2010年對458名專業譯員的調查[2]表明,OmegaT的用户數達到Wordfast、DejaVu和MemoQ的1/3,且達到了市場領導者塔多思的1/8。在Bing翻譯的合作伙伴中,OmegaT是其中唯一一個免費的專業級輔助翻譯工具[3]
目錄
[隱藏]
- 1 歷史
- 2 開發和軟件的發佈
- 3 OmegaT的工作原理
- 4 OmegaT的功能
- 5 支持的文檔格式
- 5.1 直接支持的格式
- 5.2 間接支持的格式
- 5.2.1 對於XLIFF的支持
- 5.2.2 對於Gettext PO的支持
- 5.2.3 對於Office Open XML和ODF的支持
- 5.2.4 對於Trados® .ttx文件的支持
- 6 支持的翻譯記憶和術語庫格式
- 6.1 TMX格式的翻譯記憶
- 6.2 術語庫
- 7 社區用户的參與
- 7.1 OmegaT項目
- 7.2 OmegaT的本地化
- 7.3 用户創建的程序
- 8 基於OmegaT構建的其他軟件
- 8.1 Autshumato translation suite
- 8.2 Benten
- 8.3 Boltran
- 8.4 OmegaT+
- 9 用户評價
- 10 另請參閲
- 11 參考
- 12 外部鏈接
- 12.1 用户組
歷史[編輯]
OmegaT最初由Keith Godfrey開發於2000年。當時使用C++進行編寫。
在2001年二月[4]首次公開發布的版本使用Java寫成。在這個版本中使用專有翻譯記憶庫格式。它能翻譯無格式的純文本文件、HTML以及執行塊級別的分割規則(即分割成段落而不是句子)。
開發和軟件的發佈[編輯]
OmegaT的開發託管在SourceForge。開發團隊由Didier Briel領導。和許多開源項目一樣,新版本的OmegaT會頻繁發佈,通常每個新版本含有2-3個錯誤修改和功能升級。這個指的是“標準”版本,其中總是含有完整的用户手冊和包含一些還未寫入用户手冊的功能的“最新”版本。[5]可以從Sourceforge的代碼版本庫的更新源進行更新。[6]
OmegaT的工作原理[編輯]
對於每個翻譯任務,OmegaT會創建包含指定文件的項目文件夾的集合。用户把未翻譯文檔複製到其中的/source/子文件夾,而在翻譯結束後,已翻譯的文檔會出現在/target/子文件夾中。OmegaT會在編輯窗格的片段中顯示已分段的源文檔的可翻譯內容供用户翻譯。
在開始翻譯前,用户還可以複製以前的翻譯記憶到/tm/子文件夾,複製術語庫到/glossary/文件夾以及複製StarDict詞典到/dictionary/文件夾,在翻譯時OmegaT會自動查閲它們。
進行翻譯時,OmegaT會自動檢查以前的翻譯以尋找類似的句子,找到後會顯示在模糊匹配窗格中。譯員可以使用快捷鍵把模糊匹配插入到編輯窗格。OmegaT還會查閲用户預先添加到項目文件夾的術語庫和詞典。如果啓用了機器翻譯,例如谷歌翻譯,那麼它會顯示在單獨的機器翻譯窗格。
翻譯結束後,OmegaT會創建已翻譯的文件,並導出項目當前的翻譯到TMX文件中,這樣這些文件可以在以後翻譯時重用或者和其他使用OmegaT或其他CAT工具的譯員進行交換。
OmegaT的功能[編輯]
OmegaT擁有主流CAT工具具有的許多功能。包括創建,導入和導出翻譯記憶,使用翻譯記憶進行模糊匹配,查詢術語表、索引定位和一致性搜索。
OmegaT還擁有其他CAT工具不具有的功能,包括:
- OmegaT可以同時翻譯不同文件格式的多個文件,且查閲多個翻譯記憶、術語表和詞典(只受計算機可用內存的限制)。
- 通過支持的文件類型,OmegaT允許用户自定義文件擴展名和文件編碼。對於一些文檔類型,用户還可以有選擇地翻譯哪些元素(例如對於OpenOffice.org Writer文件,可選擇是否翻譯書籤;對於Microsoft Office 2007/2010 文件,可選擇是否翻譯腳註;而對於HTML,可選擇是否翻譯圖像的ALT文本)。用户還可以選擇如何處理第三方翻譯記憶中的非標準元素。
- OmegaT的片段分割規則基於正則表達式。可以配置片段分割規則基於語言或文件格式,而連續的片段分割規則繼承彼此的值。
- 在編輯窗口,用户可以直接跳到下一個未翻譯片段或在歷史中前進以及後退。用户可以撤銷和重做,複製和粘貼,以及用與高級文本編輯器相同的方式切換大小寫狀態。用户可以選擇查看已翻譯片段的源文本。編輯窗格還含有使用Hunspell詞典的內聯拼寫檢查功能以及使用鼠標進行交互地拼寫檢查。
- 用户可以使用鍵盤快捷鍵或鼠標插入模糊匹配。OmegaT使用彩色顯示模糊匹配的相似度。OmegaT還可以顯示翻譯了任意指定片段的日期、時間和用户名。匹配的術語可以用鼠標插入。用户可以選擇把源文本複製到目標文本區域或自動插入最接近的模糊匹配。
- 在搜索窗口,用户可以選擇搜索當前文件的源文本,目標文本,其他翻譯記憶和參考文件。搜索可以是區分大小寫的,還可以使用正則表達式。雙擊搜索結果可以直接跳轉到編輯窗口中的相應片段。
- 翻譯完成後,OmegaT可以執行標籤檢驗以確保沒有意外的標籤錯誤。OmegaT可以在項目開始前統計項目文件和翻譯記憶的狀態,以及在翻譯期間顯示翻譯任務的進度。
- OmegaT可以從Apertium、Belazar以及Google翻譯獲取機器翻譯並顯示在單獨的窗口中。
- 在OmegaT用户界面中可以對各個窗口向周圍移動、最大化、平鋪、標籤化和最小化。當OmegaT啓動時會顯示“快速入門指南”的簡短嚮導。
支持的文檔格式[編輯]
OmegaT支持直接翻譯多種文件類型。OmegaT根據文件擴展名來確定文件類型。可以自定義文件擴展名關聯的處理方式和首選的編碼來覆蓋默認設置。
OmegaT把格式轉換成標籤來處理含格式的文檔,類似於其他商業的CAT工具。
直接支持的格式[編輯]
OmegaT可以直接翻譯下列格式:
|
文件格式
|
文件擴展名模式
|
|
文檔格式
|
|
|
使用任意 Java 可處理的編碼(包括Unicode)的文本 所有純文本派生格式,如 DokuWiki, MediaWiki 和 Markdown |
.txt, .txt1, .txt2, .utf8, .md
|
|
HTML/XHTML |
.html, .htm, .xhtml, .xht
|
|
OpenDocument (ODF),[7]用於LibreOffice、StarOffice、OpenOffice |
.sx?, .st?, .od?, .ot?
|
|
Microsoft OOXML |
.doc?, .xls?, .ppt?
|
|
幫助和手冊頁
|
.xml, .hmxp
|
|
HTML 幫助編譯器
|
.hhc, .hhk
|
|
LaTeX
|
.tex, .latex
|
|
QuarkXPress CopyFlow Gold
|
.tag, .xtg
|
|
DocBook |
.xml, .dbk
|
|
本地化資源格式
|
|
|
Android 資源
|
.xml
|
|
Java properties
|
.properties
|
|
Typo3 LocManager
|
.xml
|
|
Mozilla DTD
|
.dtd
|
|
Windows 資源
|
.rc
|
|
WiX 本地化
|
.wxl
|
|
ResX
|
.resx
|
|
有 |
.ini, .lng
|
|
多語言本地化格式
|
|
|
XLIFF |
.xlf, .sdlxliff
|
|
Portable Object (PO) |
.po, .pot
|
|
其他格式
|
|
|
SubRip 字幕
|
.srt
|
|
SVG 矢量圖 |
.svg
|
值得注意的是,OmegaT 還提供 MediaWiki 導入功能。
間接支持的格式[編輯]
有兩種方式讓OmegaT處理不支持的格式:
- 把這種格式的文件擴展名註冊到首選的文件過濾器 (通常是帶格式的純文本)
- 在這之後可以使用分段設定正則表達式來優化結果
- 把這種格式轉換為直接支持的格式
對於XLIFF的支持[編輯]
Okapi Framework中的Rainbow程序可以把某些文件格式轉換成OmegaT支持的XLIFF格式。Rainbow還可以從這類文檔中創建完整的OmegaT項目文件夾,便於OmegaT的處理。[8]
對於Gettext PO的支持[編輯]
一些文件格式可以轉換為能在OmegaT中翻譯的Gettext Portable Object (PO) 文件。Debian Linux 中的po4a程序可以把類似LaTeX、TeX以及POD的格式轉換為Gettext PO。[9]Translate Toolkit可以把Mozilla .properties 和dtd文件、CSV 文件、某些Qt .ts文件以及某些XLIFF文件轉換為Gettext PO。
對於Office Open XML和ODF的支持[編輯]
從版本97到2003的Microsoft Word、Excel以及PowerPoint文檔可以轉換為Office Open XML (Microsoft Office 2007/2010)或ODF (OpenOffice.org)格式。這種轉換過程並不是無損的,可能導致某些格式的丟失。
對於Trados® .ttx文件的支持[編輯]
Trados® .ttx可以使用Okapi TTX Filter進行處理。
支持的翻譯記憶和術語庫格式[編輯]
TMX格式的翻譯記憶[編輯]
OmegaT的內部翻譯記憶格式對用户不可見,但每次它自動保存翻譯項目時,會自動把所有新增和更新的翻譯單元都導出並添加到三個外部的TMX翻譯記憶:一個原生的OmegaT TMX、一個級別1的TMX以及一個級別2的TMX。
- 原生的TMX是為了用於OmegaT中的項目。
- 級別1的TMX文件保留了文本信息,可以用在支持TMX級別1和2的CAT工具中。
- 級別2的文件保留了文本信息和相應的內聯標籤信息,可用在支持TMX級別2的CAT工具中。
導出的級別2文件包含了封裝在TMX標籤中的OmegaT內部標籤,這樣的TMX文件可以在支持TMX級別2的CAT工具中生成匹配。在Trados和SDLX中測試通過。
OmegaT支持導入最高1.4b版本級別1和級別2的TMX文件。在OmegaT中導入級別2的文件會生成相同級別的匹配,因為OmegaT會把外部的TMX標籤轉換為TMX級別2的標籤。對於由Transit創建的TMX文件測試又通過了。
術語庫[編輯]
對於術語庫,OmegaT主要使用tab分隔的UTF-8編碼且擴展名為.txt的純文本文件。術語庫文件的結構非常簡單:首列包含源語言詞語,第二列包含對應的目標語言詞語,第三列(可省略)與詞語相關的上下文註釋等。文本編輯器中可以很容易創建這樣的術語庫。
還支持使用標準CSV格式的類似結構的文件,對於TBX文件同樣如此。