自动识别代码(編碼自動識別工具 uchardet)
編碼自動識別工具 uchardet
設計開發 9 Comments »555 views
最近在給opencc做圖形界面 ,遇到一個問題:opencc默認只能轉換utf-8文本 ,其他編碼像GB18030 ,BIG5只能轉換成utf-8以後 ,纔能用opencc轉換 。這個問題說大不大 ,說小也不小 。我完全可以增加一個選項 ,在打開的時候讓用戶選擇文本編碼 ,然後再轉換就行了 ,但這卻給用戶非常糟糕的體驗 ,因為很多非專業用戶根本不知道什麼是文本編碼,更別說辨別了。GB18030/BIG5硬要用utf-8打開的話 ,肯定會遇到亂碼 。由於Windows默認是GB18030/BIG5編碼 ,一般情況下文本會被保存成默認編碼,這樣更大大增加了用戶遇到亂碼的概率 。爲了提高體驗 ,我計劃實現文本編碼的自動檢測 。
最早接觸到編碼是從做網站開始的 ,記得如果忘了在head中顯式地向瀏覽器指定編碼,就經常會出現亂碼 ,但亂碼也並不總是出現 ,這是怎麼回事呢?瀏覽器還是有自動識別的能力的 。發現Firefox瀏覽器中有一個編碼選項 ,裏面有“自動檢測 ” ,使用它絕大多數時候都能正確識別 。
事實上純文本的編碼檢測是一個非常複雜的問題 ,甚至理論上根本不可能實現 。確切地說 ,“檢測 ”應該叫“探測”或者“推測 ”纔更恰當 。自動編碼探測的實現原理主要是統計學的方法 ,每個編碼會有一定的特徵 ,首先檢測特徵是否符合 ,再使用常用的匹配,類似於蒙特卡羅法 。具體方法可以參考http://www.mozilla.org/projects/intl/UniversalCharsetDetection.html 。
mozilla在很多年前就做了一個非常優秀的編碼檢測工具 ,叫chardet ,後來有發佈了算法更加優秀的universalchardet,用於Firefox的自動編碼識別。我想 ,這麼出名的一個工具 ,應該肯定已經有不少人在用了 。有意思的是,我在網上找到了chardet和universalchardet的各種移植:
python-chardetPython 移植 ruby-rchardetRuby 移植 juniversalchardetJava 移植 universalchardet jchardetJava 移植 chardet nuniversalchardetC# 移植 universalchardet nchardetC# 移植 chardet惟一沒有的 ,竟然是C/C++的接口封裝 。debian更是收錄了python-chardet和ruby-rchardet ,卻沒有libchardet或者libuniversalchardet。莫非沒有C/C++的應用在使用chardet嗎?用強大的Google代碼搜索 ,發現的確有 ,但幾乎都是把chardet的代碼內嵌到了項目中 ,耦合十分緊密 。更有直接調用python-chardet的 ,實現不夠純淨 。
總覺不該是這樣 ,但經過反復確認 ,真的沒有一個獨立的universalchardet的C函數庫封裝。還是自己動手好了 ,我從mozilla上面取下來了代碼,做了一點點補丁 ,寫了一個接口和命令行界面 ,取名uchardet,大功告成 。測試了一些GB18030和UTF8的文本 ,感覺準確率非常高 ,而且速度很快 。但是當我試圖識別幾個字節的短文本的時候,卻出現了識別錯誤 ,開始以為是我的錯 ,後來發現我用Firefox直接打開 ,也是無法識別的 ,而且錯誤識別的編碼一樣 。看來是上游的問題 ,應該是算法本身的缺陷吧 。想想看 ,畢竟文本越短歧義的可能性越強 。不過既然能達到和Firefox同樣的水平 ,一般應用也就够了 。
項目主頁在Google code上:
http://code.google.com/p/uchardet/
代碼在github上:
https://github.com/BYVoid/uchardet
我爲什麽用universalchardet?其實編碼自動識別的解決方案不止一個 ,有icu提供的解決方案 ,IE也有API,還有已經在很多Linux發行版中的enca 。我之所以用universalchardet ,是因為它是最合適的 。IE的API不能跨平臺 ,icu實現太龐大,enca是GPL(注意不是LGPL) ,使用它意味著我也要讓我的所有源碼使用GPL ,而不是更加開放的Apache 。universalchardet是MPL的,和LGPL差不多寬鬆 ,使用它是沒有問題的。我非常不喜歡以GPL發佈的函數庫 ,這給開發者的限制太大了 。
创心域SEO版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!