2017/4/29

從 EXCEL 匯入 UTF8 CSV 變成亂碼? 使用 EXCEL 或 POWERBI 如何處理?

實務上,我們常常會轉存文字檔的編碼為 UTF8,因為這會有利於我們跨平台交換資料的便利性。再者有些企業經營的是國際市場,所以會有需要儲存日文、韓文、越南、泰文、各式歐洲語系的需求,如果只使用過往的台灣中文編碼 BIG5碼會有很多問題。

而很多人會為工作方便,常常會將 CSV 的檔案關聯直接設定為 EXCEL ,好處是直接在檔案總管點2下,檔案就直接會顯示在 EXCEL 上。但是如果你試著對於 UTF8 進行這樣的作業,你會發現如下的結果:「亂碼!!!!」

而且除了亂碼之外,其實你會發現有時候連資料筆數、資料欄位都整個錯亂;例如:你原先有50筆資料,但變成了48筆或是53筆資料。這可不是非同小可的錯誤啊,即使你只是想要求算總體營業額,也許不用知道細項的名目,但事已至此,你不動手處理這個問題也是不行。

 

圖示:直接點擊 UTF8 後的EXCEL 畫面

 

這時候就要借用 EXCEL 的「資料」→ 「從文字/CSV」功能;此功能會出現讓你選擇檔案編碼的選單:操作範例如下。這個功能在舊版的 EXCEL 中也有具備,可見 EXCEL 早就具備處理多國編碼的能力,但為什麼要藏在這麼隱密的地方呢? 這我就不知道啦。

而在新版的 EXCEL 2016中,其實整個介面都與 POWER QUERY 完全整併。所以你會發現後續看到的畫面與 POWERBI 中讀入 CSV 完全相同。

 

 

出現編碼選擇的畫面。原來系統一開始判讀編碼錯誤,誤認為這個編碼是 BIG5

 

將其選擇成正確的編碼型式(UTF8);附註一提,如果你需要處理日文編碼的話,一樣比照辦理,找到適合的日文編碼就可以正確讀檔。

OK,這下就完全正常。

資料正確匯入後,就可以進行下一步的分析。

 

這邊我直接筆述比較同樣讀入CSV在 EXCEL2016、POWREBI 的作業程序:

「資料」→「從文字/CSV」→「選擇編碼」 (POWER QUERY)

「GET DATA」→ 「TEXT/CSV」→「選擇編碼」

就可以發現2者的程序是非常近似的,只是一般使用者不易察覺到 EXCEL 的這項功能,導致常常有人問到為什麼在 EXCEL 中是亂碼。

 

而在實務或是教學中,我個人是偏好直接用 POWERBI 或是 Tableau 直接來進行檔案的匯入。大部份的情況下,這2套軟體都能直接對應到實際的編碼,有時連選單都不用再進行處理。

沒有留言:

張貼留言