資料的分析與直觀可視化 (Data Analytical and Visualization)

 晚近商業智能軟體已由著重商業數據的整理(ETL),進而強調分析與可視化(Visualization);資料的處理不僅止於統計分析,更要讓分析結果能為閱眾(Viewer)所直觀理解。

Visualization這個詞翻譯成可視化可能不十分貼切,一般易誤解為利用精美的圖形來呈現資料,其本質原指人類的認知過程對顏色、大小(長短)及形狀等的奱化最為直觀敏感,因而可視化的概念實指以最能為人類所認知理解的直觀形式來呈現資料。以人處理資訊的能力而言,這種直觀形式顯然不限於圖形或顏色等向度,摘要性的表格因帶有數據,有時反而更能為人所理解。

 下表是一家上市公司總經理級管理層所常看的一種表,公司的前10大銷售額產品(謹列舉前三大):

 對於財務人員辛苦的由眾多產品中整理出來的這張大表,如果你的反應是看的頭痛, 恭喜了,你符合總經理級的反應。這主因是人認知的短期處理能力,局限於35個類別(chunk),這類同於電腦的RAM,比起磁碟容量總是顯的小而有限;生活中的常例,如,電話號碼57位數最易記憶,多了就得分類(國碼+區碼+電話), 因而,較好的資料呈現方式是先呈現摘要,其相關細節隨選而得;下表是10大產品按毛利大小排列的摘要總表:



        閱眾(viewer)隨選左表產 品C01即得右表C10銷售相關細節;


表格所顯示的細度(cell)20個左右,仍是資料呈現的首選形式。

 而對於複雜表格的直觀化,則通常看資料呈現的命題是什麼,再來決定呈現的形式,市面上的知名表格處理軟體往往先需選定呈現的圖形再界定資料,這是反邏輯的。

 資料的呈現通常不外以點(dot),線(line)及條圖(bar)等最簡形式來呈現其正常或例外,運用這些圖示方法來進行離差分析(deviation analysis)即是一種常用的資料分析形式。例外的呈現,無關乎好壞,好的異常,需要追索因以保持;壞的異常,也需要歸因以避免再犯。

 下圖呈現了上例10大產品的成本狀態,管理層可很容易的直觀並理解產品E26 (橘色)的單位人工及單位材料在4月份異常的上升,究竟是產品質量問題導致重工(redo)或是其他因素,可有針對性的再追索原因。


有時,直觀可視化所呈現的是一種趨勢(氛圍),例如下表,2009年縣市長選舉,二大政黨及未投票人數的票數消長(資料取自中選會公開資訊)


對這些票數的消長,各方評論已多,此處不再多言;(雖然由商戰的角度,或許值得注意的是未投票的選舉人數(潛在市場)躍居第一大位,佔36.66%,具投票權的人增加了約30萬,但不去投票的人比之2005年反增了39萬人之多), 此處另由直觀可視化的角度呈現另一種資料的面貌。

 下圖為各主要政黨(包括未投票人)就2005年及2009年在各縣市投票所選舉票數比率分配圖,勢力消長一目了然;



若以離差分析的方法,再將泛政黨(主要是藍綠)依每一縣市的投票的領先或落後票數來呈現,則如下圖:


 

由顏色翻轉及色調的濃淡觀之,政黨勢力的消長更為突顯,泛藍政黨需要警覺的是一種翻盤的氛圍已由宜蘭與雲林等區域逐步侵蝕傳統的泛藍縣市,由商戰市場佔有率的角度來看,其嚴重性顯然比小贏十萬票或丟失一或二個縣市要重大多了!

 這種離差分析對於市場(細分至縣市隣里)的攻防,尤有意義,何處是我的真勢力範圍,當守;何處當攻,或求平盤;攻守之間以何種議題為有效?可以結合進一步的市調分析決策之。

 直觀可視化無疑是新一代商業智能(BI 2.0)最為突出的特性之一,資料不再是無生命的命題,資料分析可以是很有趣的。


Comments