編輯導語:雲圖,也叫文字雲,是對文本中出現頻率較高的「關鍵詞」予以視覺化的展現,詞雲圖過濾掉大量的低頻低質的文本信息,使得瀏覽者只要一眼掃過文本就可領略文本的主旨。如今,越來越多的文章開始使用詞雲圖來展示信息。如此便利的信息展示形式,你還不會製作嗎?
詞雲圖是數據可視化的一種常見形式,特別適合於文本數據的處理和分析,今天就來大略談談詞雲圖。
一、什麼是詞雲圖
「詞雲」的概念最早是美國西北大學新聞學副教授、新媒體專業主任裡奇戈登(Rich Gordon)提出的。
詞雲(Word Cloud),又稱文字雲、標籤雲(Tag Cloud)、關鍵詞雲(Keyword Cloud),是文本數據的一種可視化展現方式,它一般是由文本數據中提取的詞彙組成某些彩色圖形。
詞雲圖的核心價值在於以高頻關鍵詞的可視化表達,來傳達大量文本數據背後的有價值的信息。
以央視網對浦東開發開放30周年慶祝大會的新聞報導為例(網址:https://news.cctv.com/2020/11/12/ARTIZeNIAERfxwqaQdNVIZOa201112.shtml),用在線詞雲製作工具易詞雲對該網頁上的文本數據進行處理,得到了下圖1所示的詞雲圖。
圖1 詞雲圖示例
由上可見,詞雲圖是由詞彙、顏色、字體大小和圖形四個要素構成的,它濃縮了文本數據的內容,通過文字、色彩、圖形的搭配,產生了有衝擊力地視覺效果。
詞雲圖直觀的表示了每個詞彙在相應文本數據中的詞頻分布,通過使用不同的顏色和大小來表示不同級別的相對重要性,字體越大越顯眼,對應的詞彙被提及頻率越高。
詞雲圖過濾掉了大量的文本信息,使網頁瀏覽者只要一眼掃過詞雲圖就可以大致領略到文本所表達的主旨。
二、詞雲圖有何特點
詞雲圖作為對文本數據的一種再加工方式,本身存在一些優勢,但也有一些不足之處。筆者認為,詞雲圖有四個優點和四個缺點:
1. 四個優點
視覺上更有衝擊力:詞雲圖比條形圖、直方圖和詞頻統計表格等更有吸引力,視覺衝擊力更強,一定程度上迎合了人們快節奏閱讀的習慣;內容上更直接:詞雲圖本身是對文本內容的高度濃縮和精簡處理,能更直觀的反映特定文本的內容,在一定程度上能節省讀者時間,讓讀者在短時間內對文本數據的主要信息做到一目了然;應用範圍廣:詞雲圖可以作為一種分析工具應用到用戶畫像、輿情分析等場景下,還可以直接嵌入到PPT報告、數據分析類產品、可視化大屏中,是對文本數據價值變現的一種手段;製作門檻低:製作詞雲圖的難度不高,沒有數據處理技術背景的人也能做出有效的詞雲圖來。
2. 四個缺點
區分度不足:詞雲圖對詞彙的表達採取的「抓大放小」的處理方式,對於詞頻相差較大的詞彙有較好的區分度,但對於顏色相近、出現頻率差不多的詞彙的區分效果不是很好;輸出無統一標準:受制於分詞技術、算法、詞庫質量等因素,不同的人對於同一文本數據,採取不同的詞雲圖生成方式和圖案,得到的詞雲圖可能會有較大差異,有時候可能出現一些亂碼,影響詞雲圖的輸出效果;信息缺失問題:詞雲圖對高頻詞彙能做到突出化處理,讓高頻詞彙佔據C位,但是對於大量低頻詞彙或者長尾型詞彙所傳遞的信息不能做很好的表達,再加之這類詞彙大多字體偏小,可能會讓讀者忽略掉部分信息。對於有特定要求的或者關注某些細節的讀者來說,詞雲圖可能無法滿足他們的需求;內容表達缺乏邏輯性:詞雲圖是由各類詞彙在空間上按一定圖形組合而形成的,這些詞彙都是從有邏輯結構的文本數據中拆分出來的,從文字變成了圖形後,再呈現出來的內容失去了內在的邏輯結構,需要讀者將高頻詞彙串聯起來形成聯想才能獲取到信息。
三、詞雲圖如何製作
製作詞雲圖這件事情並不複雜,通常需要經過數據準備、分詞處理、圖形輸出三個步驟。
第一步要做的是準備一份文本數據,要求文本數據中沒有圖片或音視頻文件及其連結;第二步需要對準備好的數據進行分詞處理,提取其中的關鍵詞,並做詞頻統計;最後一步就是選擇合適的圖案,做要輸出的圖形進行個性化配置,生成想要的詞雲圖。
從實現方法來看,製作詞雲圖通常可以分為三種方法:藉助在線工具、應用專門的軟體、編程實現。
第一種方法:藉助在線工具,也就是在網頁上就能完成詞雲圖的製作和輸出。目前支持在線製作詞雲圖的網站有:WordArt、Wordiout、微詞雲、易詞雲、美寄詞雲等;第二種方法:直接使用有詞雲圖製作功能的軟體,比如:FineBI、Tableau、SmartBI、BDP等,詞雲圖只是這些軟體的一個小功能;第三種方法:通過編程來實現詞雲圖,常用的程式語言有Python和R。對於有編程技術基礎的朋友,可以自行用Python等製作詞雲圖,對於沒有編程基礎的朋友採取前兩種方法,這兩種方法操作起來比較容易,有興趣的朋友可以親自嘗試一下,筆者在這裡就不一一介紹了。
本文由 @黃小剛 原創發布於人人都是產品經理。未經許可,禁止轉載。
題圖來自Unsplash,基於CC0協議