1 引言
當前全球的數據量正在迅速增長,預計在2025年將會從2018年的33ZB增加至175ZB。互聯網全球化、移動設備普及化、雲計算存儲低成本化、物質世界網路化,都在為「數據大爆發」儲蓄能量,大數據已成為繼雲計算、物聯網之後IT產業又一次顛覆性的技術變革[1]。大數據技術和產業的蓬勃發展,使數據成為了重要的生產力,同時也使當今社會的生產關係發生了變革。
大數據時代的戰略意義不僅在於掌握龐大的數據信息,還在於發現和理解信息內容及信息與信息之間的關係[2]。因此,數據分析成為挖掘數據價值的關鍵步驟。本文從數據可視化、自動化數據建模和情景分析出發,介紹三大數據分析領域的關鍵技術現狀,梳理各領域的前沿工具及應用場景,總結數據可視化、自動化建模和情景分析等數據分析技術和工具的發展趨勢。
2 數據分析技術現狀
大數據分析是指在強大的支撐平台上運行分析演算法,並發現隱藏在大數據中潛在價值的過程[3] 。從異構數據源抽取和集成的數據構成了數據分析的原始數據,而大數據分析的核心問題是如何對這些數據進行有效表達、解釋和學習[4]。因此,目前學術界一般認為數據可視化、自動化數據建模和情景感知是數據分析過程中的核心環節。
2.1 數據可視化
數據可視化指利用人眼的感知能力對數據進行交互的可視化表達以增強認知的技術[7]。數據可視化一般包括科學可視化、信息可視化和可視化分析3類[5]。科學可視化主要是實現對於比較具體的數據可視化,側重於那些有自然幾何結構的數據,如磁場、地理結構等;信息可視化側重於抽象數據的可視化,如樹形圖、柱狀圖;可視化分析指在數據可視化中結合了數據挖掘等知識[6],如分析推理、視覺呈現和交互等。本文聚焦於信息可視化,以及可視化分析中的數據可視化交互。
Card等人對信息可視化(Information Visualization)的定義為對抽象數據使用計算機支持的、交互的、可視化的表示形式以增強認知能力[8],側重於通過可視化圖形呈現數據中隱含的信息和規律[9]。
數據可視化起源於18世紀,William Playfair在出版的書籍《The Commercial and Political Atlas》中第一次使用了柱形圖和折線圖[10] ;在隨後的200多年間,直方圖、餅圖、折線圖等廣泛地應用于軍事、工業、科學領域,但數據可視化技術並未發生顯著進步;直至20世紀後期,計算機技術、圖像處理技術和計算機視覺的迅速發展推動數據可視化由靜態圖表演變為動態交互圖表,處理對象由二維數據擴展至高維數據;21世紀,大數據時代下,數據體量大、種類多、時效高、價值密度低的特徵[11],推動數據可視化不僅關注多類型數據源的處理,也包括大規模實時數據的處理。
國內數據可視化研究學者多從數據種類的角度劃分數據可視化技術。任磊等將數據可視化技術劃分為文本可視化技術、網路(圖)可視化技術、時空數據可視化技術、多維數據可視化技術等[9]。王藝等將數據可視化技術劃分為空間標量場可視化技術、地理信息可視化技術、時空數據可視化技術、層次和網路數據可視化技術、文本和文檔可視化技術、複雜高維多元數據可視化技術[12]。部分學者從數據可視化的方法劃分數據可視化技術。程學旗認為數據可視化的核心方法包括曲面可視化、解析度、視覺隱喻[4]。
表1從數據種類的角度入手,總結主要數據類型及對應的數據可視化技術,並介紹各數據類別下的主流數據可視化技術。
表1 數據可視化技術匯總

(1)文本可視化將文本中複雜的或者難以通過文字表達的內容和規律以視覺符號的形式表達出來,同時向人們提供與視覺信息進行快速交互的功能,使人們能夠利用與生俱來的視覺感知的並行化處理能力快速獲取大數據中所蘊含的關鍵信息[13]。截止到目前,文本可視化較為常用的是標籤雲(Tag Cloud)技術。標籤雲通過統計文本中詞語的出現頻率,按照一定的順序和規律展現出關鍵詞,如用顏色深淺或字體大小區分關鍵詞的重要性。最初的標籤雲採用簡單的水平排放的方式,但無法高效利用可視化布局空間;隨後出現的Wordle標籤雲使標籤雲更緊湊,TagCrowd和Tagul給標籤雲提供了中文編碼的能力,並添加了標籤的輪廓。但是標籤雲仍有局限性,其僅對文本中的高頻辭彙按照邏輯順序進行布局排列,並沒有提供幫助上下文理解的可行性辦法[14]。
(2)網路可視化是大數據可視化的重要分類之一,通過對於點、線、面基本元素的運用組織出多種可視化圖像,揭示人類無法感知的複雜數據結構[9]。網路可視化技術可以分為靜態網路可視化和動態網路可視化。靜態網路可視化技術包括節點-邊可視化、空間填充法,其中節點-邊可視化是圖可視化的主要形式,空間填充法適用於具有層次特徵的圖。由於網路數據體量巨大且結構複雜,靜態的可視化圖像往往會丟失數據關係的細節,動態網路可視化通過動態快照的方式獲取數據變化[15]。動態網路可視化中應用廣泛的是動態視頻流可視化。
(3)時空數據可視化是對帶有時間標籤與地理位置的數據可視化,以展示其隨時間和空間所發生的行為變化[16]。時空數據可視化的一種典型方法是流式地圖,即將時間事件流和地圖進行融合,其中時間事件流是採用堆疊的語義流來表達多個變數隨時間演化的過程。由於地理位置具有的三維特徵,時空立方體通過在2D平面地圖的基礎上繪製實體或疊加屬性,直觀展示空間信息,如在三維虛擬城市地圖中的路線或地標建築[17]。
(4)高維數據可視化指對具備兩個或兩個以上屬性的數據對象進行可視化的過程。高維數據可視化可分為空間映射法和圖標法。空間映射法包括散點圖、表格透視、平行坐標、降維,圖標法包括星型圖、雷達圖。典型的高維數據可視化方法是散點圖和平行坐標。散點圖是將抽象的數據對象映射到二維坐標表示的空間,整個數據集在空間中的分布反映了各維度間的關係以及數據集的整體特性[18]。平行坐標技術採用相互平行的若干個坐標軸,每個坐標軸代表數據的一個屬性維度,而每個數據對象則對應一條穿過所有坐標軸的折線。
數據可視分析技術的目標是使數據分析過程透明化,結合了可視化、人機交互和自動分析技術[19]。數據可視分析包括分析推理技術、視覺呈現和交互技術、數據表示和轉換技術、產生傳播分析結果技術4部分核心技術。本文聚焦於數據可視化中的交互技術。
數據可視化交互指用戶通過與可視化系統之間的互動,加深數據理解的過程。互動可以有多種表現形式,包括選擇變數、選擇時間段、調整可視化元素(如字體、顏色)等。數據可視化交互不僅讓用戶自主選擇數據對象及合適的可視化方法,也提升了大規模、複雜多維、動態變化和地理空間的可視化效果。
常見的數據可視化交互操作包括導航、過濾、關聯等(見表2)。導航技術指在受限空間內,通過調整視角的方式選定視點,並顯示可見數據,包括平移、縮放和旋轉3種基本操作;過濾技術指通過設置過濾條件進行整體數據視圖內的信息篩選,並動態展示過濾效果;關聯技術指用動態可視化的方式展現數據之間的關聯。
表2 數據可視化交互技術

分別以高維數據可視化中的散點圖和平行坐標交互方式為例進行說明。在散點圖可視化交互中,用戶互動式地選取關注的屬性數據進行可視化,比如按照重要程度排列屬性,優先顯示重要的程度高的屬性,並比對不同屬性散點圖所展示的關聯關係差異,在一定程度上緩解空間的局限。在平行坐標可視化交互中,由於平行坐標多描述相鄰兩個屬性之間的關係,不適合同時表現多個維度間或非相鄰屬性間的關係,用戶可以通過平行坐標揭示高維數據中的深層信息,消除大數據帶來的線段混亂和重疊等問題,並交互地選擇感興趣的數據對象,將其高亮顯示。
2.2 自動化數據建模
自動化數據建模相較於傳統數據建模而言,主要體現在數據建模全流程中由機器操作替代人工操作的過程。自動化數據建模的核心是自動化機器學習(Automated Machine Learning,AutoML)。自動化機器學慣用於描述模型選擇或超參數優化的自動化方法,包括多種類型的演算法,如神經網路[20]。國際人工智慧學會理事長楊強教授認為,從數學的角度看,AutoML是讓目標函數學習機器學習參數,從配置里學習最佳參數,由於參數和維度是巨量的,因此選擇最佳點的工作應該由機器承擔。
在2017年谷歌剛剛推出AutoML工具的時候,AutoML還僅有機器學習模型自動化的意思,但目前AutoML被認為需要貫穿機器學習工作流。機器學習工作流指在給定數據集中實現當前最佳模型性能,通常包含數據清洗、特徵工程、選擇演算法模型結構及其中涉及的超參數調試,AutoML意味著端到端的機器學習工作流(Machine Learning Pipeline)。事實上,自動化建模最初聚焦於機器學習中的模型選擇環節,但目前已覆蓋數據預處理、模型選擇、變數選擇、模型調參和模型評估的全流程數據建模,模型選擇將演算法模型由機器學習擴展至深度學習、強化學習、遷移學習等(見圖1)。

圖1 自動化數據建模流程
自動化數據建模通過降低技術門檻、提升建模效率和模型解釋程度,優化了數據建模的流程和投入成本。傳統數據建模的技術門檻較高,需要大量的建模專業人員,具備包括統計學、演算法和編程能力等,以便在具體場景下選擇合適的數據預處理規則,並使用編程軟體實現數據建模和數據分析。傳統數據建模的建模流程複雜,數據預處理和模型選擇的工程量較大,其中超參數的調試往往需要在可能的超參數空間遍歷足夠多的選擇,導致機器學習模型耗費幾小時或幾天的時間完成模型訓練與評估。傳統數據建模多為「黑箱」模型,降低了模型的可解釋性,難以滿足模型支撐上層應用的需求。相比之下,自動化數據建模基於輸入的數據建模應用場景,選擇數據預處理方式,縮短了數據建模流程(見表3)。
表3 傳統數據建模和自動化數據建模對比

自動化建模的核心技術包括模型選擇環節的神經架構搜索(NAS)和自動化調參。
機器學習和深度學習是計算密集型,神經網路的設計工作耗時,並對專業知識有較高要求。神經架構搜索的網路減少了訓練和調參工作,使用者只需為NAS系統提供數據集,NAS將返回最佳架構。神經架構搜索通過遵循最大化性能的搜索策略,從所有可能的架構中尋找最佳架構。如圖2所示,其中搜索空間定義了NAS方法原則上可能發現的神經架構。同時,通常使用強化學習或進化演算法來設計新的神經網路結構,目前已用於目標檢測和圖像分類等任務。

圖2 NAS 方法
在機器學習中,參數是影響演算法性能的關鍵因素,而調參是一項繁瑣卻重要的環節,貝葉斯優化是一種自動化調參的方法。貝葉斯優化是一種用模型找到函數最小值的方法,目前眾多Python庫可以實現貝葉斯超參數調整。相較於其他隨機或網格搜索方法,貝葉斯優化在嘗試下一組超參數時會參考之前的評估結果,因此在遍歷超參數空間的過程中,通過推斷過去的結果縮小超參數空間的範圍,提升搜索效率。
自動化數據建模由於數據規模、模型數量、模型搜索與訓練所耗費計算資源增加,意味著產品需要更強的技術支持。美國機器學習公司DataRobot建立比較各種演算法的雲服務產品DataRobot Enterprise,使用大規模並行處理來訓練和評估R、Python、Spark MLlib、H2O和其他開源庫中的1000個模型。同時,Skytree公司的伺服器是首款針對一般目標而設計的機器學習和高級分析引擎,旨在準確地處理大量數據集。
自動化數據建模最理想的狀態是一個端到端的過程,即用戶輸入數據集,自動化數據建模系統輸出待解決問題的結果,不僅覆蓋了數據建模的各個環節,也保證了各環節的連通性和一致性。2019年,MIT的研究員發表了題為《用於自動數據建模的貝葉斯合成概率程序》(Bayesian Synthesis of Probabilistic Programs for Automatic Data Modeling)的論文,旨在使用貝葉斯推理,對大量的計算機程序進行取樣,並對每個程序的可能性進行評分,以此作為處理想要研究的數據的可能解決方案,最終讓計算機程序找到正確的程序完成給定數據集的所有分析工作。
2.3 情景感知
情景(Context),也稱情境、上下文,是指用於描述一個實體所處狀態的任何信息,包括實體的位置、時間、周圍環境、活動和偏好等[21]。情景感知(Contextaware)指無論使用桌面計算機還是移動設備普適計算環境中使用情景的應用[22]。這意味著計算機資源分布在生活中,並自主採集用戶的情景數據,進而使計算機實現在用戶不發出服務請求的情況下自主判斷何時提供以及提供何種服務,簡化了用戶和網路的交互,提升了用戶體驗[23] 。
情景感知概念在網路技術、通信技術、計算機技術和計算機應用迅猛發展的背景下誕生,最初應用於製造業、電子商務、農業等行業,其主要用戶對象為傳統大型企業。在大數據時代,數據實時採集處理等大數據技術、人機交互和計算機視覺等計算機技術、機器學習演算法均得到了大幅度提升,逐步實現了「現實世界」到「虛擬世界」的映射,並依賴即時的計算機資源完成計算。在數字政府和企業數字化轉型的背景下,情境感知的服務對象覆蓋了政府以及中小企業。同時,物聯網、人工智慧、虛擬現實等應用場景的豐富,使個人用戶成為了情境感知技術的受益者。
情景感知的核心技術包括情景數據動態採集技術、情景數據建模技術、情景推理技術。
情景數據分布於虛擬環境與實際環境中,分別對應不同的動態採集技術。虛擬環境(如互聯網)中的情景數據包括用戶的搜索、點擊、瀏覽、下載、複製、上傳、評論等行為[21],實際環境中的情景數據包括溫度、濕度、氣壓、距離、GPS等。如何準確地獲取、描述用戶的動態情景信息是情景數據實時採集的關注問題之一。虛擬環境中的情景數據可以從伺服器端或應用軟體中採集,實際環境中的情景數據可以從感測器採集,為了提升數據採集的時效性和準確性,也採用多感測器協同感知的手段。
情景數據建模指通過對多源採集的情景數據進行統一模型加工,使其具有一致的形式和語義,以提升情景數據的融合和情景推理的效率。情景數據建模不同於數據分析挖掘中的數據建模,前者的關注點在於如何將多源異構數據存儲至資料庫或數據倉庫中,後者的關注點在於如何構建符合應用場景需求的數學模型以完成情景推理。情景數據建模的方法包括鍵-值對模型、模式標識模型、圖形模型、面向對象模型、邏輯模型和本體模型等。在不同的情景感知場景下,可選取合適的一種或多種情景數據建模方法,如社會情景建模多採用基於圖形的和基於本體的建模方法[24] 。
情景推理指基於情景感知規則推斷出用戶的需求並向用戶提供對應的服務。由於情景數據採集和傳輸設備故障問題,以及用戶主動反饋情景數據的意願問題,情景感知規則的訓練集存在不完整的情況,因此機器學習演算法是常用的情景推理技術,包括決策樹、神經網路等。同時,通過構建情景感知管理器,在用戶當下情景滿足假設情景時提供服務,在用戶當下情景發生變化時,採集情景數據並及時改變策略。
3 數據分析工具與應用
伴隨著數據可視化、自動化建模和情景感知技術的發展,越來越多的企業開發了相應的工具,並衍生了相關社區和開源架構,擴大了數據可視化、自動化建模和情景感知的應用場景。
3.1 數據可視化工具
國內外數據可視化工具種類繁多,主要包括圖表類工具(如D3、Echarts、Tableau、DataV)和高級分析工具(如R、Python、Weka)。Tableau是一個商業智能工具,將數據連接、運算、分析和圖標相結合,簡化了數據可視化流程,提升了數據可視化的易讀性。DataV是阿里雲開發的數據可視化工具,在海量數據渲染和三維數據可視化方面具備優勢,可用於創建地理信息可視化大屏。
數據可視化廣泛地應用於醫療、交通等行業。在醫療行業,數據可視化技術增強醫療領域大量非結構化數據的可讀性。例如,醫療影像(X光片、CT、MRI)數據可以藉助於圖像識別技術,通過區分不同灰度值來判斷病灶的精確位置,從而使得臨床決策支持系統更加智能化,給醫生提供更合理的診療建議[12]。同時,國內外開展了醫療領域數據可視化技術研究。截止到2016年12月,在SCI檢索系統中,標題中含醫療大數據可視化的相關學術論文共142篇[12],研究成果包括多GPU環境下的並行體繪製[25]、分散式醫學影像數據的Streaming技術框架研究及實踐[26]、醫學數據三維交互的可視化方法[27]等。
時空數據可視化的應用之一是地理社會網路的數據可視化。時空數據可視化能夠形象、直觀地揭示社會網路中人與人、人與位置之間的關聯、軌跡、社區等各種關係信息,成為分析地理社會網路最重要的方法之一[28]。數據可視化交互由於支持用戶自主選擇變數以及自適應可視化結果,使用戶具有良好的數據可視化操作體驗,因此擁有眾多的應用場景。以交通軌跡可視化分析為例,其數據可視化維度主要分為時域分析和空域分析,分別對應時間和空間的變化,通過多個窗口聯動的交付操作,用戶可以根據從時間、路線、統計信息等多個角度獲得數據分析互動結果,包括從海量的車輛軌跡中提取出特定違章行為的軌跡、分離出路口紅綠燈信號交替的細節以及路口的擁堵情況等。
3.2 自動化數據建模工具
從2017年開始,國內外多家公司陸續推出了自動化數據建模工具(見表4)。谷歌在2017年5月的I/O大會上發布了AutoML,將其應用於深度學習的圖像識別和語言建模兩大數據集中。同時,谷歌在2018年全面啟動Cloud AutoML項目,包含神經架構搜索技術、learning2learn和遷移學習三大核心技術,實現了用戶只需提供數據和拖拽界面的方式,自動構建深度學習模型。國內自動化數據建模工具包括第四範式的HyperCycle ML、百度的EasyDL、浪潮的AutoML Suite、曠視科技的Brain++、探智立方的DarwinML 等。
表4 國內外自動化數據建模工具

多數廠商不僅提供自動化數據建模的產品工具,同時會提供完整的自動化數據建模解決方案。目前,數據建模的數據預處理階段尚未實現完全自動化,依然需要相關人員根據具體的應用場景選擇合適的預處理方法。而自動化數據建模解決方案將場景因素考慮在內,有針對性地完成數據準備工作。曠視科技的AutoML技術提供了完整的解決方案,覆蓋了包括活體檢測、人臉識別、物體檢測、語義分割在內的多種場景;百度的EasyDL在2018年陸續發布了定製化物體檢測服務、定製化模型設備端計算和定製化聲音識別等多個定製化能力方向,應用於零售、安防、工業質檢等數十個行業。
隨著自動化數據建模工具的發展,逐漸形成了開源工具。H2O. ai是初創公司Oxdata於2014年推出的一個獨立開源機器學習平台,其功能是為APP提供快速的機器學習引擎,支持通過R與Python進行引入包的方式開發模型和自動化參數調優。目前,這款開源自動化數據建模工具服務於全世界超過1.8萬家企業,服務用戶數超過20萬。
3.3 情景感知工具
計算機和手機操作系統通過配置情景感知API,推進「人機合一」。Google在2016年I/O開發者大會上發布了Awareness API,通過將調用設備的數據和感測器來檢測用戶所處情景,包括時間、位置、活動、耳機(插入/拔出)和天氣。而使用Google Awareness API的應用,將通過對情景數據的採集、建模和推理,為用戶提供個性化服務。以SuperPlayer Music應用為例,該應用支持在用戶戶外健身、長途行駛和專心工作等情景下為其推薦不同類型的音樂。微軟在Win10系統內置了情景感知API,可以根據重力感應、陀螺儀等數據判斷出用戶活動狀態,從而自動調整Win10的情景模式,並由作為用戶私人助手的Cortana發出提醒或建議。
電商、旅遊業等通過利用情景感知技術,實現更精準的個性化推薦,即通過及時獲取用戶多種情景行為數據,並根據用戶情景的改變而有針對性地提供即時滿足的商品或服務。生活服務類產品「及時」通過將獲取的用戶地理位置與附近商家數據相連,利用藍牙、GPS、Wi-Fi定位等計算用戶的情景和位置,及時推送符合用戶需求的商家。Adomavicius等提出一種旅遊推薦系統,該系統結合了前置情景過濾、後置情景過濾和建模進行情景感知推薦,基於不同的位置和季節給出不同的度假選擇[29]。
4 數據分析技術發展趨勢
隨著未來數據量的大幅攀升和分析需求的不斷提升,數據分析技術也將在多個維度拓展增強。由於隨著數據量的大幅增加,現有的處理分析技術可能無法滿足數據的及時分析,因此增強數據分析能力將是未來數據分析技術發展的重要領域。龐大的數據量必將給數據管理帶來新的挑戰,未來數據分析技術的發展也將與數據管理技術全面適配。此外,未來數據分析技術的發展也必將沿襲智能化的發展,決策自動化或自動化決策支持將為數據分析處理提供強有力的推動力。
由於關鍵方法、處理流程和應用場景的不同,數據分析技術在數據可視化、自動化建模和情景感知方面呈現出不同的發展趨勢。
(1)增強實時複雜數據流的可視化效果與可視化交互是數據可視化技術的主要突破點。在時空數據可視化方面,多尺度時空可視分析技術一直是一個挑戰,即在統一空間內,將多源數據進行可視化處理並提供有效的可視分析手段[19]。在確保展示信息的完整性和準確性的同時,提升信息的可讀性,通過交互的方式滿足用戶在不同維度下解讀信息,同時表達各維度之間的關聯信息。
(2)自動化建模的技術發展主要是提高模型的準確性和穩定性,並簡化使用。深化與具體應用場景的結合,增加各場景下的訓練數據集及相應的自動化建模方法,對於通用場景而言,以API或AI應用的方式提供服務。
(3)情景數據的融合和管理是情景感知技術的發展核心。不同數據源、感測器產生的情景數據是異構的,同時也存在語義上的差異,儘管在現有情景數據建模的方法下可以實現形式和語義上的統一,但這一過程覆蓋的情景數據有限且缺乏工具支持。同時,管理情景數據將提升數據質量,減少冗餘缺失數據,增加情景推理的有效性。
原創文章,作者:投稿專員,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/209339.html
微信掃一掃
支付寶掃一掃