數據科學在過去幾年裡被用來指代幾乎所有與數據有關的事務(數據分析、數據挖掘、機器學習等)。越來越多的人開始尋求數據科學教育資源,因此越來越多的大學以及在線平台也紛紛開發這樣的項目。
然而,數據科學和數據科學家的定義缺乏明確性,顯然這對每個參與者都不利,不論其頭銜聽起來是多麼時髦。每個人都想扮演他們想要的角色:
申請者:「我對海量數據集方向的機器學習很感興趣。所以想我要申請一份數據科學家的工作!」
企業:「我需要一個可以在這些Excel工作簿的基礎上建立優秀管理儀錶板的人,因此我會聘請一個數據科學家!」
結果,那些數據科學家工作的申請者會十分沮喪,因為他們的工作最後變成提取數據和建立儀錶板,和機器學習毫無關係。與此同時,企業意識到,數據科學家和優秀的數據分析師創造的價值無甚不同。我也不能很確切地說自己是一名數據科學家,儘管我在數據上做了很多「事情」。
數據科學家們做什麼?

如何定義數據科學?
前段時間麻省理工學院發表的一篇文章提出了數據科學的新定義和數據科學程序的設計。作者認為數據科學不是一門單一的學科。更確切的說,它是一個總括(通用)術語,描述了具有非重疊技能的數據科學家團隊中的複雜過程。鑒於目前從數據中提取值的活動範圍廣、步驟多,那麼一個數據科學家擁有所有必要的專業知識幾乎是不可能的。
更清晰地了解數據科學所包含的內容,不僅有助於學術項目能更好的設計他們的課程,也有助於學習者和企業更好地了解可以從這些項目中尋找和期望什麼。

後端和前端數據科學
本文認為,後端數據科學和前端數據科學間需要有一個明確的區別。他們的想法總結如下:
後端和前端數據科學(作者根據麻省理工學院的文章說明)
數據科學管道設計的主要參與者有:
· 數據工程師,負責處理硬體、高效計算和數據存儲基礎設施。
· 數據分析師,負責整理、探索、質量評估、將模型與數據匹配、進行統計推斷和開發原型。
· 機器學習工程師,負責構建和評估預測演算法,並使解決方案對許多用戶具有可擴展性和耐用性。
· 數據科學軟體開發人員,不直接參与數據科學管道生產,而是開發促進數據科學的軟體工具。例如Hadoop、R、RStudio、IPython筆記本、TensorFlow、D3、pandas和tidyverse等的開發人員。
每一個參與者所需的專業知識都大相徑庭,因此,在數據科學的項目中,這些專業知識也應完全不同。
此外,現實中可能還有更多的數據科學參與者。例如,數據科學翻譯/通訊員,他有能力彌合管理團隊和數據科學團隊之間的差異。他/她可以通過可視化的或者演示方式,熟練地向人們解釋複雜的數據科學概念。許多數據科學項目由於管理層沒有完全理解其背後想法,導致項目被推遲或者根本無法得到資助。可能還有參與者(數據科學業務開發人員?)有著很強的專業知識,同時對數據科學概念有深入了解。他善於將一些點聯繫起來,發現可能為企業帶來好處的數據科學商機。

在數據科學教育中尋找什麼?
通過以上的概述,可以看到數據科學實際上非常廣泛,而機器學習和建模是這個難題中相當小的一部分。這意味著學術界需要更好地定義其課程內容,學習者需要更加清楚其自身目標,而企業需要更好地理解其價值方向。
本文建議學術界通過以下方式為學習者提供更好的準備:
· 三個不同的發展軌道:提供與數據科學的不同領域相對應的特定發展軌道:數據工程師、數據分析師和機器學習工程師、數據科學軟體開發人員等等
· 將應用程序置於首位:強調實際應用程序的必要性和問題的主體。將課程需要與實際實施相聯繫。
· 實際經驗:對數據科學軟體開發感興趣的學習者都在找學習項目中軟體包開發的頂點項目課程。此外,學習者能夠生成可靠且可複製的代碼也很重要,因為數據科學管道或應用程序將需要用在實際生活中。這是學術界經常忽視的一個培訓方面。
· 實用編程技能:針對特定的參與者和任務,用適當語言進行有力的編程培訓:
作者根據麻省理工學院的文章說明
· 專註於研究生水平的項目:數據科學學位推薦為碩士或者博士水平,而不是本科水平
如果你是一個正在尋找數據科學教育合適資源的學習者,請先捫心自問:
· 你希望自己成為何種數據科學參與者?
· 你需要獲得哪些相關技能
· 若你有了這些問題的答案,看看課程表是否符合你的需求和期望。
如果你是一家企業的招聘人員,需要注意,請小心使用「數據科學家」這個術語,在工作描述時要儘可能具體。從長遠來看,每個人都能從中受益。
原創文章,作者:投稿專員,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/225315.html
微信掃一掃
支付寶掃一掃