資料科學對你沒價值？ | 哈佛商業評論・與世界一流管理接軌

現在，企業不斷產生大量的數據資料，但那不一定可以轉化成可操作的資訊。在過去幾年裡，我和我在麻省理工學院（MIT）的研究小組，一直在尋找一個根本問題的答案：企業如何透過機器學習，來發揮資料儲存庫的完整潛力？

我們與各種產業的伙伴合作，設計以機器學習為主的解決方案，過程中很驚訝地發現，這個問題的現有答案通常不適用。為什麼？

首先，我們與機器學習專家談論他們工作中最困難的部分時，這些專注於訓練和測試預測模型的資料科學家都一再表示，「資料很混亂。」起初，我們按字面理解這句話，以為是指資料眾所周知的問題：缺少價值，或是資料庫之間缺乏一致性。但當我們更進一步探究，就了解到這個問題有些不同。以最原始形式存在的資料，即使是正確無誤的資料，乍看之下仍太過龐大和複雜，連專家都很難理解。它有太多表格和欄位，而且通常是根據極高的細微度（granularity）來收集；例如，線上點擊流每次點擊都會產生新資料，而感測器收集每秒觀察125次的資料。機器學習專家一向使用已匯集成一些有用變數的資料，例如使用者的網站訪問次數，而不是呈現使用者在網站上採取的每項行動的表格。

同時，我們經常聽到業務專家抱怨「我們有很多資料，卻沒有

已經是會員？立即登入

啟動您的「30 天成長計畫」

給自己一個月的時間，用知識升級大腦。

解鎖全站 50+「個人學習」主題與豐富的文章庫與影音內容。

首月 NT$60

次月起 $360/月，隨時可取消。

還沒準備好訂閱？註冊會員，每月可享 3 篇文章免費閱讀。

免費註冊