現在,企業不斷產生大量的數據資料,但那不一定可以轉化成可操作的資訊。在過去幾年裡,我和我在麻省理工學院(MIT)的研究小組,一直在尋找一個根本問題的答案:企業如何透過機器學習,來發揮資料儲存庫的完整潛力?

我們與各種產業的伙伴合作,設計以機器學習為主的解決方案,過程中很驚訝地發現,這個問題的現有答案通常不適用。為什麼?

首先,我們與機器學習專家談論他們工作中最困難的部分時,這些專注於訓練和測試預測模型的資料科學家都一再表示,「資料很混亂。」起初,我們按字面理解這句話,以為是指資料眾所周知的問題:缺少價值,或是資料庫之間缺乏一致性。但當我們更進一步探究,就了解到這個問題有些不同。以最原始形式存在的資料,即使是正確無誤的資料,乍看之下仍太過龐大和複雜,連專家都很難理解。它有太多表格和欄位,而且通常是根據極高的細微度(granularity)來收集;例如,線上點擊流每次點擊都會產生新資料,而感測器收集每秒觀察125次的資料。機器學習專家一向使用已匯集成一些有用變數的資料,例如使用者的網站訪問次數,而不是呈現使用者在網站上採取的每項行動的表格。

同時,我們經常聽到業務專家抱怨「我們有很多資料,卻沒有
已經是會員?立即登入
啟動您的「30 天成長計畫」
給自己一個月的時間,用知識升級大腦。
解鎖全站 50+「個人學習」主題與豐富的文章庫與影音內容。
首月 NT$60
次月起 $360/月,隨時可取消。
還沒準備好訂閱?註冊會員,每月可享 3 篇文章免費閱讀。
免費註冊