具有價值的靈感,往往不是源於單一的「靈光乍現」
資料差,機器學習工具就無效
If Your Data Is Bad, Your Machine Learning Tools Are Useless

確保資料品質的五個步驟。
若要讓機器學習(machine learning)廣泛應用且可創造獲利,最大的障礙就是資料品質太差。「垃圾進,垃圾出」(garbage-in, garbage-out)這個犀利的觀察,多年來一直困擾著分析和決策領域,但這對機器學習來說,更具有特殊的警惕意義。機器學習對品質的要求特別高,而品質差的資料有兩次出現機會,第一次是用來訓練預測模型的歷史資料,第二次則是那個模型在未來要做決策時所使用的新資料。
為了用恰當的方式來訓練預測模型,歷史資料必須符合特別廣泛且高品質的標準。首先,資料必須是正確的:它必須正確、恰當地標示、已去除重複內容等。但你也必須有對的資料,也就是要有許多無偏誤的資料,而且你打算開發的預測模型所需要輸入的所有範圍的資料,都必須包括在內。大多數的資料品質管控工作,只著重在上述兩個標準的其中之一,但對機器學習來說,你必須同時採用這兩個標準。
只是在今日,大部分資料都不符合基本的「資料是正確的」標準。原因有很多,像是產生資料的人不了解該怎麼做、沒有好好校準的衡量工具、過度複雜的流程、人為過失等。為彌補這些缺失,資料科學家在訓練預測模型之前,會先清理這些資料。清理工作很耗時間(約占
為了用恰當的方式來訓練預測模型,歷史資料必須符合特別廣泛且高品質的標準。首先,資料必須是正確的:它必須正確、恰當地標示、已去除重複內容等。但你也必須有對的資料,也就是要有許多無偏誤的資料,而且你打算開發的預測模型所需要輸入的所有範圍的資料,都必須包括在內。大多數的資料品質管控工作,只著重在上述兩個標準的其中之一,但對機器學習來說,你必須同時採用這兩個標準。
只是在今日,大部分資料都不符合基本的「資料是正確的」標準。原因有很多,像是產生資料的人不了解該怎麼做、沒有好好校準的衡量工具、過度複雜的流程、人為過失等。為彌補這些缺失,資料科學家在訓練預測模型之前,會先清理這些資料。清理工作很耗時間(約占
已經是會員?立即登入
閱讀完本模組的文章/個案後
我們建議您思考下列問題
Q.
什麼是數位轉型的真實意義?
Q.
你是否已盤點組織數字化、數位化與數位轉型的目標與能耐。
Q.
如何運用企業智慧決策分析學找出組織明確的發展盲點與機會點?
Q.
如何培養組織與時俱進的頂尖員工?
Q.
如何擬定組織的數位轉型策略?
Q.
如何讓組織數位轉型策略落地?
Q.
如何制定推動「分析成性,公私兩利」組織文化的戰術?
Q.
什麼是「轉識成智」?如何協助組織轉識成智進而推動智慧決策?




