數據科學家面臨的挑戰

世界對人工智慧和機器學習(人工智慧和機器學習)提供的可能性感到瘋狂時,當我們興奮地展望我們的未來時,我想在這裡強調數據科學家在日常工作中經常經歷的困難和挑戰。其目的不是要削弱黨。相反,它要承認存在需要我們關注的普遍問題。解決它們會讓我們更努力地聚會!
確定以數據科學方式最好地解決哪些業務問題
管理者經常被圍繞機器學習的嗡嗡聲所迷惑,並強制將數據科學解決方案用於解決每個業務問題。但是,這不是一個好的做法。某些業務問題可以通過簡單的流程改進、額外的人員配備或IT應用程式修改來解決。上述解決方案可能不需要通過機器學習模型構建練習來解決,甚至可以以更低的成本和更高的效率來解決。
數據品質差
數據科學家通常必須處理少量數據、缺失值、異常值和垃圾值。這需要在數據準備方面付出大量努力。準備充分的數據有助於產生更好的見解和更好的模型。很多時候,用於構建監督分類模型(二進位或多類)的歷史數據存在類不平衡。在這種情況下,正類的事件率非常低。這要求數據科學家要麼對少數類進行過採樣,要麼對多數類進行過採樣,或者兩者兼而有之,以減少不平衡,然後再將數據集提供給模型構建演算法。
在預測過程中遇到新類
有時,訓練數據集沒有其中一個特徵變數的特定類。如果在現實生活中的預測過程中出現缺失的類,則預測將失敗。為了避免出現這樣的問題,數據科學家通常會選擇較大的訓練數據集和較小的測試數據集,期望將所有特徵變數的所有可能類都包括在內進行訓練。另一種方法是在創建訓練數據集時執行分層抽樣。這可確保所有類在訓練數據集中至少出現一次。
為模型評估選擇最有用的指標
對於每種回歸、分類和無監督建模技術,在批准模型以準備投入生產之前,需要考慮多個模型評估指標。很多時候,該模型清除的指標很少,其餘的指標也不會清除,因此很難做出最終的批准決定。處理這種歧義的一種方法是根據關鍵性對指標進行排名,並確保所有頂級指標都對模型有利。不那麼關鍵的指標失敗應該沒問題。最佳做法是,應在構建基線模型之前完成排名排序。此外,除了確定哪個指標至關重要外,數據科學家還應該預先確定該指標的可接受值,以便設置適當的閾值。
在高技術性能的情況下過早慶祝
數據科學家應始終關注 ML 模型為解決業務問題帶來的實際結果。現實生活中成功結果的例子可能是提供更好的客戶體驗、更高的凈推薦值 (NPS)、增加收入、節省成本、增加對產品的需求或使運營更順暢、更快捷。現實生活中的性能是王道。不是在實際環境中使用解決方案之前的技術性能。
數據科學專案的工作量估算
通常很難正確估計首先在實時環境中部署數據科學解決方案,然後通過改進的業務流程實現投資回報 (ROI) 所需的時間和精力。這主要是由於在此類項目中進行的練習的性質。機器學習模型構建本質上是高度實驗性的,人們可以通過處理和丟棄未知數量的選項和模型來獲得最佳模型。

將積極的業務成果歸因於數據科學解決方案
ROI 的哪一部分是由於新部署的數據科學解決方案,哪一部分是由於獨立於數據科學解決方案而發生的其他因素?這不是一件容易的事!業界都知道,人工智慧和機器學習解決方案具有一定的附加值。然而,量化附加值是我們必須更清楚的事情。
分類特徵變數的類數較多
當分類變數的不同值數過高時,模型的性能較弱。例如,在許多情況下,50 個這樣的不同值(類)將被視為一個高數位。處理這種情況的一種方法是將50個不同的值進一步分集到8個類中(比方說),從而使其易於管理。
總之,通過最佳實踐來標準化執行數據科學項目的過程肯定會緩解上述一些挑戰。同時,要警惕將流程標準化得太快,以至於幾乎沒有開箱即用的思維和創新空間。畢竟,創新是人類人工智慧和機器學習領域的主要定義。