如今,幾乎每個公司都認為利用神經網絡的業務潛力很大。根據政治家,在2024年,在至少一個業務職能中實施人工智能(AI)的企業份額已增長到72%,而2023年為33%。麥肯錫報告這92%的組織計劃在未來三年內增加對AI的投資。BCG添加今年,全球三分之一的公司將為AI技術分配超過2500萬美元。
數據科學,機器學習(ML)和計算機視覺專家Denis Pinchuk可幫助企業從算法中獲得實際價值。在佛羅里達州中央大學完成了應用數學碩士學位後,他在成為沃爾特·迪斯尼公司的高級數據科學工程師之前對幾家初創公司進行了優化的運營。他分享了對自己的職業發展,公司在實施數據科學項目時面臨的挑戰以及選擇AI模型時要考慮的事情。
- 在加入沃爾特迪斯尼公司之前,您與哪些公司合作?
- 完成碩士學位後,我與各個行業的初創公司合作。其中一個為客戶提供了網絡安全專業知識。作為數據科學家,我在其業務流程中確定了效率低下,然後使用現代數據工程和機器學習技術對其進行了優化。
例如,在我加入之前,手動確定了客戶產品中的漏洞。分析師將審查手冊和其他文件以編譯列表,然後將其傳遞給主管進行進一步訴訟。我通過配置基於Google Bert的算法來自動化此過程,該算法可以理解上下文並從文本中提取有用的信息以構建網絡安全策略。僅此一項就可以每年節省至少15,000美元。
在另一個項目中,我開發了一種模型,該模型使用關鍵字從官方來源跟踪了有關我們公司產品的公開數據。該解決方案每年節省了超過20,000美元的初創公司。
- 您從事其他哪些行業?
- 例如,在物流中 - 另一家專門用於交付易腐爛商品的初創公司。我的主要任務是優化裝運箱中的干冰量,以降低交貨成本,同時確保客戶的產品質量。
最初,該初創公司僅考慮有關運輸和交貨地點的數據以及運輸所需的大約小時數。該算法很簡單:如果訂單需要超過兩天,則乘飛機發送;如果少,卡車。該公司意識到這種方法遠非最佳。
我從頭開始開發並實現了一種基於預測的基於樹的算法,從數據收集和標籤到算法實現都處理了所有內容。該算法包含了許多參數,包括沿卡車路線位置的溫度數據,這需要與氣象服務集成。
我必須深入研究以獲取準確的溫度數據。這不是一項瑣碎的任務,即使在每年數十萬貨物時,甚至很小的差異也很小。最終,我在第一年為公司的客戶節省了270,000美元的交付成本,儘管該初創公司當時只有三個主要客戶。
- 您目前擔任高級數據科學工程師的角色到底是什麼?
- 我的第一個項目涉及解決身份解決問題。沃爾特·迪斯尼公司(Walt Disney Company)是一家大型公司,涵蓋了各種業務:主題公園,酒店,電視網絡,有線頻道,電影製片廠,流媒體服務等。每個子公司都會生成大量的消費數據。
公司決定將這些數據合併到一個數據庫中,對其進行處理,鏈接不同的交易,並構建分析,以向客戶提供個性化服務。例如,如果消費者訪問主題公園,一年後留在迪士尼酒店,那麼這些交易最初將出現在數據庫中的不同ID。但是,使用良好的算法,公司可以認識到這些交易屬於同一客戶,例如,為他們提供服務折扣。
- 您在這個項目中的具體角色是什麼?
- 我負責組織用戶數據和編寫算法,每天將超過1億行數據相關聯。這是一個巨大的規模。具體來說,我與團隊合作,將數據從DynamoDB遷移到圖形數據庫Neptune DB,該數據庫更適合身份解決任務。在新結構中,一個人成為根部元素,每個交易"搜尋"對於用戶需要“加入。”這顯著加速了計算,並提高了識別精度20%。最終,遷移使預測分析能夠個性化來賓服務。
此外,我使用AWS膠水和lambda,雪花中的自動化SQL查詢生成以及使用Docker改進的CI/CD工藝製定了Neptune,配置ETL過程的優化數據建模策略。這些努力優化了模型開發和部署,加速數據驅動的決策,增強的營銷策略(尤其是通過實時客戶細分)以及每周至少減少10個小時的體力勞動。我和我的團隊還編寫了一種算法,以使用戶地址和名稱歸一化,這將個人識別精度提高了15%。
- 您在公司開展了哪些其他項目?
- 在以前的項目中,我大大擴展了自己的知識庫,並獲得了從工程師到律師和高級管理人員的數十多個專業人員團隊的經驗。我必須用他們能理解的術語來解釋我們的解決方案。
這些技能在我當前的項目中證明是無價的,我們的團隊使用計算機視覺算法來增強主題公園中的客人安全。如果攝像機檢測到危險行為(例如可疑活動或騎行故障),神經網絡會提醒團隊,以便他們立即採取行動。
在這個項目中,我擔任管理角色,領導一組數據科學家。本質上,我確保我們以最有效的方式實現目標。這包括根據團隊成員的長處和劣勢分配任務。有時,我自己處理任務,因為它比委派更快,更容易。雖然現在討論結果還為時過早,但在我們的工作中沒有任何賓客受到傷害。
- 實施數據科學計劃時,企業經常面臨哪些挑戰?缺乏數據嗎?
- 沒有足夠的數據,就像沒有足夠的錢一樣。但是,我認為主要問題是關於數據科學的期望與現實之間的差距。目前,這是一個炒作,因此高層管理人員通常對AI和ML的期望不切實際。他們看不到可解決的問題和無法解決的問題之間的邊界。這是可以理解的,因為數據科學超出了他們的專業領域。
我們作為數據科學家的角色是清楚,透明地證明管理有限的資源,我們可以實施哪些工具以及我們可以實際實施的工具。我相信,做一些事情要比在空中建造城堡要好得多,但是要快速,而且要好得多。
實施總是具有挑戰性的。如果您開發了做出良好預測的AI模型,這並不意味著企業可以使用它。您還需要將其部署到生產中,這需要自動化數據收集並確保其無錯誤。只要其中一些過程是手動的,就不可能實施ML項目,尤其是在每天處理數億美元的交易時,例如沃爾特·迪斯尼公司(Walt Disney Company)。
- 您如何為特定項目選擇合適的模型?
- 我想說這與選擇會計軟件沒有什麼不同。您只需考慮自己的需求並測試不同的解決方案。對於某些任務,準確性更為重要。對於其他人,速度。有時,成本是主要因素。其他時候,公司選擇一個效率較低的神經網絡,因為它更容易集成到現有的基礎架構中。
例如,在我的第一家初創公司中,我需要為佛羅里達州交通運輸部開發一個模型,該模型將使用監視攝像機錄像來監視通過車輛的數量和類型。面臨的挑戰是,出於法律原因,無法存儲視頻。
對於這個項目,我選擇了Yolo神經網絡,該網絡以其高速聞名。儘管我犧牲了一些精度,但它能夠實時處理相機數據流。準確性仍然達到97%,比較舊的,更昂貴的電纜在道路上鋪設電纜實現的90%要好得多。
因此,如果不了解要解決的問題,您將無法選擇模型。首先,您需要掌握項目的所有細微差別,然後選擇一些算法選項,然後評估哪個算法最佳。例如,如果任務預測客戶流失,則可以考慮使用線性回歸(通常具有高精度和可解釋性)的經典模型。對於自然語言處理任務,變壓器值得考慮。
- 實施AI模型時還應考慮什麼?
- 一個關鍵因素是解釋性。企業對此有明確的需求。 AI通常像黑匣子一樣工作:我們可以理解模型操作的一般原理,但不能總是確切解釋哪些功能和機制導致了特定的決定。在某些任務(例如流量監控)中,可以說明並不重要。但是,在其他情況下,例如檢測異常和解釋其原因,這很關鍵。例如,在銀行業中,必須了解為什麼AI建議拒絕某人貸款。此外,諸如《歐盟AI法》之類的法規正在出現,強調了AI工具中解釋性的重要性。
有多種增強解釋性的方法。您可以使用經典的回歸模型,銀行使用了數十年。這些不僅可以預測結果,還可以解釋哪些因素影響了它們。如果神經網絡產生意外結果,則可以運行線性回歸或決策樹分析以檢查單個因素的影響。這不會提供精確的預測,但將有助於更好地理解不同功能的重要性並改善模型。另一種方法是基於遊戲理論的Shap(Shapley添加說明),該理論計算“公平的”通過比較不同的輸入組合來貢獻每個功能。
模型的解釋性越高,在關鍵過程中使用越容易使用,尤其是在需要決策理由(例如信用評分)的情況下。但是,在諸如自動駕駛汽車控製或疾病診斷之類的任務中,準確性通常比解釋性更重要。