回歸技術對於揭示數據內的關係以及為從銷售預測到風險分析的各種企業用例構建預測模型至關重要。 下面深入探討這種強大的機器學習技術。
機器學習中的回歸是什麼?
機器學習中的回歸是一種用於捕獲自變量和因變量之間關係的技術,其主要目的是預測結果。 它涉及訓練一組算法來揭示表徵每個數據點分佈的模式。 識別出模式後,模型就可以對新數據點或輸入值進行準確預測。
回歸有不同類型。 最常見的兩種是線性回歸和邏輯回歸。 在線性回歸中,目標是沿著一條清晰的線擬合所有數據點。 邏輯回歸側重於確定每個數據點是否應低於或高於該線。 這對於將觀察結果分類到不同的桶中非常有用,例如欺詐/非欺詐、垃圾郵件/非垃圾郵件或貓/非貓。
回歸是大多數統計學中的基本概念。 TCS Research 高級科學家、印度理工學院孟買分校客座副教授 Harshad Khadilkar 表示,機器學習通過使用算法通過自動化過程提取這些基本關係,從而使事情更上一層樓。
“回歸是科學家和企業在回答定量問題時使用的方法,特別是‘有多少’、‘多少’、‘何時會’等類型的問題。 在機器學習中,它可以發現數據中當前無法獲得的任何測量結果,”Khadilkar 解釋道。
機器學習回歸中使用的兩種常見技術是插值和外推。 在插值中,目標是估計可用數據點內的值。 外推法旨在根據現有的回歸關係預測超出現有數據范圍的值。
為什麼機器學習中的回歸很重要?
全球諮詢公司 SSA & Company 的應用解決方案副總裁 Nick Kramer 表示,回歸不僅是機器學習專家的基本概念,也是所有企業領導者的基本概念,因為它是預測分析的基礎技術。 回歸通常用於多種類型的預測; 通過揭示變量之間關係的本質,回歸技術使企業能夠深入了解關鍵問題,例如客戶流失、價格彈性等。
全球資產管理公司 Legal & General 的數據科學主管 David Stewart 指出,回歸模型用於根據我們已知的信息進行預測,使其在不同行業中廣泛相關。 為了 example,預測數值結果的線性回歸可用於根據年齡和性別等因素來測量某人的身高。 相比之下,邏輯回歸可以通過使用過去購買的產品作為指標來幫助預測一個人購買新產品的可能性。
線性回歸和邏輯回歸如何工作
線性回歸對其所依賴的變量具有固定或恆定的敏感性——無論是預測股票價格、明天的天氣還是零售需求。 為了 exampleKhadilkar 說,一個變量的雙重變化將導致輸出出現特定偏差。 許多行業標準算法使用線性回歸,例如時間序列需求預測。
相比之下,邏輯回歸側重於以 0 到 1 或 0% 到 100% 的範圍來衡量事件的概率。 這種方法的核心思想是創建一條 S 形曲線,顯示事件發生的概率,該事件(例如係統故障或安全漏洞)在曲線的一側極不可能發生,而在曲線的一側幾乎是確定的。另一個。
回歸和分類
如前所述,線性回歸技術側重於將新數據點擬合到一條線上。 它們對於預測分析很有價值。
相反,邏輯回歸旨在確定新數據點屬於該線上方或下方(即屬於特定類別)的概率。 邏輯回歸技術在分類任務中非常有用,例如上面提到的任務 – 確定交易是否欺詐、電子郵件是否垃圾郵件或圖像是否是貓。
這些方法之間的主要區別在於它們的目標。 分類在監督機器學習過程中特別有用,可將數據點分類為不同的類別,然後可用於訓練其他算法。 線性回歸更適用於從共同基線識別異常值等問題,如異常檢測或預測趨勢。
回歸中的人工神經網絡
卡迪爾卡說,人工神經網絡的使用是回歸中最重要和最新的方法之一。 這些方法使用深度學習技術來創建一些最複雜的回歸模型。
“它使我們能夠估算出比以往任何時候都更加複雜的相互關係的數量,”他解釋道。 “如今,神經網絡正在接管幾乎所有形式的回歸應用。”
卡迪爾卡說,在上述討論的方法中,線性回歸是最容易應用和理解的,但它有時並不是底層現實的一個很好的模型。 非線性回歸(包括邏輯回歸和神經網絡)在建模中提供了更大的靈活性,但有時會以較低的可解釋性為代價。
了解回歸的五種主要類型。
回歸的類型
克萊默同意,回歸模型會乖乖地給出答案,但可能會隱藏不准確或過於簡單化的情況。 錯誤的預測往往比沒有預測更糟糕。 重要的是要了解一種方法可能比其他方法更有效,具體取決於問題。
“眾所周知,我會在我的瑞士軍刀中使用刀尖,並在螺絲刀更有效的情況下使其發揮作用。 同樣,我們經常看到分析師應用他們所知道的回歸類型,即使這不是最佳解決方案,”克萊默說。
以下是五種回歸類型以及它們最擅長的領域。
- 線性回歸 模型假設目標變量和預測變量之間存在線性關係。 該模型旨在擬合代表數據點的直線。 當變量之間存在線性關係時,線性回歸非常有用,例如根據廣告支出預測銷售額或估計價格變化對需求的影響。
- 邏輯回歸 當目標變量是二進製或具有兩個類時使用。 它對事件發生的概率進行建模 – 對於 example,是/否或成功/失敗——基於預測變量。 邏輯回歸通常在業務環境中用於二元分類任務,例如客戶流失預測或交易欺詐檢測。
- 多項式回歸 通過合併二次方程和三次方程等多項式概念來擴展線性回歸,以格式化預測變量並捕獲不存在直接線性關係的情況,例如估計廣告支出對銷售的影響。
- 時間序列回歸,例如自回歸綜合移動平均(ARIMA)模型,結合時間依賴性和趨勢,根據過去的觀察來預測未來值。 這些對於銷售預測、需求預測和股票市場分析等業務應用程序非常有用。
- 支持向量回歸 (SVR)是支持向量機的回歸版本,特別適合處理高維空間中的非線性關係。 SVR 可應用於金融市場預測、客戶流失預測或預測客戶終身價值等任務。
回歸的應用
克萊默提供了以下在商業中經常使用的回歸的具體應用:
- 銷售預測。 根據歷史銷售數據、營銷支出、季節性、經濟因素和其他相關變量預測未來銷售。
- 客戶終身價值預測。 根據過去的購買歷史、人口統計數據和行為,估計客戶在客戶與公司的整個關係中的潛在價值。
- 流失預測。 根據客戶的使用模式、客戶互動和其他相關特徵來預測客戶離開公司服務的可能性。
- 員工績效預測。 根據培訓、經驗和人口統計等各種因素預測員工的績效。
- 財務績效分析。 了解財務指標(例如收入、利潤)和關鍵驅動因素(例如營銷費用、運營成本)之間的關係。
- 風險分析和欺詐檢測。 根據歷史數據和風險指標預測信用違約、保險索賠或欺詐等事件的可能性。
- 維護預測。 預測關鍵零件和機械的故障時間。
回歸的優點和缺點
斯圖爾特說,回歸模型的主要優點之一是它們簡單且易於理解。 它們是非常透明的模型,很容易清楚地解釋模型如何進行預測。
另一個優點是回歸模型已經在行業中使用了很長時間並且很好理解。 為了 example,廣義線性模型在精算行業中被大量使用,並且它們的使用已經很成熟。 斯圖爾特說:“監管機構充分理解這些模型,因此可以輕鬆地就模型實施以及相關風險、治理和監督進行明智的討論。”
然而,它們的簡單性也是它們的局限性,他說。 回歸模型依賴於很少適用於現實場景的幾個假設,並且它們只能處理預測變量和預測值之間的簡單關係。 因此,其他機器學習模型通常優於回歸模型。
在 Khadilkar 看來,回歸作為定量測量、插值和預測工具提供了最大的價值,並且在這方面非常擅長。 “它的特性是眾所周知的,我們也有很好的方法來量化我們對預測的信心,”他說。 為了 example,人們可以通過圍繞預測數量的特定範圍的可能變化來預測股票市場價格。
然而,有許多應用程序不太適合回歸。 “為了 example,它對於從圖像中識別人臉不太有用。 此外,當嘗試挖掘數據以進行模式識別或自動化決策時,它也不適合,”哈迪爾卡說。
“回歸的主要缺點可能是它只為我們提供了感興趣數量的預測,而沒有建議您應該如何處理這些信息,”卡迪爾卡解釋道。 “這取決於人類來決定。”