金融領域另類數據和機器學習的興起

據估計,每天會產生 1.14 萬億 MB 的數據,可供定量分析師和投資者使用的替代數據量是驚人的。

從社會情緒、網絡抓取、信用卡交易、衛星圖像、地理定位、NLP——不乏可用來揭示見解、趨勢和預測的替代數據。

在過去的十年中,金融公司和投資經理越來越多地利用這種替代數據來尋找產生阿爾法的想法。 隨著個人投資者和投資經理繼續在金融市場中尋找阿爾法,另類數據的興起也產生了對數據科學和機器學習的需求,以理解大數據(通常是非結構化數據)。

事實上,作為一個 格林尼奇聯合公司研究 強調:

72% 的投資公司表示,另類數據增強了他們的信號,超過五分之一的受訪者表示,他們從另類數據中獲得了超過 20% 的 alpha(行業術語,表示戰勝市場的能力)。

雖然這些數據中的大部分以前僅供對沖基金和機構資產管理公司使用,但近年來,各種規模的投資者對另類數據的獲取和獲取也有了類似的增長。

在本指南中,我們將準確討論替代數據是什麼、替代數據的示例和挑戰,以及如何使用機器學習從噪音中提取見解和可行的交易信號。

我們將特別討論:

  • 什麼是另類數據?
  • 另類數據的示例和用例
  • 另類數據的挑戰
  • 將機器學習應用於另類數據
  • 案例研究:另類數據對投資者的價值

隨時了解最新動態 AI

我們是一個由機器學習工程師、定量分析師和量子計算愛好者組成的獨立團隊。 訂閱我們的時事通訊,永遠不會錯過我們的文章、最新消息等。

報名

偉大的! 檢查您的收件箱並單擊鏈接。
抱歉,出了一些問題。 請再試一次。

什麼是另類數據?

另類數據是指用於獲得投資見解的任何非傳統數據。 在股票方面,傳統數據包括來自公司本身的所有數據,例如公司文件、基本面或財報電話會議。 另一方面,替代數據是指由相關公司以外的來源發布或生成的數據集。

使用替代數據的目標是獲得優勢,因為它可能包含與公司相關的獨特且未被發現的見解。 作為替代數據聚合器 康德爾 寫道,“替代數據是未開發的阿爾法”:

這十年投資者最大的機會來自於數字經濟產生的數據中隱藏的信號。 另類數據是當今世界上最深入、利用最少的阿爾法來源。

另類數據的示例和用例

一些最常見和早期的替代數據來源包括:

  • 信用卡交易
  • 數據來自互聯網
  • 移動設備數據
  • 地理位置數據
  • 衛星圖像
  • 天氣預報
  • 物聯網傳感器
  • ESG(環境、社會和公司治理)數據

其中一些數據集因隱私問題以及 GDPR、CCPA 受到了更多監管,這引發了新一波的數據源和替代數據提供商。

替代數據集的一些示例和用例包括 Dataiku 在其文章中提到的 白皮書 包括:

地理空間數據

一家公司的地理空間數據顯示,推出新產品後一個月,Popeyes 和 Chick-fil-A 餐廳的人流量增加,這表明銷售額增加。 這帶來了關於產品發布更廣泛趨勢的新見解, example、供應鏈能力考慮。

衛星圖像

一家科技公司通過跟踪油輪的衛星信號來跟踪全球海運貿易。 這些數據使該公司正確預測了全球航運業的放緩,並利用這一預測來做空石油期貨。

自然語言處理(NLP)

一家公司使用自然語言處理 (NLP) 來分析颶風艾琳的初始新聞記錄,以驗證某些數字並了解保險公司的風險敞口。

正如您從這些示例中看到的,將原始另類數據轉化為交易和投資見解與獲取數據本身同樣具有挑戰性(如果不是更具挑戰性)。 幸運的是,借助機器學習來分析大數據,這些見解可以總結為更易於理解和可操作的指標。

另類數據的挑戰

毫無疑問,替代數據可以通過幫助發現消費者或業務趨勢中的關係和模式來補充傳統數據集。 然而,更具挑戰性的部分之一是將這些見解轉化為交易信號。

然而,隨著數據科學和機器學習的普及,替代數據的採用持續逐年上升。 也就是說,圍繞替代數據存在一些擔憂,包括:

  • 採購成本及難度
  • 聘請技術人才有效地處理替代數據
  • 利用數據準確評估金融風險並發現機會

為了解決這些挑戰,正確的技術並在組織內為數據科學和機器學習奠定基礎可以大有幫助。 作為 達泰庫 說:

通過使用包容性、協作性的數據科學和機器學習平台,投資者可以帶來更多席位,以確保合適的人員(從數據科學家到寬客再到分析師)在各種項目中共同合作,從而提高生產力並提高可見性給那些需要它的人。

現在我們已經討論了另類數據的興起和相關挑戰,讓我們看看如何 AI 機器學習可用於從這些數據中提取見解。

將機器學習應用於另類數據

最近的進展 AI 機器學習導致分析師、數據科學家和投資經理利用大數據的方式發生轉變。

特別是,出現了向“量化投資”的重大轉變,我們的量化投資指南對此進行瞭如下描述:

量化投資使資產管理者能夠利用數據科學和機器學習的進步,同時仍然利用自己的判斷力、知識和市場專業知識。

儘管許多最大的量化對沖基金多年來一直在其算法交易中使用機器學習,但這些最新進展為各種規模的投資者將這項技術納入其投資研究過程打開了大門。

以下是替代數據和基於機器學習的見解的幾個示例 MLQ應用程序, 我們的 AI 投資研究平台。

情感分析與自然語言處理

情感分析和自然語言處理 (NLP) 是機器學習在金融領域最常見和最有用的應用之一。 憑藉大量股票文本數據,NLP 使投資者能夠有效地分析這些數據並深入了解整個數據集。

交易和投資中情緒分析的三個主要用例包括:

  • Social 情緒
  • 新聞情緒
  • SEC 文件情緒

Social 情緒

Social 情緒可以洞察成千上萬的投資者在任何特定時間對一家公司的看法。 在 MLQ 應用程序中,社交情緒分數源自 StockTwits,包括正面情緒、負面情緒以及每個股票的總體得分:

新聞情緒

財經新聞是另一個 example 文本數據的讀取所有內容並準確評估整體情緒可能非常耗時且效率低下。 為了解決這個問題,MLQ 應用程序提供了過去 7 天和 30 天約 5000 只美國股票的新聞情緒評分:

SEC 備案情緒

最後,SEC 文件包含大量有價值的基於文本的信息,非常適合自然語言處理。 作為分析師,您可以通過首先查看您感興趣的文件的語言指標來加快您的投資研究。這將使您能夠有效地確定文件中是否有重要信息,例如 example,訴訟語言,這需要調查。

在 MLQ 應用程序中,有公司最近向 SEC 提交的語言指標,包括:

  • 約束
  • 有趣的
  • 好訴訟的
  • 不確定
  • 整體情緒

下面我們還看到了與之前提交的語言指標的相似點和差異:

預測股票排名

機器學習在另類數據中的另一個應用是根據各種因素對股票進行排名,也稱為預測股票排名。

為了生成這些股權排名,MLQ 的數據提供商之一 卡武特 從傳統和替代數據源中獲取 200 多個因素,包括:

  • 價值、增長和動量等因素模型
  • 財務報告,例如收入、EBITDA、淨利潤等
  • RSI、MACD 等技術指標
  • 價格和交易量相關數據的時間序列
  • 另類數據,例如內幕交易和期權交易
  • 文本數據的情感分析

考慮到這些因素,該公司結合使用機器學習技術、統計分析和排名算法來得出從 1 到 9 的簡單股權排名。

如下所示,排名分數包括:

  • K分數
  • 質量得分
  • 成長分數
  • 價值分數
  • 動量分數

用於多日估算的機器學習

與上面的預測排名分數類似,MLQ 的另一家數據提供商—— 大腦公司—生成多個時間段的多日股票排名分數。

股票得分被稱為 “ML Alpha 分數”, 描述如下:

ML Alpha 分數與機器學習分類器預測股票未來 N 個交易日(例如接下來 21 天)最高或最低五分位收益的置信度相關,範圍從 -1 到 +1。

為了生成這些排名,該公司使用機器學習根據大約 1,000 隻股票在四個時間範圍(2、3、5、10 和 21 天)的預測未來回報來生成每日股票排名。

案例研究:另類數據對投資者的價值

關於上面提到的 ML Alpha 分數,下面是 圖形 由數據提供商提供,顯示多空投資組合的累積回報,該投資組合根據未來 5 天內未來股票回報的預測排名每週重新平衡。

按預測五分位數進行回報分析

此外,該公司還提供了下面的圖表,顯示了五分位數的平均回報。 換句話說,這是投資一籃子股票的平均回報,作為 5 天時間範圍內預測排名五分位數的函數。

作為 大腦公司寫道:

顯然,最高預測排名五分位數對應於最高的前向回報,反之亦然,最低預測五分位數對應於遵循特徵“階梯形狀”的最負前向回報。

最後,下圖顯示了 5 個只做多的投資組合的累積回報,這些投資組合由根據估計排名分為五分位數並每週重新平衡的股票組成:

正如您所看到的,表現最好的投資組合(深綠線)包含由最高預測五分位數回報組成的投資組合,並且提供比由最負面股票(深紅線)組成的投資組合更高的累積回報。

摘要:金融領域另類數據的興起

總而言之,另類數據是指用於獲得獨特的投資見解和不相關的阿爾法的非傳統數據。 替代數據源的示例包括網絡抓取、移動設備數據、物聯網數據、社會情緒等。

為了理解所有這些數據,可以應用機器學習從文本數據中提取見解、分配排名分數並預測估計的未來回報。

隨著另類數據集數量的不斷增加,大多數投資者缺乏分析和研究數據的技術資源。 為了解決這個問題,我們構建了 MLQ 應用程序,為專業投資者提供替代數據和基於機器學習的見解。

您可以在此處了解有關該平台的更多信息或 在這裡註冊一個免費帳戶