學術研究人員贊成更多非傳統的數據收集方法,轉向Facebook和Twitter等社交媒體網站以獲取信息。然而,麥吉爾大學和卡內基·梅隆大學的計算機科學家在使用社交媒體的大數據集時警告可能會有可能的陷阱。
根據麥吉爾大學計算機科學助理教授德里克·露絲(Derek Ruths)的說法,錯誤的結果將具有很大的影響,每年使用社交媒體數據進行成千上萬的研究。這些研究反過來又用於為私人和公共組織以及政府的各種組織的決策提供信息和合理性,因此沒有錯誤的餘地。
露絲(Ruths出版在日記中科學雜誌。根據他們的研究,有關使用社交媒體數據的一些問題需要關注。
露絲(Ruths)和Pfeffer在其論文中確定的問題包括:
- 不同的社交媒體平台有不同的用戶(可能歪曲了人口樣本);
- 公開可用的數據並不總是準確地代表平台的總體數據(研究人員不知道如何以及何時過濾信息);
- 如何設計社交媒體平台可以決定用戶行為,實際上,可衡量的行為(在Facebook中沒有“不喜歡”按鈕,只能通過“喜歡”檢測到積極的響應);
- 並非所有用戶都是真實的人(收集的數據,然後包括機器人和垃圾郵件發送者“ FED”的信息);和
- 結果通常取自易於分類的主題,事件和用戶,使方法看起來比現實更準確(推斷出典型的Twitter用戶的政治取向幾乎不符合65%的準確性,但對政治活躍用戶的研究聲稱准確率高達90%)。
幸運的是,這些問題具有從機器學習,統計和流行病學等其他領域開發的眾所周知的解決方案。露絲(Ruths)補充說,在所有問題中,通常都需要更加了解他們正在收集和分析的信息,無論他們是否擁有可靠的數據。
早在1948年,一個臭名昭著的標題就促使社會研究人員磨練他們的標準和技術,使該領域成為今天的現象。社交媒體數據的問題現在提出了挑戰,儘管與65年前不同,這為社會研究人員提供了一個機會,以設定更好的標準。
“通過解決我們面臨的問題,我們將能夠實現基於社交媒體的研究的巨大承諾的巨大潛力,”說露絲。