大數據是一個用來描述大型且複雜的數據集的術語,在以有意義的方式進行分析和可視化時,可以提供有見地的結論。傳統的數據庫工具沒有能力管理大量非結構化數據。
大數據通常定義為如此大而復雜的數據集的集合,以至於使用手手數據庫管理工具或傳統數據處理應用程序很難處理。關係數據庫管理系統以及桌面統計信息和可視化軟件包通常難以處理大數據。相反,這項工作需要在數十萬,數百甚至數千個服務器上運行的“大型並行”軟件。必須使用高級分析工具和算法處理大數據,以揭示有意義的信息。
在過去的五年中,出現了新的Internet和生物識別技術,這些技術能夠將來自不同信息源的數據孤島組合到可以分析數據的單個統一位置。
大數據通常包括大小的數據集,其大小超出了常用的軟件工具在可忍受的時間內捕獲,策劃,管理和處理數據的能力。大數據“尺寸”範圍從幾十個terabytes到許多數據。大數據通常被描述為一組需要新形式的集成形式的技術,以發現來自多樣化,複雜且規模龐大的大型數據集中的大型隱藏值。
大數據涉及的過程包括:分析,捕獲,數據策展,搜索,共享,存儲,轉移,可視化和信息隱私。該術語通常只是指使用預測分析或其他某些高級方法從數據中提取價值,而很少到特定的數據集。大數據的準確性可能會導致更自信的決策。更好的決策可能意味著更高的運營效率,降低成本以及企業和政府的風險降低。
數據集的大小不斷增長,因為它們越來越多地通過廉價和眾多信息感應移動感和遙感設備,軟件日誌,相機,麥克風,射頻識別(RFID)讀取器,無線傳感器網絡以及生物識別設備和數據庫。自1980年代以來,全球每40個月的儲存信息的技術能力大約翻了一番。大型企業面臨的挑戰是確定誰應該運行整個組織跨越的大數據計劃。
數據集的分析可以找到新的相關性,使用戶能夠發現業務趨勢,預防疾病,打擊犯罪和恐怖主義以及其他數據密集型應用程序。科學家,商業高管,媒體,廣告商和政府都經常遇到困難,這些困難在互聯網搜索,金融,商業信息學,國家安全和警務等領域中遇到了龐大的數據集。在研究氣象,基因組學,連接組學,複雜物理模擬以及生物學和環境研究時,科學家會遇到技術限制。
大數據系統旨在使這些參與者更容易找到相關性以幫助解決問題。大數據通常以數量,多樣性,速度,可變性,真實性和復雜性來衡量。大數據系統通常在高級數據中心內利用基於雲的服務器,而不是集中的大型機處理器。