大數據市場調查連載(二) | 大數據的基本概念

2021-08-26 16:26 來源:IEEE ACCESS
瀏覽量: 收藏:0 分享

導讀:

      它山之石,可以攻玉。為了幫助各界人士學習國外先進經驗,進一步了解大數據市場的定價、交易與保護,國脈戰略研究院專家楊冰之、林渠,帶來了《大數據市場調查:定價、交易與保護》的翻譯文章,相信會給大家以思想的碰撞、靈感的啟迪,促進大家思考,從而為我國推進數據要素市場化配置改革,貢獻國脈戰略研究院的智慧。

      在本章節中,我們將介紹大數據的基本概念,包括定義、挑戰和應用。

A. 大數據的定義

    世界上的數據總量呈爆炸式增長,每天生成的數據量估計為25億字節。事實上,全世界近90%的數據都是在過去兩年內創建的。數據來源多種多樣,尤其是物聯網越來越多地參與到我們的日常生活中,支持許多智能世界系統。如此多樣化的數據源導致了數據量的膨脹,同樣創造了巨大的潛在商業價值。我們將這些數據稱為大數據。

    正如圖1所示,盡管沒有關于大數據的定義,但三個V是大數據最常用的定義:

(i)                 體量(volume):大數據的第一個特征是巨大的數據量。數據集的大小可以從TB到ZB,甚至更大。例如,截至2012年,Facebook存儲了大約100 PB的媒體(照片和視頻),有8.45億用戶上傳。

(ii)               速率(velocity):速率是數據流變化和生成的特征。多個數據源不斷生成數據,使得大數據具有難以置信的高刷新率。它也只有很短的時間來處理數據。盡管Facebook的數據總量約為100 PB,但每天仍有11.3億活躍用戶上傳9億張照片

(iii)              品種(variety):品種數據可以有多種不同且互補的格式,例如來自各種設備和應用程序的日志數據、數據庫文件和XML文件等。此外,數據可以具有非結構化數據類型(圖像、視頻和音頻流等)。由于機器學習和數據挖掘等數據分析技術的發展,大數據是海量、連續和全面的,具有很高的潛在商業價值。

微信圖片_20210826161521.png

 (圖1. 三V大數據)

    請注意,術語數據挖掘(data mining)和商業智能(Business Intelligence (BI))經常交替使用來描述大數據的處理。這些概念顯然與數據分析有關。因此大數據的目標不僅是收集數據,而且是進行數據分析以提取業務價值。作為傳統大數據定義的延伸,我們考慮了另一個V,即價值。特別是與數據交易相關的三個V與數據價值之間的關系,以及它們如何相互影響,是大數據研究的非常重要并具有挑戰性的方面。


B. 大數據的益處和挑戰

    與傳統數據源相比,大數據既有優勢也有劣勢。我們對它們的差異進行了分類:

  • 全面性:大數據不僅可以捕獲主要活動,還可以捕獲相關數據,并提供詳細信息以供將來分析。例如,隨著智能手機的普及,社交網絡在人們之間的聯系以及圖片和視頻的分發也越來越普及。傳統數據源可能只捕獲聯系人列表,而大數據可能涉及智能手機中的大量傳感器和數據,記錄盡可能多的信息(位置、面部信息、語音信息等)。這些附加信息可以提供全面的細節來描述此人,并幫助大數據應用程序進行分析并提供定制服務。

  • 恒常性:大數據不斷捕獲信息。例如,大多數人每年或每半年進行一次身體健康檢查。醫院或醫生記錄每位患者的基本健康指數,包括血壓、體溫、身高、體重等。如今,像蘋果手表和帶有傳感器的運動手鐲這樣的新系統能夠隨時隨地連續記錄這些指標。這種技術有可能獲得大量人口的高頻率數據,用于深入的大數據分析。

  • 多樣性:在大數據中,與結構化數據相比,半結構化和非結構化數據越來越多。大多數傳統數據集被安排為結構化數據集,因為設計人員已經知道傳統數據源的類型和結構,并且數據將被指定給傳統數據庫。例如,來自市場的收據、工資單和庫存列表是具有傳統結構化數據類型的典型業務應用程序,易于使用和管理。相比之下,非結構化數據源很難控制或管理。視頻流、音頻文件和文本數據就是這類數據的例子,它們的大小、編碼和上下文都有很大差異。分析和管理非結構化數據很困難,因為數據位沒有預定義。


C. 大數據應用

    為了讓大數據變得有用,大數據分析軟件工具可以提取有用的信息。從大數據用戶的角度來看,大數據應用程序可用于分析和挖掘大數據源的價值。

1) 大數據應用的目的

  在過去幾十年,世界上各個層次的經濟實體都轉向使用數據密集型技術,這種技術的廣泛采用在一定程度上取決于經濟發展和教育水平,這促進了數據增長。因此,Oracle、IBM、Microsoft、Dell和其他許多公司在大數據管理和分析應用程序開發方面投入了大量資金。此外,大數據應用行業每年以10%左右的速度增長,幾乎是傳統軟件領域的兩倍。因此,大數據管理和分析應用程序是創造數據價值的關鍵。

    許多特定領域,如政府、制造業、醫療保健、教育、互聯網、社交媒體和物聯網驅動的智能世界系統,都需要大數據應用程序來確定自己收集的數據集的價值,以更好地支持應用程序。例如,基于數據密集型業務的Facebook、谷歌和騰訊等公司提取來自它們自己的用戶平臺生成的數據集。這一過程的主要目的是將這些有價值的數據集出售給潛在的廣告商、其他第三方,或將其呈現給投資者,以產生進一步的價值。因此,必須建立有效的大數據管理和分析應用程序,從收集的數據中挖掘商業價值,這一點非常重要。大數據應用也成為數據定價的重要參考。

2) 大數據應用的挑戰

  大數據應用程序面臨的挑戰之一是沒有直接簡單的方法來量化數據集的價值。正如前面所討論的,通過提高大數據應用程序的性能,增加結果數據集的商業價值。遵循這一規則,為了追求數據集的最大值,一種有效的方法是從數據集產生價值的過程中提高應用程序的性能。為了提高這種性能,顯然需要提高計算能力和運行效率,并降低計算資源需求和數據存儲成本。盡管如此,問題仍然是如何量化這些改進,需注意的是,難以保證通過實施這些簡單的改進,數據集的商業價值就會增加。因此有必要設計一個綜合績效評價模型。通過對應用程序的性能進行建模,技術人員和管理人員能夠做出明智的決策,實驗結果可以作為參考來設計創造未來價值的改進。

  延續上述討論,大數據應用程序的下一個挑戰是設計和開發適當的模型,用于評估價值生成過程。在這樣一個過程中,有許多相互關聯且復雜的場景和參數用于衡量大數據應用程序的性能。例如,每個計算任務可能涉及多個用于大數據應用的離散計算節點。此外,在某個計算任務期間,可以通過調度策略改變所涉及的計算節點??紤]到大數據結構和交互活動的復雜性,大數據應用程序的建模和性能評估需要專業知識。例如,多形式主義建模和測試異構形式主義和系統擴展的結構化基礎設施(SIMTHESys)被定義為大數據建模的新框架。此外,SIMTHESys是一個建??蚣?,旨在適應快速和隨機變化的系統模型。此外有學者還提出了其他建??蚣?,包括AToMe、OsMoSys和Mobius。

3) 大數據和其他技術的融合

  大數據是人工智能(AI)和機器學習的基本來源/輸入。在大數據時代,大量數據集為這些技術提供數據,以獲得有意義的結果。盡管如此,對于設計有效的大數據應用程序而言,即時、靈活地隨機訪問大量數據的能力是一個具有挑戰性的問題。此外,與過去在統計領域和數據分析科學中使用有限的數據樣本集不同,大數據允許科學家訪問和分析無限的數據集。由于大數據集的樣本量大幅增加,以及數據源和傳感器具有更多種類和細節,明顯提升了分析結果。這就是許多組織從基于經驗的分析戰略轉變為基于大數據的戰略的原因。組織能夠開發自己的應用程序以滿足其獨特的需求。此外,在分析處理期間,可以過濾掉冗余或不必要的數據。這將細化源數據,并整合數據集。不斷運行優化循環,可以通過“分析沙盒”( analytical sandboxes)和大數據“卓越中心”( centers of excellence)分析數據集,還可以提高數據管理的靈活性。

  機器學習技術,如深度學習,是利用大數據價值的可行方法。機器學習由大數據源驅動,適用于快速變化的大型復雜數據集,并可通過云和邊緣計算基礎設施的幫助進一步改進。與傳統的分析技術不同,機器學習能夠在不斷增長的數據集上不斷開展。通過這種方式,輸入機器學習系統的數據越多,它可以學習得越多,從而得到更高質量的結果。因此,大數據和機器學習結合可以幫助組織改進從自身數據集中提取業務價值的工作,并擴展其大數據應用分析能力。


D. 大數據的價值

  大數據是數據技術時代最重要的資源。為了交易或共享數據資源,如何評估這些數據集的商業價值是一個基本問題。此外,從數據集中捕獲和挖掘價值可以進一步增加數據的價值。為了從大數據中確定商業價值,我們需要定義數據集的商業價值。高德納(Gartner)提出了最常被引用的大數據定義:“大數據是高容量、高速度和多種多樣的信息資產,需要成本效益,創新的信息處理形式,以增強洞察力和決策能力?!北M管這是大數據的一個有效特征,但這一定義還不夠明確,無法明確區分高值和低值。使用此定義,我們無法測量數據集的值。因此,需要基于評估的定義來確定數據值。

  顯然,收集和存儲大量數據并不是所有公司和組織的目標。然而它們都對分析數據以提取和創造實際商業價值感興趣。達文波特(Davenport)列舉了一些真實或軼事的例子,說明了組織如何使用收集的數據集的策略,并從這些數據集中挖掘價值。此外,一項綜合研究表明,數據驅動的決策在生產率和盈利能力方面比其他決策方法具有更好的績效。關于確定大數據分析如何創造商業價值,以及在何處可以從大數據中獲得商業價值的問題,有許多研究。根據系統性研究,大數據有兩個主要方面,從這兩個方面可以為組織創造商業價值。第一個方面是大數據用于改進和優化當前業務流程、服務和實踐的能力。第二是開發新的商業模式、產品和實踐,這些都可以通過大數據分析進行開發和創新。因此從大數據中獲取價值需要確定業務模型與所分析的大數據之間的關系。

  數據挖掘是從數據集中獲取價值的常用方法之一。盡管如此,在大數據的數據挖掘應用方面仍存在挑戰。第一個挑戰集中在數據訪問和計算過程上。由于分布式存儲系統和不斷增長的數據量,計算平臺必須具備處理分布式和大規模數據存儲的能力。大多數數據挖掘算法都需要將所有必要的數據加載到主存中,這顯然是大數據的一個技術挑戰,因為從分布式存儲系統中移動數據非常昂貴。第二個挑戰是各種大數據應用。更具體地說,應用程序存在于不同的域中,在數據所有者和使用者之間具有不同的數據私有和數據共享方案。第三個挑戰是設計有效的機器學習和數據挖掘算法。學習和挖掘算法必須解決大容量、分布式、復雜和動態的數據特征的困難。

  敬請關注下期文章《大數據市場調查連載(三) | 大數據生命周期》  

FAN LIANG

Department of Computer and Information Sciences,

Towson University, Towson, MD 21252, USA

WEI YU

Department of Computer and Information Sciences,

Towson University, Towson, MD 21252, USA

DOU AN

MOE Key Lab for Intelligent Network and Network Security,

 Xi’an Jiaotong University, Xi’an 710049, China

QINGYU YANG

State Key Laboratory for Manufacturing System Engineering,

 Xi’an Jiaotong University, Xi’an 710049, China

XINWEN FU

Department of Computer Science,

University of Central Florida, Orlando, FL 32816, USA

WEI ZHAO

American University of Sharjah, Sharjah 26666, United Arab Emirates


  譯者:林渠、楊冰之、朱娟英

  單位:國脈戰略研究院

  來源:IEEE ACCESS

國脈業務體系

【服務】國脈最新系列特色業務合輯

【活動】2021首屆城市超級App免費評估活動

【服務】聯合開展城市數字服務,助力城市超級App可持續發展

 首席數據官系列專題

洞察 | 首席數據官——數據時代價值發掘者的使命和成長之道(之一)

洞察 | 首席數據官——數據時代價值發掘者的使命和成長之道(之二)
重磅 | 《廣州市推行首席數據官制度試點實施方案》發布(全文+圖解)
文件 | 《深圳市首席數據官制度試點實施方案》(全文)
政策丨珠海市人民政府辦公室關于印發珠海市首席數據官制度試點實施方案的通知
圖解 | 一圖讀懂《佛山市首席數據官制度試點工作實施方案》
圖解 | 《肇慶市首席數據官制度試點實施方案》(全文+圖解)
文件 | 江蘇省企業首席數據官制度建設指南(試行)





重點推薦



系列培訓認證研修班:

1.提升 | 首席數據官(CDO)知識技能提升路徑

2.通知 | 政務大數據運營管理師(高級)認證培訓

3.DAMA|數據管理最完整的知識體系提升課程

聯系人:劉丹

電  話:13269683561(微信)

郵  箱:liudan@govmade.cn

標簽:

責任編輯:David319
在線客服
三级午夜理伦三级私人影院