大數(shù)據(jù)正在推動組織處理、存儲和分析數(shù)據(jù)的方式發(fā)生變化。這些好處正在刺激更多的創(chuàng)新。以下是四大趨勢。
大數(shù)據(jù)正在向各行各業(yè)各種類型和規(guī)模的組織證明其價值。充分利用它的企業(yè)正在實現(xiàn)切實的商業(yè)利益,從提高運營效率、提高對快速變化的業(yè)務(wù)環(huán)境的可見性,到為客戶優(yōu)化產(chǎn)品和服務(wù)。
結(jié)果是,隨著組織發(fā)現(xiàn)這些典型的大型數(shù)據(jù)存儲的用途,大數(shù)據(jù)技術(shù)、實踐和方法正在不斷發(fā)展。用于收集、處理、管理和分析的新型大數(shù)據(jù)架構(gòu)和技術(shù)整個組織的各種數(shù)據(jù)不斷涌現(xiàn)。
處理大數(shù)據(jù)不僅僅是處理大量存儲的信息。數(shù)據(jù)量只是組織需要解決的眾多大數(shù)據(jù)問題之一。通常還存在各種各樣的數(shù)據(jù)——從分布在整個組織的數(shù)據(jù)庫中的結(jié)構(gòu)化信息,到存儲在文件、圖像、視頻、傳感器、系統(tǒng)日志、文本和文檔(包括等待數(shù)字化的紙質(zhì)數(shù)據(jù))中的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。此外,這些信息通常以很快的速度創(chuàng)建和更改,并且數(shù)據(jù)質(zhì)量水平參差不齊(準(zhǔn)確性),這給數(shù)據(jù)管理、處理和分析帶來了進(jìn)一步的挑戰(zhàn)。
大數(shù)據(jù)的四大趨勢正在幫助組織應(yīng)對這些挑戰(zhàn),并獲得其所尋求的好處。以下是行業(yè)專家確定的四大大數(shù)據(jù)趨勢,以及它們對投資大數(shù)據(jù)部署的組織的意義。
1、生成式人工智能、高級分析和機(jī)器學(xué)習(xí)不斷發(fā)展
隨著大量數(shù)據(jù)的生成,傳統(tǒng)的分析方法受到了挑戰(zhàn),因為它們不容易實現(xiàn)大規(guī)模數(shù)據(jù)分析的自動化。分布式處理技術(shù),尤其是Hadoop和Spark等開源平臺推廣的技術(shù),使組織能夠快速處理PB級信息。然后,企業(yè)使用大數(shù)據(jù)分析技術(shù)來優(yōu)化其商業(yè)智能和分析計劃,從依賴于數(shù)據(jù)倉庫技術(shù)的緩慢報告工具轉(zhuǎn)向更智能、響應(yīng)更快的應(yīng)用,從而更好地了解客戶行為、業(yè)務(wù)流程和整體運營。
大數(shù)據(jù)分析的發(fā)展繼續(xù)以機(jī)器學(xué)習(xí)和人工智能系統(tǒng)為中心。各種規(guī)模的組織越來越多地使用人工智能來優(yōu)化和改進(jìn)其業(yè)務(wù)流程。在Enterprise Strategy Group的支出意向調(diào)查中,熟悉組織內(nèi)人工智能和機(jī)器學(xué)習(xí)計劃的193名受訪者中有63%表示,預(yù)計2023年將在這些工具上投入更多資金。
機(jī)器學(xué)習(xí)使組織能夠更輕松地識別數(shù)據(jù)模式,檢測大型數(shù)據(jù)集中的異常情況,并支持預(yù)測分析和其他高級數(shù)據(jù)分析功能。其中的一些示例包括:
圖像、視頻和文本數(shù)據(jù)的識別系統(tǒng)。
數(shù)據(jù)自動分類。
自然語言處理(NLP)功能,用于聊天機(jī)器人以及語音和文本分析。
自主業(yè)務(wù)流程自動化。
網(wǎng)站和服務(wù)中的個性化和推薦功能。
能夠在海量數(shù)據(jù)中找到業(yè)務(wù)問題的最佳解決方案的分析系統(tǒng)。
事實上,在人工智能和機(jī)器學(xué)習(xí)的幫助下,企業(yè)正在利用其大數(shù)據(jù)環(huán)境,通過智能聊天機(jī)器人和更個性化的交互來提供更深入的客戶支持,而無需大幅增加客戶支持人員。這些支持人工智能的系統(tǒng)能夠收集和分析有關(guān)客戶和用戶的大量信息,特別是當(dāng)與數(shù)據(jù)湖策略相結(jié)合時,可以聚合來自許多來源的廣泛信息。
企業(yè)也看到了數(shù)據(jù)可視化領(lǐng)域的創(chuàng)新。當(dāng)數(shù)據(jù)以可視化的形式呈現(xiàn)時,比如圖表、圖形和圖表,人們能更好地理解數(shù)據(jù)的含義。新興的數(shù)據(jù)可視化形式正在將人工智能分析的力量交到普通商業(yè)用戶手中。這有助于組織發(fā)現(xiàn)可以改進(jìn)決策的關(guān)鍵見解。先進(jìn)形式的可視化和分析工具甚至允許用戶用自然語言提出問題,系統(tǒng)會自動確定正確的查詢,并以背景相關(guān)的方式顯示結(jié)果。
生成式人工智能和大型語言模型(LLM)可以在整個數(shù)據(jù)管道中帶來好處,進(jìn)一步改善組織的數(shù)據(jù)運營。生成式人工智能可以幫助自動化數(shù)據(jù)可觀測性監(jiān)控功能,通過主動警報和修復(fù)已識別的問題來提高質(zhì)量和效率,甚至編寫代碼行。它可以掃描大量數(shù)據(jù)以查找錯誤或不一致,或者識別模式并為數(shù)據(jù)團(tuán)隊生成最重要細(xì)節(jié)的報告或可視化。LLM為組織提供新的數(shù)據(jù)民主化能力。隨著生成式人工智能融入數(shù)據(jù)管理流程,數(shù)據(jù)編目、集成、隱私、治理和共享都在興起。
生成式AI和LLM的威力取決于用于訓(xùn)練模型的數(shù)據(jù)質(zhì)量。隨著所有行業(yè)對生成式人工智能的興趣和使用不斷增加,數(shù)據(jù)質(zhì)量比以往任何時候都更加重要。數(shù)據(jù)團(tuán)隊必須仔細(xì)監(jiān)控所有人工智能生成的數(shù)據(jù)操作的結(jié)果。不正確或誤導(dǎo)的數(shù)據(jù)可能會導(dǎo)致錯誤的決策和代價高昂的結(jié)果。
2、數(shù)據(jù)的多樣性推動了處理的進(jìn)步和邊緣計算的興起
數(shù)據(jù)生成的速度持續(xù)加快。這些數(shù)據(jù)大部分不是由數(shù)據(jù)庫中發(fā)生的業(yè)務(wù)交易生成的,而是來自其他來源,包括云系統(tǒng)、網(wǎng)絡(luò)應(yīng)用、視頻流以及智能手機(jī)和語音助手等智能設(shè)備。這些數(shù)據(jù)很大程度上是非結(jié)構(gòu)化的,在過去,這些數(shù)據(jù)大多未被組織處理和使用,從而變成了所謂的暗數(shù)據(jù)。
這讓我們看到了大數(shù)據(jù)的最大趨勢:非數(shù)據(jù)庫來源將繼續(xù)成為數(shù)據(jù)的主要生成者,進(jìn)而迫使組織重新審視其數(shù)據(jù)處理需求。尤其是語音助手和物聯(lián)網(wǎng)設(shè)備正在推動零售、醫(yī)療保健、金融、保險、制造業(yè)和能源以及廣泛的公共部門市場。數(shù)據(jù)多樣性的爆炸式增長,迫使組織思考超越傳統(tǒng)數(shù)據(jù)倉庫,作為處理所有這些信息的手段。
此外,處理所生成數(shù)據(jù)的需求正在轉(zhuǎn)移到設(shè)備本身,因為處理能力方面的行業(yè)突破導(dǎo)致了越來越先進(jìn)的設(shè)備的開發(fā),這些設(shè)備能夠收集數(shù)據(jù)并自行存儲數(shù)據(jù),而不會對網(wǎng)絡(luò)、存儲和計算基礎(chǔ)設(shè)施造成負(fù)擔(dān)。例如,移動銀行應(yīng)用程序可以處理遠(yuǎn)程支票存款和處理的許多任務(wù),而無需將圖像來回發(fā)送到中央銀行系統(tǒng)進(jìn)行處理。
使用設(shè)備進(jìn)行分布式處理體現(xiàn)在邊緣計算的概念中,它將處理負(fù)載先轉(zhuǎn)移到設(shè)備本身,數(shù)據(jù)被發(fā)送到服務(wù)器。邊緣計算通過減少數(shù)據(jù)流經(jīng)網(wǎng)絡(luò)的需求來優(yōu)化性能和存儲。這降低了計算和處理成本,特別是云存儲、帶寬和處理費用。邊緣計算還有助于加快數(shù)據(jù)分析速度,并為用戶提供更快的響應(yīng)。
3、大數(shù)據(jù)存儲需求刺激云和混合云平臺創(chuàng)新,以及數(shù)據(jù)湖的增長
為了應(yīng)對不斷增長的數(shù)據(jù)生成,組織正在花費更多的資源將這些數(shù)據(jù)存儲在一系列基于云和混合云的系統(tǒng)中,這些系統(tǒng)針對大數(shù)據(jù)的所有V進(jìn)行了優(yōu)化。在過去的幾十年里,組織管理自己的存儲基礎(chǔ)設(shè)施,導(dǎo)致企業(yè)必須管理、保護(hù)和運營龐大的數(shù)據(jù)中心。云計算的發(fā)展改變了這種動態(tài)。通過將責(zé)任轉(zhuǎn)移給云基礎(chǔ)設(shè)施提供商,如AWS、Google、Microsoft、Oracle和IBM,組織可以處理幾乎無限量的新數(shù)據(jù),并按需支付存儲和計算能力的費用,而無需維護(hù)自己的大型復(fù)雜數(shù)據(jù)中心。
由于監(jiān)管或技術(shù)限制,一些行業(yè)在使用云基礎(chǔ)設(shè)施方面面臨挑戰(zhàn)。例如,醫(yī)療保健、金融服務(wù)和政府等受到嚴(yán)格監(jiān)管的行業(yè)都有限制,無法使用公共云基礎(chǔ)設(shè)施。因此,在過去的十年中,云提供商開發(fā)了多種方法來提供更加適合監(jiān)管的基礎(chǔ)設(shè)施,以及將第三方云系統(tǒng)的各個方面與本地計算和存儲相結(jié)合的混合方法,以滿足關(guān)鍵基礎(chǔ)設(shè)施的需求。隨著組織尋求云計算的經(jīng)濟(jì)和技術(shù)優(yōu)勢,公共云和混合云基礎(chǔ)設(shè)施的發(fā)展無疑將取得進(jìn)展。
除了云存儲和處理方面的創(chuàng)新之外,企業(yè)還在轉(zhuǎn)向新的數(shù)據(jù)架構(gòu)方法,以應(yīng)對大數(shù)據(jù)的多樣性、準(zhǔn)確性和容量挑戰(zhàn)。企業(yè)不再試圖將數(shù)據(jù)存儲集中在需要復(fù)雜且耗時的提取、轉(zhuǎn)換和加載過程的數(shù)據(jù)倉庫中,而是正在發(fā)展數(shù)據(jù)湖的概念。數(shù)據(jù)湖以其本機(jī)格式存儲結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集。這種方法將數(shù)據(jù)轉(zhuǎn)換和準(zhǔn)備的責(zé)任轉(zhuǎn)移給具有不同數(shù)據(jù)需求的終端用戶。數(shù)據(jù)湖還可以提供數(shù)據(jù)分析和處理的共享服務(wù)。
4、數(shù)據(jù)運營和數(shù)據(jù)管理脫穎而出
大數(shù)據(jù)處理、存儲和管理的許多方面將在未來幾年持續(xù)發(fā)展。這種創(chuàng)新很大程度上是由技術(shù)需求驅(qū)動的,但也有部分是由我們思考數(shù)據(jù)和與數(shù)據(jù)相關(guān)的方式的變化驅(qū)動的。
一個創(chuàng)新領(lǐng)域是DataOps的出現(xiàn),這是一種專注于敏捷迭代方法的方法和實踐,用于處理在組織中流動的數(shù)據(jù)的完整生命周期。DataOps的流程和框架解決了從生成到存檔整個數(shù)據(jù)生命周期的組織需求,而不是以零碎的方式考慮數(shù)據(jù),由不同的人來處理數(shù)據(jù)的生成、存儲、傳輸、處理和管理。
同樣,組織越來越多地處理數(shù)據(jù)治理、隱私和安全問題,大數(shù)據(jù)環(huán)境加劇了這種情況。過去,企業(yè)對數(shù)據(jù)隱私和治理的擔(dān)憂往往有些松懈,但新的法規(guī)使其對系統(tǒng)中個人信息的發(fā)生負(fù)有更大的責(zé)任。生成式人工智能增加了組織需要考慮的另一層隱私和道德問題。
由于普遍存在的安全漏洞,侵蝕了客戶對企業(yè)數(shù)據(jù)共享實踐的信任,以及在整個數(shù)據(jù)生命周期中管理數(shù)據(jù)的挑戰(zhàn),組織越來越關(guān)注數(shù)據(jù)管理,并更加努力地保護(hù)和管理數(shù)據(jù),特別是當(dāng)數(shù)據(jù)跨越國際邊界時。新的工具正在出現(xiàn),以確保數(shù)據(jù)留在需要的地方,在靜態(tài)和動態(tài)中得到保護(hù),并在其生命周期中得到適當(dāng)?shù)母櫋?/p>
總之,這些大數(shù)據(jù)趨勢將繼續(xù)塑造2024年的大數(shù)據(jù)形態(tài)。
來源:千家網(wǎng)