導語:
隨著越來越多的企業(yè)認識到數(shù)據(jù)作為生產(chǎn)要素的價值,加快了企業(yè)數(shù)字化轉(zhuǎn)型,把完善企業(yè)級的數(shù)據(jù)治理體系作為企業(yè)數(shù)字化轉(zhuǎn)型的一個目標。長亮科技在大數(shù)據(jù)領(lǐng)域始終保持足夠的技術(shù)敏銳度,并積累了豐富的經(jīng)驗與資產(chǎn)。為此,我們組織了一個系列專文,分期發(fā)表,與您一起探索更適合當下行業(yè)發(fā)展的數(shù)據(jù)觀,歡迎大家持續(xù)關(guān)注。
作者|長亮科技大數(shù)據(jù)研究院 內(nèi)容|本篇共4694字,預計閱讀時間18分鐘
企業(yè)數(shù)據(jù)管理包含數(shù)據(jù)架構(gòu)、數(shù)據(jù)集成、元數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)建模、主數(shù)據(jù)與參考數(shù)據(jù)等多個管理職能領(lǐng)域,數(shù)據(jù)架構(gòu)是管理數(shù)據(jù)的基礎(chǔ)。站在企業(yè)架構(gòu)的高度,數(shù)據(jù)架構(gòu)與企業(yè)應用架構(gòu)、技術(shù)架構(gòu)有緊密的關(guān)系,最終影響數(shù)據(jù)資產(chǎn)的質(zhì)量。長期以來,一些組織沒有把數(shù)據(jù)當作產(chǎn)品來開發(fā),沒有把數(shù)據(jù)當作資產(chǎn)來管理。幾乎每個組織的每個數(shù)據(jù)管理職能領(lǐng)域以及應用架構(gòu),都存在提升空間,但不要企圖短期內(nèi)得到全面提升,應該梳理整個組織的數(shù)據(jù)管理生態(tài)系統(tǒng),找出合適的某些領(lǐng)域先行優(yōu)化,即使少量的投入,也可能很快產(chǎn)出價值。 01 盤點數(shù)據(jù)資產(chǎn) 數(shù)據(jù)的多樣性與數(shù)據(jù)量爆炸式增長使數(shù)據(jù)的管理日益復雜,數(shù)據(jù)需求的激增使數(shù)據(jù)服務的提供部門窮于應付,迫切需要盡早盤點存量數(shù)據(jù)資產(chǎn)。 l 盤點庫存資產(chǎn)及資產(chǎn)使用狀況 盤點組織范圍有哪些數(shù)據(jù)以及數(shù)據(jù)狀況,數(shù)據(jù)所代表的準確定義,有什么用途,梳理清楚數(shù)據(jù)資產(chǎn)起源于何處,如何在組織中移動,形成清晰的庫存資產(chǎn)目錄與資產(chǎn)分布地圖與血緣。 盤點跟蹤數(shù)據(jù)資產(chǎn)被不同用戶、不同需求使用的情況,包括使用的廣度、深度與頻度等,評估使用產(chǎn)生的價值,從而發(fā)現(xiàn)可重用的高價值數(shù)資產(chǎn)據(jù),并質(zhì)疑不被使用的數(shù)據(jù)資產(chǎn)的存在意義。 l 提高高價值資產(chǎn)的使用效率與重用率 盤點數(shù)據(jù)資產(chǎn),發(fā)現(xiàn)有價值的數(shù)據(jù)資產(chǎn),形成數(shù)據(jù)資產(chǎn)目錄,提高數(shù)據(jù)服務的質(zhì)量、使用效率。在盤點過程中可能發(fā)現(xiàn)不同人員開發(fā)了相似或相同的數(shù)據(jù)資產(chǎn),在沒有數(shù)據(jù)資產(chǎn)目錄的情況下,重復開發(fā)的現(xiàn)象是必然存在的。庫存中的數(shù)據(jù)資產(chǎn),無論多少份重復的數(shù)據(jù),只能算同一資產(chǎn),除了備份之外,其它都是多余的,不僅占用存儲空間成本,還要付出管理維護成本。數(shù)據(jù)資產(chǎn)目錄可以提升資產(chǎn)重用率,從而避免資產(chǎn)無序增長。 l 數(shù)據(jù)資產(chǎn)目錄,應該包含問題資產(chǎn)目錄 盤點數(shù)據(jù)資產(chǎn),目的不僅僅是為了得到一份可供使用的數(shù)據(jù)資產(chǎn)清單,還要為問題資產(chǎn)管理提供輸入。如果不是簡單地為了輸出資產(chǎn)目錄,在定義數(shù)據(jù)資產(chǎn)與以及數(shù)據(jù)資產(chǎn)之間關(guān)系的過程中必然會發(fā)現(xiàn)許多問題,諸如各種數(shù)據(jù)質(zhì)量問題、數(shù)據(jù)流轉(zhuǎn)與分布不合理、信息孤島、煙囪式應用、使用了不合適的數(shù)據(jù)源(沒有使用權(quán)威數(shù)據(jù),減少負資產(chǎn)的使用與影響)、數(shù)據(jù)使用不合規(guī)等等。 數(shù)據(jù)資產(chǎn)的“目錄”概念,弱化了數(shù)據(jù)資產(chǎn)的內(nèi)在意義,代替不了數(shù)據(jù)架構(gòu)的職能。數(shù)據(jù)資產(chǎn)的含義要比一般圖書目錄、商品目錄豐富得多,數(shù)據(jù)資產(chǎn)之間是有關(guān)系的,可以帶來更多潛在的衍生價值。 02 完善基礎(chǔ)元數(shù)據(jù) 盤點數(shù)據(jù)資產(chǎn)需要可靠的元數(shù)據(jù)對數(shù)據(jù)資產(chǎn)進行定義、歸類,建立數(shù)據(jù)之間關(guān)系與血緣關(guān)系。組織的運營取決于共享信息的能力,在大多數(shù)組織中,元數(shù)據(jù)管理方面的歷史欠賬太多。 l 缺乏元數(shù)據(jù) 啟動盤點數(shù)據(jù)資產(chǎn)工作,面臨的第一個問題是缺乏數(shù)據(jù)資產(chǎn)的元數(shù)據(jù)。許多業(yè)務系統(tǒng)只能從生產(chǎn)庫上導出沒有業(yè)務邏輯的物理庫表結(jié)構(gòu)。銀行業(yè)務數(shù)據(jù)不是憑空產(chǎn)生的,應該先有數(shù)據(jù)的元數(shù)據(jù)后才能產(chǎn)生數(shù)據(jù),不是先有雞還是先有蛋的問題?,F(xiàn)實是一些業(yè)務系統(tǒng)設(shè)計時并沒有考慮到數(shù)據(jù)的使用,數(shù)據(jù)被當作業(yè)務系統(tǒng)的副產(chǎn)品,尤其是快速迭代的互聯(lián)網(wǎng)系統(tǒng)產(chǎn)生的各種大數(shù)據(jù),一般沒有把元數(shù)據(jù)作為最終產(chǎn)品交付件。 l 元數(shù)據(jù)不可靠 即使在系統(tǒng)建設(shè)初期維護了部分元數(shù)據(jù),也沒有納入配置管理中,投產(chǎn)之后更新不及時或再也沒有更新,不能保持一致且最新,不同文檔之間內(nèi)容不一致。元數(shù)據(jù)發(fā)布也不到位,常常遺漏下游用戶,不同人員的版本不一樣。數(shù)據(jù)倉庫中的基礎(chǔ)數(shù)據(jù)元數(shù)據(jù)也不齊全,衍生數(shù)據(jù)的元數(shù)據(jù)也很少維護,所謂的統(tǒng)一指標,不是建立在統(tǒng)一的基礎(chǔ)之上的?;靵y的元數(shù)據(jù)差異(數(shù)據(jù)結(jié)構(gòu)、格式和值的使用差異)比簡單的數(shù)據(jù)錯誤影響嚴重得多。 數(shù)據(jù)生命周期前期階段工作的不負責任,沒有交付可靠的元數(shù)據(jù),下游用戶無法比較與關(guān)聯(lián)數(shù)據(jù),也就不能準確使用這些數(shù)據(jù),更無法將數(shù)據(jù)作為資產(chǎn)進行管理,增加了數(shù)據(jù)使用成本與風險,拖延了數(shù)據(jù)項目實施周期,后期需要付出更大的補救代價。 因為元數(shù)據(jù)管理不善,也因此衍生出大量不一致的元數(shù)據(jù)。如一些銀行數(shù)十萬數(shù)據(jù)項,足以說明其數(shù)據(jù)與元數(shù)據(jù)管理的混亂。 需要及早梳理、補充完善基礎(chǔ)元數(shù)據(jù),如最基本的數(shù)據(jù)庫設(shè)計說明書、每項數(shù)據(jù)資產(chǎn)的業(yè)務含義,關(guān)鍵數(shù)據(jù)元的定義與規(guī)則等等,無論代價多大,都無法回避這些工作?;A(chǔ)元數(shù)據(jù)的完善一般應先于數(shù)據(jù)資產(chǎn)盤點或作為數(shù)據(jù)資產(chǎn)盤點項目的前期工作完成。 03 優(yōu)化數(shù)據(jù)架構(gòu) 很多數(shù)據(jù)資產(chǎn)問題可能因數(shù)據(jù)架構(gòu)的缺陷導致的。企業(yè)數(shù)據(jù)架構(gòu)描述數(shù)據(jù)應該如何組織與管理數(shù)據(jù),作為企業(yè)架構(gòu)的一部分,是管理數(shù)據(jù)資產(chǎn)的藍圖。數(shù)據(jù)架構(gòu)的設(shè)計貫穿于數(shù)據(jù)全生命周期,沒有數(shù)據(jù)架構(gòu)也就沒有數(shù)據(jù)管理的基礎(chǔ),導致數(shù)據(jù)管理各種成本的大幅增加。 許多組織沒有設(shè)計數(shù)據(jù)架構(gòu),架構(gòu)部門的職責范圍不包含對數(shù)據(jù)架構(gòu)的管理,可能僅限于管理技術(shù)架構(gòu)或部分應用架構(gòu),架構(gòu)設(shè)計與管理的能力弱,也不具備對供應商方案的把控管理能力,整個組織概念混亂,數(shù)據(jù)分布與數(shù)據(jù)流轉(zhuǎn)混亂。 只有少量組織建立了數(shù)據(jù)架構(gòu),龐大的數(shù)據(jù)架構(gòu)需要足量的高端架構(gòu)師進行持續(xù)管控維護。架構(gòu)本應該長期相對穩(wěn)定的,某些組織卻每五年甚至兩到三年大幅度修改架構(gòu)。一些從業(yè)人員試圖用業(yè)務領(lǐng)域來分類數(shù)據(jù),把業(yè)務分類與數(shù)據(jù)分類混為一談。 某些組織意圖對某些主數(shù)據(jù)進行集中管理,但沒有配套的管理組織、人員、流程與措施,比如開發(fā)部署了ECIF系統(tǒng),但僅能保證客戶三要素或四要素是企業(yè)一致的,保證鍵的唯一,不對主數(shù)據(jù)本質(zhì)屬性管理,這些數(shù)據(jù)還是混亂的,產(chǎn)生不了客戶單一視圖。 與過去數(shù)據(jù)模型僅存在于數(shù)據(jù)倉庫的認知一樣,不少數(shù)據(jù)專業(yè)人員對數(shù)據(jù)架構(gòu)的認知僅限于數(shù)據(jù)倉庫的分層。雖然對數(shù)據(jù)倉庫的分層仍有不同的理解,在數(shù)據(jù)倉庫實施過程中,確實倒逼了企業(yè)數(shù)據(jù)架構(gòu)與應用架構(gòu)的建設(shè)、提升優(yōu)化。 隨著業(yè)務與產(chǎn)品的創(chuàng)新,業(yè)務與技術(shù)試圖突破已有的各種管理限制,使數(shù)據(jù)的管理日益混亂,成本日益增加。組織需要具備良好管理的數(shù)據(jù)架構(gòu),盡快形成企業(yè)的數(shù)據(jù)分類,開發(fā)概念數(shù)據(jù)模型,從對基本概念達成一致的認識開始,指導盤點資產(chǎn)、數(shù)據(jù)的產(chǎn)生與使用、數(shù)據(jù)標準等工作,及早實現(xiàn)數(shù)據(jù)資產(chǎn)管理的價值。 04 優(yōu)化應用架構(gòu) 應用架構(gòu)是對實現(xiàn)業(yè)務能力、支撐業(yè)務發(fā)展的應用功能的結(jié)構(gòu)化描述。應用架構(gòu)重點回答業(yè)務功能在哪里實現(xiàn)的問題,數(shù)據(jù)架構(gòu)重點回答數(shù)據(jù)在哪里產(chǎn)生又在哪里使用的問題。許多組織整體上缺少對業(yè)務、業(yè)務流程與信息數(shù)據(jù)的理解,沒有很好規(guī)劃應用架構(gòu)。 一些應用系統(tǒng)由歷史演變而來,可能包羅原始所有的業(yè)務,設(shè)計擴展性差,已經(jīng)不能適應不斷變化的業(yè)務需求,沒有一個大而全的應用系統(tǒng)能支撐大型組織所有的業(yè)務。應該從應用架構(gòu)與技術(shù)架構(gòu)上進行拆分。 有些業(yè)務應用系統(tǒng)的功能過于單一,開發(fā)不同的業(yè)務系統(tǒng)處理相同或相似的業(yè)務功能,除了導致概念不統(tǒng)一(如對私、個人、零售三個名稱不同但內(nèi)涵相同的概念,“個人貸款借據(jù)表”中的業(yè)務主鍵的名稱是“零售貸款借據(jù)編號”,給使用者造成業(yè)務主鍵與表分別表達了不同業(yè)務的誤解),每個系統(tǒng)必須具備完整的業(yè)務操作與處理流程,無論設(shè)計開發(fā),還是系統(tǒng)配置、運維人員配置,都造成資源浪費,導致昂貴的成本??梢韵胂笠幌?,當兩個業(yè)務功能相似的系統(tǒng)整合為一個系統(tǒng)的時候,會帶來哪些收益。 流程關(guān)系緊密的業(yè)務功能分散在多個應用系統(tǒng)中實現(xiàn)被拆分為多個系統(tǒng),如貸款業(yè)務申請、客戶評級、授信、擔保、押品、合同放款、貸后、核銷等所謂對公信貸全流程,業(yè)務功能分別在多個系統(tǒng)實現(xiàn),從一個或2個集中的系統(tǒng)被過度拆分,數(shù)據(jù)集成與交互的復雜性指數(shù)級增加,同樣的數(shù)據(jù)在多個系統(tǒng)中存放,必然導致數(shù)據(jù)的不一致性,同時產(chǎn)生了混亂的概念,如貸款申請流程中沒有業(yè)務意義的技術(shù)主鍵,流轉(zhuǎn)到授信、合同放款等系統(tǒng)中時,被轉(zhuǎn)義為貸款申請編號,而用企業(yè)抽象通用的業(yè)務編號表示真正的貸款申請編號,還產(chǎn)生了貸款借據(jù)、貸款支用、貸款賬戶等概念。 應用架構(gòu)影響數(shù)據(jù)架構(gòu)與數(shù)據(jù)的集成。不合理的、混亂的應用架構(gòu)編織了復雜的蜘蛛網(wǎng),不但制造了混亂的概念,還造成數(shù)據(jù)集成的困難甚至集成了錯誤的數(shù)據(jù),給業(yè)務管理與數(shù)據(jù)管理帶來困惑,增加數(shù)據(jù)管理成本與風險。 需要從企業(yè)視角優(yōu)化整合各條線、部門應用,解決功能過于分散、功能交叉重疊與分工不清晰的問題。良好的數(shù)據(jù)資產(chǎn)管理,離不開業(yè)務架構(gòu)、應用架構(gòu)、數(shù)據(jù)架構(gòu)以及技術(shù)架構(gòu)頂層設(shè)計來降低數(shù)據(jù)資產(chǎn)總擁有成本,給業(yè)務提供高質(zhì)量的數(shù)據(jù)。架構(gòu)方面一項小的優(yōu)化措施,可能帶來大的價值提升。 05 有效實施數(shù)據(jù)標準 一些組織已經(jīng)實施了十多年數(shù)據(jù)標準,制定了包含數(shù)千或超萬的數(shù)據(jù)標準信息項,但是十多年過去,落地實施的標準并不多,即使最基本的數(shù)據(jù)項也大多沒有落地。比如某行建立了幣種、幣種代碼、幣種編碼、幣種碼、貨幣種類代碼、幣種類型代碼、幣種種類編碼、幣種種類代碼、貨幣代碼、幣種代碼值、幣種信息等近千名稱不同、數(shù)據(jù)類型不同的幣種代碼相關(guān)數(shù)據(jù)項。 數(shù)據(jù)標準本身定義不準確或不嚴謹,數(shù)據(jù)標準的內(nèi)涵理解存在比較大的差異,合標要求不明確或不嚴謹,或多或少都存在一些問題,流于形式與表象,沒有抓住本質(zhì)。比如: 分類是管理數(shù)據(jù)很關(guān)鍵的一項工作,有些數(shù)據(jù)標準,除了按照主題域分類外,沒有進一步的分類,比如產(chǎn)品分類、協(xié)議分類、事件分類,數(shù)據(jù)設(shè)計人員有了隨意發(fā)揮的空間。 l 有些標準術(shù)語/數(shù)據(jù)項甚至沒有定義,標準維護人員在沒有準確了解現(xiàn)存標準的情況下不斷新增標準術(shù)語與數(shù)據(jù)項,導致不斷膨脹。 l 屬性名稱只落標中文名,雖然建立了詞根中英文名稱對照,但是沒有通過工具強制執(zhí)行,造成物理名稱與邏輯名稱的不一致。在物理建表時,即使提供了字段的中文說明,但Hive不支持將字段中文注釋顯示為查詢結(jié)果的標題,這種情況下的落標沒有起到作用。 l 客戶名稱的技術(shù)屬性標準,如定義為VARCHAR(80),標準的解釋為只要長度不超過80位即是合標的,但是如果某些業(yè)務系統(tǒng)的定義沒有遵循標準,在數(shù)據(jù)倉落標時常常被截斷。對于這些關(guān)鍵屬性,嚴謹?shù)臉藴蔬€應該限制最小長度,以確保數(shù)據(jù)質(zhì)量。 l 沒有管理代碼類數(shù)據(jù)項的枚舉值,或數(shù)據(jù)項的碼值沒有經(jīng)過嚴謹設(shè)計,僅是簡單的羅列,如設(shè)計了生命周期狀態(tài)數(shù)據(jù)項,用于各數(shù)據(jù)主題域相關(guān)實體的生命周期的狀態(tài),包含數(shù)千個碼值,中文名稱為“正常”的碼值超過20多個,從而失去了使用價值。 數(shù)據(jù)標準應該是嚴謹?shù)?,標準應少而精,易于理解掌握,逐步推進工作。把實施寬泛的大而全的數(shù)據(jù)標準作為數(shù)據(jù)治理的切入點或啟動項目不是一個有效的選擇。數(shù)據(jù)標準所能表達的意義有限,數(shù)據(jù)標準僅是衡量數(shù)據(jù)質(zhì)量的參考依據(jù)之一,并不能代替數(shù)據(jù)架構(gòu)來管理數(shù)據(jù)。 06 及時解決數(shù)據(jù)質(zhì)量問題 任何組織的數(shù)據(jù)都可能存在質(zhì)量問題,包含大量冗余與垃圾數(shù)據(jù)。數(shù)據(jù)質(zhì)量問題一經(jīng)發(fā)現(xiàn),應找到問題的根本原因及早解決,因為分析問題與解決問題都要付出成本,質(zhì)量分析人員每天都需要分析質(zhì)量問題,需要占用資源,成本隨著拖延的時間不斷增加。 盡量在上游解決數(shù)據(jù)質(zhì)量問題,避免問題發(fā)散。因為同一個問題從源頭被傳到數(shù)據(jù)湖與數(shù)據(jù)倉庫,再進一步傳導到各個下游應用,相關(guān)人員都需要重復分析與解決問題,代價指數(shù)級增長,解決方案也可能不同,最終用戶看到的可能不一致。 數(shù)據(jù)質(zhì)量問題內(nèi)涵復雜,涉及跨部門、跨專業(yè)合作,對于數(shù)據(jù)質(zhì)量問題的識別與處理往往依賴于質(zhì)量分析人員的能力與組織執(zhí)行力,應把質(zhì)量問題的產(chǎn)生、解決時間與成本價值聯(lián)系起來,建立數(shù)據(jù)質(zhì)量問題認責與考核機制,避免扯皮推卸責任現(xiàn)象。對于已經(jīng)積累多年的陳年舊債,要分析分類,從架構(gòu)出發(fā),解決根本問題。 一些組織的治理和信息資產(chǎn)項目由合規(guī)性驅(qū)動,是被動型項目,而不是由數(shù)據(jù)作為資產(chǎn)所衍生的潛在價值驅(qū)動。由于各種歷史原因,各企業(yè)的數(shù)據(jù)管理存在很大的提升空間,基于成本收益基準,從優(yōu)化現(xiàn)有的數(shù)據(jù)及數(shù)據(jù)管理生態(tài)開始,不懈地關(guān)注架構(gòu)、標準、質(zhì)量和流程等,打好數(shù)據(jù)價值基礎(chǔ)。