香港2024年9月6日 /美通社/ -- 人工智能(AI),尤其是生成式AI,是全球熱門話題。在所有關於AI的熱議中,一個關鍵問題被提了出來: 企業真的為AI做好數據準備了嗎?換言之,企業的數據做到AI就緒了嗎?我們不禁要認真思考AI應用與數據準備之間的關係,以及如何做好數據準備從而可以跨整個企業來擴展AI。
事實上,為AI做好數據準備不僅僅是一個熱詞,它意味著要把準備和組織數據與AI算法相匹配,以確保AI在實際應用中發揮最佳效果。這個過程不僅涉及收集數據,還包括精心構建數據結構、準確標記數據,並以最適合AI模型的方式來組織數據。
在 IBM 香港科技論壇 主題為「您的數據是否已經為AI做好準備?」的專題討論中,來自金融科技公司Alpha Square、恒生銀行、數據素養協會和香港樹仁大學的專家就數據就緒的重要性、如何識別適用於AI的數據,以及培養AI時代「數據為先」的文化對於理解和做好數據準備工作的關鍵作用進行了深入探討。
為AI的成功做好基礎架構、算法和數據準備
Alpha Square科技的創始人兼首席執行官Arthur Wong先生 擁有 30 多年利用新興數碼技術和解決方案推動 IT 轉型的豐富經驗,他強調了成功實施人工智能的三個關鍵要素:底層基礎架構、人工智能模型或算法,以及數據就緒。
然而,資源通常被用於基礎架構設施和AI模型,數據就緒的工作經常被忽視。做好數據準備極具挑戰性但又至關重要,它與特定行業的需求和內部流程密切相關,是令企業脫穎而出的關鍵。Authur分享了他在銀行業的經驗,他專注於元數據管理和利潤分配這類複雜任務的解決方案,這些任務需要耗費大量時間和精力。雖然更多的數據可以提高AI的準確性,但確保數據質量同樣重要。他建議企業增加數據準備工作的資源和人力投入,有效應對與數據相關的重要挑戰。
Authur談到企業在數據管理方面所面臨的挑戰,包括組織內部分散的數據、中小型組織缺乏明確的數據管制政策以及與數據使用相關的企業文化等。他強調要將分散的數據源整合到集中式存儲庫中;要管理好元數據和血緣等數據元素,從而可以實現有效的決策和 AI 建模,亦要改進數據在關鍵決策中的系統化使用。
此外,他還分享了Alpha Square科技公司在開發基於 WhatsApp 和微信的信息平台時處理非結構化數據的經驗。由於客戶互動語言的多樣性、音頻內容和表情符號等因素,從非結構化數據中提取有價值的見解非常複雜。他認為,要解決這些問題,自然語言處理(NLP)、音頻識別和圖像識別等先進的AI模型對於構建高效的AI應用至關重要。
數據就緒的關鍵控制指標
恒生銀行數據與分析辦公室主管Edwin Hui先生是一位經驗豐富的數據專家,已經在這個行業工作了20多年,目前負責領導恒生銀行的數據和分析團隊。Edwin 對追求絕對準確性而不是速度提出了質疑,他說如果將準確率的要求略微降低到90%,可以加快流程,尤其是在效率至上的營銷活動場景中。
這同時引發大家對投資回報率 (ROI) 的討論,尤其是關乎銀行業等受到嚴格監管的行業場景,各種關鍵控制指標 (KCI) 要如何從不同角度有效衡量企業實施AI的數據就緒性。Edwin 詳細闡述了不同層面KCI 的複雜性,包括對整体互連的上游和下游系統的數據就緒性和可用性的評估。他反思如何在考慮時間和資源限制的同時又能嚴格保證數據的準確性,提出是否有必要追求絕對完美,或者應該從投資回報率的角度尋找一個平衡的方法。
Edwin 承認,向業務領導證明數據治理支出的合理性是一個難題,尤其是從投資回報率的角度來看更是如此。他強調保持長期視角和持續努力開展數據治理、控制和準備工作的重要性,強調這些工作對於促進組織成功实施AI至關重要,對於業務利益相關者來說,這也是他們資助這些計劃並從中受益的關鍵。
以恒生銀行正在實施的關鍵措施為例,Edwin 認為採取整體的數據管理方法對企業具有實際價值。他強調,要建立有效管理數據的控制措施,實施提升企業數據素養的計劃,加強企業整體對於數據潛在價值的認識,培養分析能力並以數據洞察推動決策。這些要素相互配合,有利於形成一個集管理、文化和分析於一體的整體戰略。
數據素養:AI項目獲取ROI的關鍵
Toa Charm 博士是數據素養協會的創始主席,他曾在Cyberport、HSBC、IBM 和 Oracle 擔任高管,經驗豐富。他強調數據素養對於數據和 AI 計劃的投資回報率(ROI)至關重要。
Toa Charm 博士強調,組織的數據素養對於最大限度地提高其數據和 AI 項目的ROI至關重要,這關乎評估組織內部「數據為先」的文化和員工的數據思維方式,只靠擁有大量數據並不能保證組織獲得最佳的投資回報。
在談到元數據管理的挑戰時,Toa Charm 博士強調跨部門明確數據定義很有必要,可以促進協作、解決複雜問題。目標是通過在全公司普及數據知識,使員工能夠利用數據解決問題和創造價值,使組織能夠從數據資產中獲利。
他同时強調,評估用於數據湖的數據,对于有效應對業務挑戰並達到用例所期效果非常重要。他指出,需要對數據的清理、準備和管治等任務進行優先排序,將重點放在能為公司带来價值的行動上。
要從數據資產中獲利,一個閉環的反饋系統也很重要。Toa Charm 博士指出,數據和AI計劃的實施需要多個部門協作努力,不單是靠 IT 和數據專家。要想取得成功,企業必須培養數據驅動的文化和思維方式,培養所有員工的數據素養,使他們對於使用企業數據的目標、語言和理解保持一致,從而實現高效協作與共贏。
數據就緒性在學界的現狀
香港樹仁大學應用數據科學系副教授兼系主任Connie Yuen博士 是該校大數據實驗室的創始主任,她分享了AI的數據準備工作在教育和研究領域的現狀。
Connie Yuen博士借鑒一個與非政府組織合作開發早期閱讀障礙識別智能系統的項目,探討了他們在數據收集方面遇到的挑戰。這些挑戰源於早期教育中心沒有保留原始數據,因此需要花費大量精力和時間來收集必要的數據。她強調跨商業和非政府組織推動AI就緒的數據準備工作很有必要。
她引用現實案例,介紹了香港的大學通過採用行業合作夥伴的建議來定制提升學生數據素養的學分與非學分課程。她認為實踐對於學生大有助益,如通過暑期實習參與行業項目,以此來加深他們對於數據的AI就緒性和數據素養的理解。Connie Yuen 博士預計未來幾年學生會進一步掌握和理解這些概念。
數據就緒:成功實施 AI 的基礎
專家們強調了企業和組織在實施AI的過程中,數據就緒對於釋放AI的全部潛力和成功擴展AI的重要作用。
企業需要可信賴、可擴展和具有適應性的AI。為了幫助企業把握AI機遇,IBM 提供了 watsonx 數據和AI平台,其中包括三個組件和一整套AI助手,旨在幫助企業利用可信數據擴展和加速AI的影響:[i]
AI 的基礎架構設施和模型開發固然重要,然而AI的數據就緒性(包括數據治理、數據素養和高級分析)同樣重要。組織必須採用整體方法,整合不同的數據源,制定強大的控制措施,並培養以數據為中心的文化[iii],使各級員工都能有效地理解和利用數據。
事實上,79% 的組織認為,未來一年內數據將越來越多地參與到組織決策中[iv]。IBM 建議企業要從數據準備、數據清理和數據利用這幾個方面著手為實施和擴展AI做好數據準備。
在一個 AI 賦能、數據驅動決策的組織當中,數據素養是每個員工都要具備的能力,而不僅僅是數據科學家,所有員工都要能夠使用數據進行理解、推理和交流。提升企業的數據素養,塑造「數據為先」的文化,可以從以下四項基礎工作開始 [v]:
歸根結底,企業為AI做好數據準備的工作,一方面要做好數據管理,另一方面要塑造數據驅動的思維方式,這是一個旅程。對於那些希望利用AI 推動增長、提升競爭優勢的企業,做好數據準備是需要優先考慮的工作。
在此,衷心感謝四位尊敬的行業專家參與我們的討論,他們的見解與視角讓我們的討論更加全面,让我們進一步瞭解了數據就緒對於成功實施 AI 的重要性。
關於本文作者:
Kayton Wan,IBM 中國香港有限公司軟件銷售主管
Kayton Wan 現任 IBM 中國香港有限公司軟件銷售主管。他帶領一支專業團隊,為不同行業的客戶提供創新的定制化軟件解決方案。憑借在信息技術和服務領域超過 10 年的經驗,Kayton 在推動 IBM 技術產品組合的收入增長、客戶滿意度和市場滲透方面成績斐然。他的核心能力包括銷售、客戶關係管理、IT 戰略、專業服務和數據中心管理。 憑借其會計背景和商業敏銳度,Kayton 深知客戶的需求和挑戰,並為他們提供最佳和具有成本效益的解決方案。他的目標是幫助 IBM 在香港成為企業信賴與看重的技術合作夥伴。
媒體聯絡人: