資訊詳情

大語言模型在數(shù)倉數(shù)據(jù)治理上的落地實(shí)踐

2023-09-28 09:32:074636

隨著數(shù)據(jù)規(guī)模的不斷增長和業(yè)務(wù)需求的日益復(fù)雜，數(shù)據(jù)倉庫（Data Warehouse）的建設(shè)和管理變得越來越重要，數(shù)據(jù)治理也成為數(shù)據(jù)倉庫建設(shè)中不可忽視的一環(huán)。其中數(shù)倉元數(shù)據(jù)和指標(biāo)是對(duì)數(shù)據(jù)的描述和度量，對(duì)于數(shù)據(jù)分析和決策起著至關(guān)重要的作用。然而，由于數(shù)據(jù)規(guī)模龐大且復(fù)雜，傳統(tǒng)的元數(shù)據(jù)和指標(biāo)檢索方法往往效率低下，無法滿足快速、準(zhǔn)確地檢索需求。本文將介紹如何利用大型語言模型技術(shù)在數(shù)倉元數(shù)據(jù)和指標(biāo)檢索治理上進(jìn)行落地實(shí)踐，包括技術(shù)架構(gòu)、詳細(xì)的技術(shù)說明以及解決的問題。

1.實(shí)踐的背景

在現(xiàn)有的系統(tǒng)工具中，我們已經(jīng)建設(shè)過了指標(biāo)管理系統(tǒng)，元數(shù)據(jù)系統(tǒng)，ide用戶查詢平臺(tái)等多項(xiàng)數(shù)據(jù)工具。傳統(tǒng)平臺(tái)更多的是工具性的支持，用戶有目的輸入，系統(tǒng)檢索返回結(jié)果。這種形式容易形成信息孤島，因?yàn)樵獢?shù)據(jù)系統(tǒng)就是元數(shù)據(jù)信息，指標(biāo)管理就是指標(biāo)信息，用戶更多的時(shí)候是希望可以進(jìn)行融合，來解答業(yè)務(wù)上的問題。

大語言模型是一種基于Transformer模型的自然語言處理技術(shù)。它通過大規(guī)模的預(yù)訓(xùn)練來學(xué)習(xí)語言模型，然后可以在各種任務(wù)上進(jìn)行微調(diào)，以實(shí)現(xiàn)更具體的應(yīng)用。大語言模型具有強(qiáng)大的語義理解和生成能力，可以根據(jù)輸入的自然語言文本生成相關(guān)的回答。它可以在現(xiàn)有應(yīng)用系統(tǒng)上充當(dāng)粘合劑，將不同系統(tǒng)的信息有機(jī)地組合起來提供給用戶。因此，我們決定通過大語言模型來處理我們目前的解決場景，以滿足我們的需求。

2.技術(shù)架構(gòu)

2.1檢索語料入倉

通過與元數(shù)據(jù)系統(tǒng)和指標(biāo)管理系統(tǒng)的對(duì)接，您可以將需要咨詢的內(nèi)容接入數(shù)倉進(jìn)行存儲(chǔ)和管理。在數(shù)倉中，語料內(nèi)容以語料短語和詳情信息組成的kv對(duì)的形式進(jìn)行組織，形成初始的索引信息。

索引信息的組織形式可以根據(jù)具體的需求和數(shù)據(jù)結(jié)構(gòu)進(jìn)行設(shè)計(jì)。一種常見的方式是使用表名作為key，表結(jié)構(gòu)作為value。這樣可以方便地根據(jù)表名進(jìn)行索引查詢，快速找到相關(guān)的語料內(nèi)容。

另一種方式是使用指標(biāo)名稱作為key，指標(biāo)說明和生成規(guī)則描述作為value。這種方式適用于需要根據(jù)指標(biāo)進(jìn)行咨詢的場景。通過將指標(biāo)信息作為索引的一部分，可以方便地根據(jù)指標(biāo)名稱進(jìn)行檢索，快速找到與指標(biāo)相關(guān)的語料內(nèi)容。

通過與元數(shù)據(jù)系統(tǒng)和指標(biāo)管理系統(tǒng)的對(duì)接，您可以獲取到更多的元數(shù)據(jù)信息和指標(biāo)定義。這些信息可以作為語料內(nèi)容的補(bǔ)充說明，豐富語料的詳情信息。同時(shí)，您可以將這些信息與語料短語一起存儲(chǔ)在數(shù)倉中，以便后續(xù)的索引接入和咨詢檢索。

2.2語料向量化處理

在完成語料組裝后，我們采用了Milvus向量庫來對(duì)語料內(nèi)容進(jìn)行向量化處理。這種處理方式的好處在于，通過將語料內(nèi)容轉(zhuǎn)化為向量表示，我們可以避免明文匹配中的完全匹配或模糊匹配方式所帶來的匹配范圍縮小問題。因?yàn)橛脩舻恼Z言變化情況非常多樣化，直接使用明文匹配可能無法涵蓋所有變化的情況。

通過向量化處理，我們將語料內(nèi)容映射到一個(gè)高維向量空間中。在這個(gè)向量空間中，每個(gè)語料內(nèi)容都被表示為一個(gè)向量，而這些向量之間的距離可以用來衡量它們之間的相似度。這樣一來，我們可以通過向量匹配的方式，找到與用戶輸入最接近的語料內(nèi)容。

向量化處理的另一個(gè)好處是可以避免語言上的各種修飾詞所帶來的干擾。修飾詞通常是一些形容詞、副詞或其他語言上的修飾性語句，它們?cè)诿魑钠ヅ渲锌赡軙?huì)導(dǎo)致匹配結(jié)果的偏差。但是通過向量化處理，我們將語料內(nèi)容轉(zhuǎn)化為數(shù)值向量，這些向量能夠更準(zhǔn)確地反映語料內(nèi)容的語義信息，而不受修飾詞的影響。

2.3大語言模型接入

在用戶咨詢的過程中，將對(duì)話內(nèi)容也進(jìn)行向量化處理，可以用于與結(jié)果進(jìn)行匹配。通過這種方式，我們可以根據(jù)向量的相似度來找到與用戶咨詢內(nèi)容最相關(guān)的語料內(nèi)容。

通常情況下，用戶在輸入咨詢內(nèi)容時(shí)，可能只會(huì)描述很少的語言，但這些描述往往是重點(diǎn)突出的。因此，通過向量化處理，可以將這些關(guān)鍵信息編碼為向量表示。向量化的過程可以使用各種技術(shù)，將文本轉(zhuǎn)化為數(shù)值向量。這樣一來，我們可以通過計(jì)算向量之間的相似度，找到與用戶輸入內(nèi)容最相似的語料內(nèi)容。

當(dāng)找到匹配結(jié)果后，可以根據(jù)向量分值對(duì)結(jié)果進(jìn)行排序處理。向量分值可以反映匹配的程度，較高的分值表示匹配度較好。通過對(duì)結(jié)果進(jìn)行排序，我們可以將匹配度較高的語料內(nèi)容排在前面，提供給用戶更相關(guān)的咨詢答案。

一旦確定了匹配結(jié)果，就可以將這些語料召回，將內(nèi)容送入大語言模型提供的接口進(jìn)行組裝。模型會(huì)根據(jù)輸入內(nèi)容生成連貫、自然的回答。通過將匹配結(jié)果與大語言模型結(jié)合，我們可以將相關(guān)的語料內(nèi)容轉(zhuǎn)化為更具體、詳細(xì)的回答，提供給用戶更專業(yè)、準(zhǔn)確的咨詢服務(wù)。

2.4前端應(yīng)用部署

在選擇前端環(huán)境時(shí)，我們考慮了原有的兩套系統(tǒng)以及其他綜合性平臺(tái)，但沒有找到合適的入口和理由來讓用戶接觸和使用這些系統(tǒng)。最后，我們決定將系統(tǒng)結(jié)合到IDE用戶查詢平臺(tái)中。對(duì)于使用SQL查詢信息的用戶，他們經(jīng)常需要了解指標(biāo)的含義、用法以及表的元數(shù)據(jù)信息。這些用戶主要分布在數(shù)分、產(chǎn)品、運(yùn)營、算法等不同的小組。他們是目前最符合我們的使用場景的切入點(diǎn)。

通過將系統(tǒng)整合到IDE用戶查詢平臺(tái)中，我們可以為這些用戶提供一個(gè)統(tǒng)一的界面和入口，使他們可以方便地查詢和了解指標(biāo)的相關(guān)信息。用戶可以在查詢平臺(tái)中輸入SQL語句，并獲取到與指標(biāo)相關(guān)的詳細(xì)信息，包括指標(biāo)的定義、計(jì)算方法、使用示例以及表的元數(shù)據(jù)信息等。這樣一來，用戶可以在一個(gè)平臺(tái)上完成查詢和了解指標(biāo)的操作，無需切換多個(gè)系統(tǒng)。同時(shí)，用戶可以通過查詢平臺(tái)獲取到準(zhǔn)確、全面的指標(biāo)信息，幫助他們更好地理解和使用指標(biāo)，提高工作效率。

總體框架圖：

3.應(yīng)用效果

通過大語言模型在數(shù)倉治理中元數(shù)據(jù)和指標(biāo)檢索方面的落地實(shí)踐，我們解決了以下幾個(gè)問題：

提高檢索效率：傳統(tǒng)的元數(shù)據(jù)和指標(biāo)檢索方法往往需要復(fù)雜的查詢語句和繁瑣的操作，效率低下。而利用大語言模型技術(shù)，用戶只需輸入自然語言的查詢問題，系統(tǒng)可以快速地返回相應(yīng)的結(jié)果，大大提高了檢索效率。

提升檢索準(zhǔn)確性：傳統(tǒng)的元數(shù)據(jù)和指標(biāo)檢索方法容易受到查詢語句表達(dá)不準(zhǔn)確的影響，導(dǎo)致返回的結(jié)果不準(zhǔn)確。而大語言模型具有強(qiáng)大的語義理解和推理能力，可以更好地理解用戶的查詢意圖，提高檢索結(jié)果的準(zhǔn)確性。

提供更好的用戶體驗(yàn)：傳統(tǒng)的元數(shù)據(jù)和指標(biāo)檢索方法需要用戶具備一定的技術(shù)背景和操作經(jīng)驗(yàn)，對(duì)于非專業(yè)人士來說較為困難。而利用大語言模型技術(shù)，用戶只需輸入自然語言的查詢問題，無需了解復(fù)雜的查詢語法和操作步驟，大大提高了用戶的使用體驗(yàn)。總結(jié)：通過大語言模型的技術(shù)支持，我們可以實(shí)現(xiàn)更智能、便捷的元數(shù)據(jù)和指標(biāo)管理。它能夠理解自然語言輸入，并根據(jù)用戶需求提供相關(guān)的元數(shù)據(jù)和指標(biāo)信息。這種智能化的能力使得數(shù)據(jù)操作和數(shù)據(jù)分析更加高效和準(zhǔn)確。通過大語言模型的支持，我們可以更好地管理和利用數(shù)據(jù)倉庫中的元數(shù)據(jù)和指標(biāo)，提升數(shù)據(jù)治理和數(shù)據(jù)分析的水平。希望本文對(duì)您有所幫助，謝謝！