2024
-
01
-
10
向量數(shù)據庫的崛起向量數(shù)據庫最初是為(wèi)了解決大(dà)規模數(shù)據的相似性搜索和(hé)推薦問題而設計(jì)的,比較著名的有(yǒu)Annoy和(hé)FAISS等。随着互聯網時(shí)代海量數(shù)據的爆炸式增長,傳統搜索引擎在處理(lǐ)這些(xiē)數(shù)據時(shí)顯得(de)力不從心,而向量數(shù)據庫憑借其高(gāo)效的數(shù)據表達和(hé)檢索能力迅速成為(wèi)推薦系統的核心引擎。在大(dà)語言模型興起之前,向量數(shù)據庫已經被廣泛應用于搜索和(hé)推薦場(chǎng)景。它通(tōng)過将數(shù)據向量化,實現對語義級别的理(lǐ)解和(hé)匹配。然而,随着ChatGPT等大(dà)型模型的出現,人(rén)工智能産業正在經曆重塑,同時(shí)也凸顯了向量數(shù)據庫的優勢。大(dà)語言模型雖然在知識廣度方面具有(yǒu)優勢,但(dàn)對于領域知識卻有(yǒu)一定的局限性。而集成向量數(shù)據庫的語義搜索和(hé)分析能力,則能夠彌補這一缺陷,提升大(dà)語言模型的知識應用能力。當前,向量數(shù)據庫正在加速演進,有(yǒu)望使大(dà)語言模型在實際場(chǎng)景中發揮更大(dà)的價值。圖1 向量數(shù)據庫應用流程圖源:https://www.pinecone.io/learn/vector-database/向量數(shù)據庫的定義向量數(shù)據庫是一類專門(mén)存儲向量數(shù)據的數(shù)據庫。所謂的向量數(shù)據是由數(shù)值向量組成的數(shù)據集合,每個(gè)向量由一組有(yǒu)序的數(shù)值組成,這些(xiē)數(shù)值可(kě)以是實數(shù)或離散值。可(kě)以将其簡單地理(lǐ)解為(wèi)一個(gè)矩陣,這些(xiē)向量通(tōng)常來(lái)源于各類數(shù)據的轉換,如語音(yīn)、文字、圖片等。在向量數(shù)據庫中,主要存儲的是向量數(shù)據。然而,具體(tǐ)包含哪些(xiē)數(shù)據類型還(hái)取決于數(shù)據庫的設計(jì)。例如,Milvus不僅僅存儲向量數(shù)據,還(hái)可(kě)以存儲大(dà)部分關系型數(shù)據庫中的數(shù)據內(nèi)容。在人(rén)工智能領域,隻有(yǒu)将現實世界中的事物轉化為(wèi)向量,才能進行(xíng)計(jì)算(suàn),一切皆可(kě)向量化。舉個(gè)例子,“我愛(ài)學習”可(kě)以被轉化為(wèi)向量表示:我:[0.2,0.35,0.26,...,0.36,0.38,0.53]愛(ài):[0.7,0.935,0.526,...,0.346,0.238,0.653]學習:[0.42,0.635,0.226,...,0.436,0.838,0.0...