作者:黃楠
向量數據庫可實現 80% 非結構化數據能力的覆蓋。
在保險行業這個海量數據的“聚居地”上,數據庫應用已久。
近年來,保司數據化轉型提速,各類文本、音視頻的憑證票證核保及跑批需求不斷增加,許多機構便將數據庫引入至業務流程中。
但是,隨著數據庫深入保司業務,一個真實的情況是:傳統數據庫只能處理機器容易處理的、如字符串等結構化數據,以點查和范圍查找的形式進行匹配,但面對許多長尾場景下格式繁復、無法統一處理的非結構化數據時,則無能為力,只能繼續投入大量人力,進行手動的數據錄入和人工檢驗。
一位從業人員告訴 AI 科技評論,目前在保險公司內人為處理的事情居多,其業務內容中人為比例可達到 90% ,AI 只支持 10% 的信息存取、數據流轉。
受技術瓶頸的掣肘,沒有一套通用的方法論得以解決傳統數據庫的存儲、檢索和分析難題。數據局限的桎梏不僅發生在保險公司里,各行各業均受其困擾已久。直至大模型+向量數據庫的出現。
數月來,大模型風口正盛,向量數據庫可以為大模型解決數據更新、知識圖譜構建、消除幻覺等問題,使其在短短時間內,一躍成為最受關注的領域之一。向量數據庫類產品數量激增,當中既有創業公司,大廠更是戰局中主要的競爭對手。
今年 7 月,騰訊云發布了 AI 原生向量數據庫 Tencent Cloud VectorDB,該產品在 11 月 1 日正式全量開放公測,同時在性能上也實現了大幅提升。
向量數據庫之于大模型,是實現降本增效重要的基礎設施。數據顯示,企業在使用向量數據庫后,可實現 80% 非結構化數據能力的覆蓋。
大模型的角斗場上,一個行業共識是,誰能夠更好地利用數據,把數據沉淀到工程化中里,更快讓數據接入到大模型和整個 AI 體系之中,誰就有可能走在最前列。而選擇一個對的服務伙伴,至關重要。
1大模型的“數據”局限
眾所周知,數據在 MaaS 時代很重要,市場的火熱映射到具體的企業行為上,表現為大批量垂直模型的推出、數據庫企業融資數量增加、數據庫使用量陡然增長等。
但在企業落地的過程中,大模型所面臨的難題依舊沒有解決。
經過近半年的觀察,數據局限對企業做大模型帶來的影響,可歸結為以下三點:
首先是對數據的管理和運維。如上所述,隨著文本、圖片、視頻等多模態的、非結構化數據的使用需求增加,許多企業所產出的非結構化數據量級可高達 80%,如果選擇以預訓練的方式將數據“喂”給模型,與之而來的則是難以承載的高成本。
身為明星創業公司的百川智能,在模型訓練和調試時就曾遇見過類似問題。
未使用向量數據庫之前,百川智能一直使用的是開源方案,比如以向量索引為內核,相當于在訓練時給模型準備一個 library 級別或算法級別的知識庫,這些知識庫使用簡單,采用分布式系統的方式,具有擴展性。但其缺點也很直觀,隨著數量增長到一定規模時,這種分布式存儲的方式會很快遇到瓶頸。
不僅如此,由于市面上缺少成熟的管理工具,數據格式該怎么組織、數據的更新頻率如何安排、新舊數據的更迭等等,百川智能都需要額外交給工程師去做,大大增加了人員成本。
第二點,雖然大模型支持的 token 數量在持續增加,具備了“短暫記憶”的能力,但“一本正經地胡說八道”的問題仍無法解決,當中不乏有敏感內容的出現,稍不注意,便可能帶來嚴重的影響。因此,支撐模型訓練的數據不僅要數量多,質量也必須足夠高。
比如大模型和教育行業的結合,雖然模型可以完成一定的推理和解題,但進入實際應用中,好未來就發現了,大模型在面對數學問題時,其表現仍然不夠好。要想解決這個問題,必須基于龐大的、高質量的數據庫,像教程題庫、數學錯題集等,在此之上嘗試啟發式內容生成。
第三,如何保障企業數據的安全性,數據在空間和時間上會有很大的限制。
一方面,企業很難把自己具有核心競爭力的數據放到大模型中去訓練;有行業人士就曾向 AI 科技評論指出,許多應用型公司并不愿意將自身微調的模型貢獻到公有版本里、與其他人分享,而是傾向于訓練自己的大模型,而后進行本地私有化部署。這個過程中,企業要解決的主要難點是,如何將私有化業務數據跟大模型結合。
銷售易是很早就在智能 CRM 業務中引入了大模型,例如提供相似客戶推薦、做問答機器人等服務。但客戶在使用過程時卻發現,大模型所推薦的客戶類型經常會出現匹配度不高的情況,向它提問與企業相關的的系統功能問題時,大模型也回答不出來。
另一方面,企業的業務數據變化速度快,且實時性強,因此私有化部署后的大模型、在數據層上也很難做到秒、天級別的更新。
當上述諸多問題橫亙于企業和大模型落地之間,學術界和工業界也提出了兩種解決方案。
一是采用 Fine-tuning 的方式迭代演進,讓大模型學到更多的知識;二是通過 Vector search 的方法,把最新的私域知識存在向量數據庫中,需要時在向量數據庫中做基于語義的向量檢索,這兩種方法都可以為大模型提供更加精準的答案。
但是從成本方面來看,行業人士指出,向量數據庫的成本僅為 Fine-tuning 的千分之一。向量數據庫通過把數據向量化,進行存儲和查詢可以有效解決大模型預訓練成本高、沒有“長期記憶”、幻覺、知識更新不及時等問題。
因此,憑借其優勢,向量數據庫也被視為了加速大模型落地行業場景的關鍵突破口。
2向量數據庫的大模型之路
自大模型火爆以來,原已沉寂多年的向量數據庫再次受到企業和資本市場的高度關注,據公開數據顯示,2023 年 4 月以來,以向量數據庫為代表的 AI 投資領域呈增長趨勢,包括 Pinecone、Chroma 和 Weviate 等多家向量數據庫初創企業均拿到了上億級美元融資。
為了最大程度上幫助企業應對數據局限問題,更好地將大模型能力釋放到行業和產業中,騰訊云走在國內云廠商前列,于今年 7 月便正式上線了向量數據庫 Tencent Cloud VectorDB,并在 11 月 1 日全量開放公測。
這也體現了騰訊云在大模型時代下的視角:大模型技術的創新只是第一步,如向量數據庫這類數據存儲、檢索、分析等基礎設施的搭建也同等重要,騰訊不僅提供直接的大模型服務,更重要的是向企業遞“鏟子”、提供有效趁手的平臺工具。
市面上不缺乏好用的向量數據庫,那么,騰訊云相比于其他廠商的產品有什么不一樣的地方呢?
首先在架構上,騰訊云就采用了 AI 原生的開發架構,從接入層、計算層、存儲層提供給全面 AI 化的解決方案,形成一套完整的端到端、一站式服務技術棧,讓不同階段、不同需求的用戶,都能在騰訊云向量數據庫里找到對應可用的 AI 能力。
騰訊云全面 AI 化解決方案
比如在接入層上,騰訊云向量數據庫支持自然語言文本的數據,采用“標量+向量”的查詢方式,可支持全內存索引;計算層,AI 原生的開發范式能實現全量數據 AI 計算,一站解決企業搭建私域知識庫時數據切分等難題。
這些能力不僅可以讓交互更自然,同時在計算結果、效率、成本等方面,也能得到進一步的優化。
在百川智能的工程師們看來,向量數據庫帶來最直觀的改變是,數據分片、導入導出等工作效率得到了極大的提升。面對每天約 2 億的數據量,以往使用的單線程序處理速度有限,但加入了向量數據庫后,加上百川智能所使用的RAG 框架,可以有效解決私有數據、實時數據,同時在數據齊備的情況下,還能消除部分由數據帶來的幻覺問題。
數據顯示,將騰訊云向量數據庫用于大模型預訓練數據的分類、去重和清洗,相比傳統方式可以實現 10 倍效率的提升,如果將向量數據庫作為外部知識庫用于模型推理,則可以將成本降低 2 - 4 個數量級。
以前企業將現有數據接入一個大模型需要花 1 個月左右時間,使用騰訊云向量數據庫后,最短 3 天時間即可完成,極大降低了企業的接入成本。
第二是集成了 Embedding 功能,企業用戶無需關注向量生成過程,使用起來更簡單。
騰訊云向量數據庫 AI 套件
與騰訊云合作以前,好未來曾使用過一些小型的基于內存的向量數據庫,雖然也具備了語義結合的能力,但無論是產品的性能還是維護等方面,使用效果不佳。
而在騰訊云向量數據庫上,通過語音召回加語義 Embedding 功能,這種采用語義結合進行檢索的方式,讓模型能力得到了提升,召回內容更多、內容更精準、召回速度更快等等,從而提供更好的用戶體驗。
例如同樣是搜索題庫中的“第一單元”,文本召回必須準確地提供“第一單元”這一提示詞,但借助向量數據庫的相似性檢索,語義檢索就可以將“Unit1”等近似語義的內容也進行召回。
第三,自研分布式向量數據庫核心引擎,服務更穩定可靠、高可用。
AI 科技評論了解到,騰訊云向量數據庫所用的核心引擎,是其 2019 年于內部上線使用的 Olama,經過 4 年的探索和迭代,Olama 實現了大規模升級,包括集成了騰訊在內的業界優秀的向量算法、降低 Olama 成本、提升穩定性等等,從而更好地適配大語言模型應用。
截至今年 7 月份,Olama 已覆蓋騰訊 30 多個業務、100 多個場景,日均調用量超過 1200 億,調用成功率為 100%,搜索成功率為 99.995%。
可以看到,面對企業在大模型落地中的普遍難題,騰訊云向量數據庫力圖在每個環節提供便捷、有效的解決方案,突破數據的局限,加速大模型+向量數據庫的使用,以解決企業實實在在的痛點和難題。
3應用是風口
受限于研發成本和開發難度,過去十年,全球僅有 1% 開發者專注于 AI 領域的研發工作。而到了今天,以大模型為能力基座,一個 AI 應用開發的難度縮短至只需兩三個工程師、一個周末時間變成完成。
其中,向量數據庫也從以搜索、廣告、推薦為主要服務領域,隨著 AI 的大規模發展,開始深入千行百業中去,與 C 端用戶鏈接也更加緊密。
舉一個銷售易與騰訊云的合作案例。
作為一家企業級 CRM 服務商,每天有數萬次用戶問答在智能客戶場景中發生。在以前,傳統的 NLP 客服機器人智能做一問一答,這種基于分詞語法關鍵字的檢索方式,容易出現搜索答案不精準的情況,用戶使用感不佳,慢慢地也失去了提問的積極性。
比如客戶希望在業務分析中檢索調用出多個數據報表,想要在成千上萬個報表中找到指定數據,對模型的信息抽取能力有很高的需求,直接關系到業務的分析效率。
但在同騰訊云合作后,銷售易可以先將報表以 Embedding 的形式存入自有向量數據庫中,當用戶端發生自然語言問詢時,這個客服機器人就可以智能化分析問詢者的意圖,并在向量數據庫內去檢索相關的知識文檔,從而得出一個更接近于人的思考方式的回答。
這樣的客服機器人不僅可以支持多輪對話,更關鍵的是,它還支持了檢索模糊的相關性,不需要維護大量同義詞、詞典或是相似的問法,類似相關性的語言可以交給大模型+向量數據庫來解決。
而在潛在客戶推薦的場景中,騰訊云向量數據庫帶來的影響也十分明顯。
過去,銷售易主要是依據客戶的特征字段,在結構化信息里檢索有相關特征的企業信息,這種檢索對于內部的銷售人員要求很高,必須準確地檢索近上百個字段,如企業介紹等描述性內容很難被檢測,久而久之,員工經常會出現關鍵字匹配度不高等問題。
而使用了向量數據庫后,基于相關性的特征來檢索是從文本進行描述,當銷售人員想要檢索某個行業、某種產品或是某種業務需求的客戶時,可以借助文本進行自然語言模糊的相關性檢索,使用簡單,檢索的結果也更真實、準確,智能化效果明顯,大幅提升了員工從事客戶推薦業務的難度。
騰訊云超級底座
可以看到,向量數據庫之于大模型應用落地、之于 AI 技術發展的意義已經逐漸顯現。
騰訊云數據庫副總經理羅云就曾指出,數據、向量數據庫、大模型三者怎么能更好地服務全行業是首要問題,“只有向量數據庫變得更 AI 化,數據、向量數據庫、大模型三者才能形成一個飛輪效應,彼此之間相互拉動,相互促進,這是我們對向量數據庫未來發展的判斷。”
這也是騰訊云在當下推出向量數據庫 Tencent Cloud VectorDB 的原因所在。
數據顯示,自 7 月份正式發布以來,騰訊云向量數據庫的日請求量達 1600 億次,服務騰訊集團內部 40 多個業務,外部客戶數更多達數百家,其中就包括了上述提到的百川智能、好未來、銷售易,幫助教育、SaaS、工具、游戲等多行業客戶快速進行 AI 方向的探索。
大模型進一步推動了對向量數據庫的需求。業界共識是,所有產品應用都值得用 AI 重做一次,在這個背景下,企業將會越來越重視如何將其跟 AI、大模型的能力結合起來。而騰訊云向量數據庫在提出之時,就已經看到了企業在應用落地中的痛點,用向量數據庫在技術“大腦”中構建起一個健康、且旺盛的“海馬體”,為企業邁進大模型時代提供堅實的基座。
這次 Techo Day 技術開放日將資料和課件都整合成了一份《騰訊云工具指南》,這份資料技術含量很高,可以幫助學習了解向量數據庫的技術優勢和價值應用。
編輯:黃飛
?
評論