衡阳派盒市场营销有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于人工智能的互聯網群體知識圖譜構造方法

人工智能君 ? 來源:人工智能君 ? 作者:人工智能君 ? 2022-08-06 15:05 ? 次閱讀

摘要

知識圖譜是一種基于圖的結構化知識表示方式。如何構造大規模高質量的知識圖譜, 是研究和實踐面臨的一個重要問題。提出了一種基于互聯網群體智能的協同式知識圖譜構造方法。該方法的核心是一個持續運行的回路, 其中包含自由探索、自動融合、主動反饋3個活動。在自由探索活動中, 每一參與者獨立進行知識圖譜的構造活動。在自動融合活動中, 所有參與者的個體知識圖譜被實時融合在一起, 形成群體知識圖譜。在主動反饋活動中, 支撐環境根據每一參與者的個體知識圖譜和當前時刻的群體知識圖譜, 向該參與者推薦特定的知識圖譜片段信息, 以提高其構造知識圖譜的效率。針對這3個活動, 建立了一種層次式的個體知識圖譜表示機制, 提出了一種以最小化廣義熵為目標的個體知識圖譜融合算法, 設計了情境無關和情境相關兩種類型的信息反饋方式。為了驗證所提方法及關鍵技術的可行性, 設計并實施了3種類型的實驗: 僅包含結構信息的仿真圖融合實驗、大規模真實知識圖譜的融合實驗, 以及真實知識圖譜的協同式構造實驗。實驗結果表明, 該知識圖譜融合算法能夠有效利用知識圖譜的結構信息以及節點的語義信息, 形成高質量的知識圖譜融合方案; 基于“探索-融合-反饋”回路的協同方法能夠提升群體構造知識圖譜的規模和個體構造知識圖譜的效率, 并展現出較好的群體規??蓴U展性。

知識圖譜(knowledge graph)是一種基于圖(graph)的結構化知識表示方式。 一個圖通常由一組節點以及節點間的關系構成。 采用圖的方式對知識進行表示, 反映了一種以關系為核心的知識觀, 即知識蘊含在關系中。

人類文明發展到目前的階段, 已經累積形成了海量的知識資源。 其中, 相當部分的知識以自然語言這種非結構化的方式存在。 隨著人類社會的持續發展, 人類知識的規模和復雜度也在不斷增長。 持續增長的非結構化知識資源對知識的管理、傳播與再生產的負面影響日益顯著。 通過將知識表示為一組節點及其之間的關系, 知識圖譜能夠幫助人類和計算機更好地管理、理解與使用海量的知識資源, 對于促進人類文明的持續發展具有重要意義。

設想一項知識圖譜構造任務: 建立《紅樓夢》一書中所有人物之間的關系圖。 粗略一想, 大概有如下幾種方式去完成這項任務。

一個人手工完成。 找到一本《紅樓夢》圖書, 逐頁閱讀, 提取其中的人物及人物之間的關系信息。 可以想象, 即使是一個對紅樓夢非常了解的人, 也需要耗費數月甚至更長的時間去完成這一任務。 即便如此, 也不能保證結果的正確性和完整性。

基于軟件算法的自動構造。 采用某種自然語言處理算法, 自動從《紅樓夢》的文字信息中抽取出人物關系信息。 這是一個看起來非常完美的解決方案。 但其有效性依賴于一個基本假設, 即自然語言處理算法在該問題上具備了相當于(或超過)人類個體的自然語言理解及分析能力。 目前的技術進展還不能滿足這一假設。

基于軟件算法的自動構造+人工修正。 這種方式將上述兩種方式結合起來, 能夠進一步提高所構造的知識圖譜的質量。

幾個好友一起手工完成。 幾個好友分別閱讀《紅樓夢》的不同章節, 提取其中的人物關系信息。 與單人方式相比, 采用多人方式去完成這項任務, 在滿足如下條件的情況下會有更高的效率: 一, 這幾個好友對紅樓夢有一定程度的了解; 二, 這幾個好友愿意花費一段時間全身心地投入到這項任務中; 三, 按照章節的方式去分工, 不會導致人物關系信息的大量丟失; 四, 這幾個好友具有良好的協同能力。

在互聯網環境下, 還有另外一種方式去完成這項任務, 即采用協同式眾包的方式。 這種方式大概可以理解為是“幾個好友一起手工完成”在互聯網技術支持下的規模擴展版本。 在互聯網技術的支持下, 任何個體都可以自由加入到這項任務中, 在其中貢獻自己所知道的紅樓夢人物關系信息片段, 或對其他人創建的信息片段的正確性/準確性進行判斷; 然后, 通過某種方式將所有參與者提交的信息片段拼接在一起, 形成完整的紅樓夢人物關系圖。 本文關注的也正是這樣一種知識圖譜構造方式。

需要指出的是, 這種協同式眾包與目前主流的兩種眾包實踐(即競爭性眾包、微任務眾包)具有一定的差異性。 首先, 協同式眾包不是競爭性眾包。 所謂競爭性眾包, 是指由若干團隊各自獨立地完成一項任務, 然后通過某種方式確定完成質量最好的一個團隊, 向其支付酬金; 其他團隊的工作結果不會被采納, 也不會獲得任何酬金。 而在協同式眾包中, 協同的特點更顯著一些, 競爭的特點則相對微弱。 其次, 協同式眾包也不完全是微任務眾包。 所謂微任務眾包, 是指眾包任務本身就是由一組離散的微任務組成。 例如, 對于“為一個圖片庫中的所有圖片添加文字標注”這一眾包任務, 其實際上是由一組“為一個特定圖片添加文字標注”的微任務所組成; 完成了所有的微任務, 就相當于完成了這一眾包任務。 在協同式眾包中, 可能并不存在一組事先定義的子問題, 而是由參與者自發地識別出當前眾包任務的子問題并提交相應的解決方案信息。 另外, 與微任務眾包相比, 協同式眾包還增加了信息拼接的內容, 即需要采用某種方式把不同個體提交的片段信息拼接在一起。 相比較而言, 協同式眾包是一種更關注協同、更為智能的眾包。 在本文中, 我們將這種類型的眾包定位為一種互聯網群體智能, 進而將這種構造知識圖譜的方式稱為“基于互聯網群體智能的知識圖譜構造”。

抽象而言, 本文探索采用基于互聯網人類群體智能的方式來構造知識圖譜并促使其持續演化, 即通過人類個體基于互聯網的大規模群體協同, 來構造和演化知識圖譜。 在該方式中, 每一人類個體都可以自由加入到知識圖譜的構造活動中, 在其中貢獻自己的力量, 形成某種形式的大規模群體協同。 該方式的可行性體現在3個方面。 (1) 在互聯網環境下, 涌現出了面向眾多復雜問題求解的群體智能現象, 為基于群體智能的知識圖譜構造和演化提供了參考性示例。 (2) 人類個體, 在某種意義上, 是一個天然的高質量自然語言分析程序。 (3) 知識圖譜具有的圖結構, 使得知識圖譜的構造問題具有良好的可分解性, 使得每一參與者都可以低成本地參與到知識圖譜的構造活動中: 每一參與者可以把自己知道的信息轉化為相應的知識圖譜片段; 然后自動化算法對個體片段信息進行拼接, 形成更為完整的知識圖譜。 這種基于群體智能的知識圖譜構造方式, 其核心技術難點在于如何對大規模參與者群體提交的海量信息片段進行有效的融合與反饋, 使得在群體層面上形成一致、準確的高質量知識圖譜。

具體而言, 本文提出了一種基于群體智能的知識圖譜構造方法。 該方法的核心是一個持續運行的回路(如圖 1所示), 稱為“探索-融合-反饋”[1]回路。 該回路包含了3個并行的活動: 自由探索、自動融合、主動反饋。 其中, 第1個活動由人類參與者實施, 后兩個活動由支撐環境自動實施。 在自由探索活動中, 每一參與知識圖譜構造的人類個體獨立進行知識圖譜的構造活動, 不與其他參與者發生直接的交互。 在任一時刻, 對于每一參與者而言, 其探索活動的輸出是一個個體知識圖譜。 在自動融合活動中, 支撐環境實時地將所有參與者當前各自的探索結果融合在一起, 形成當前時刻的群體知識圖譜。 在主動反饋活動中, 支撐環境根據每一參與者當前的個體知識圖譜以及當前的群體知識圖譜, 向該參與者推薦特定的知識圖譜片段信息, 以提高其構造知識圖譜的效率。 每一參與者自主決定是否接受、拒絕或忽略支撐環境提供的反饋信息。 參與者對反饋信息的響應會被記錄下來, 用于評估個體的知識偏好以及群體對特定信息的接受程度。

圖 1 基于群體智能的知識圖譜構造框

為了驗證所提方法及關鍵技術的可行性, 我們設計并實施了3種類型的實驗: 僅包含結構信息的仿真圖融合實驗、大規模真實知識圖譜的融合實驗以及真實知識圖譜的協同式構造實驗。 第1類實驗的目的是為了觀察本文提出的知識圖譜融合算法對圖結構信息的利用能力; 第2類實驗的目的是為了驗證算法對圖結構信息和節點語義信息的融合能力; 第3類實驗的目的是為了考察本文提出的協同式知識圖譜構造方法的可行性。

為了實施第3類實驗, 我們開發了一個支持“探索-融合-反饋”回路的多人在線知識圖譜構造環境, 并分別在1、2、4、8人規模的參與者群體中進行了真實的知識圖譜構造實驗。 實驗結果表明: (1) 本文提出的知識圖譜融合算法能夠有效利用知識圖譜的結構信息以及節點的語義信息, 形成高質量的知識圖譜融合方案(在兩個真實知識圖譜融合數據集上, 相比較目前最好的知識圖譜融合算法, 本文算法在Hit@1指標上分別實現了2.24%和11.4%的提升); (2) 基于“探索-融合-反饋”回路的協同方法能夠提升群體構造知識圖譜的規模和個體構造知識圖譜的效率, 并展現出較好的群體規模可擴展性(在相同時間內, 相比較單人獨立構造知識圖譜, 8人協同構造形成的群體知識圖譜的規模提升了約11倍, 且參與者的單人構造效率提升了約1.5倍)。

本文的主要貢獻包含如下4點: 一種基于“探索-融合-反饋”回路的協同式知識圖譜構造方法; 一種層次式的個體知識圖譜表示機制; 一種以最小化廣義熵為目標的迭代式個體知識圖譜融合算法; 一個支持“探索-融合-反饋”回路的多人在線知識圖譜構造環境。

本文第1節對知識圖譜和群體智能兩方面的相關研究工作進行簡要總結。 第2節提出基于“探索-融合-反饋”回路的協同式知識圖譜構造方法, 并對其中的關鍵技術進行詳細闡述。 第3節通過3類實驗對本文所提方法和關鍵技術的可行性進行驗證。 第4節總結全文, 并對下一步研究工作進行簡要說明。

1 相關工作

1.1知識圖譜的構建

知識圖譜最早可以追溯到20世紀60年代的語義網絡(semantic network)以及20世紀70年代的專家系統(expert system)。 在這一時期, 領域專家是知識的主要來源, 知識圖譜主要通過單一個體或小規模群體手工構造的方式完成。 2000年左右, Tim Berners-Lee提出了語義網(semantic Web)和關聯數據(linked data)的概念[2], 其目是為互聯網中存在的海量數據信息提供一種標準的描述框架, 從而促成大規模知識的結構化表示、互聯與共享。 2012年, 谷歌正式提出了知識圖譜(knowledge graph)的概念, 將其用于語義化搜索, 展現出泛在的應用前景。 在此之后, 知識圖譜得到了工業界和學術界的廣泛關注。

知識圖譜在實踐和研究中的一個重要問題是: 如何構造大規模高質量的知識圖譜。 目前, 知識圖譜的構造方式大致可分為兩類: 人工構造和自動化構造。

1.1.1 人工構建

早期的知識圖譜主要依靠單一個體或小規模群體進行人工構造。 這一時期的典型工作包括Cyc和WordNet這兩個知識圖譜構造項目。 Cyc通過手工構造的方式將專家知識表示為一階邏輯形式[3]。 WordNet則主要依靠語言學專家手工輸入詞語之間的語義關系[4]。 隨著互聯網的普及與發展, 眾包成為一種新的知識圖譜構造方式。 例如, Freebase項目采用類似維基百科的方式將知識圖譜的創建、修改、查看權限對外開放, 使得互聯網上的任一用戶都可以自由創建和編輯知識圖譜[5]。 DBpedia項目將知識圖譜構造任務進行微任務化, 由大規模志愿者群體手工完成對維基百科中自然語言知識的結構化表示[6]。

通過人工方式構造形成的知識圖譜具有較高的準確性、可用性和可信性。 但是, 受到構造者個體能力的限制, 這種方式存在知識覆蓋面窄, 更新緩慢等問題。 雖然互聯網眾包大大提高了知識圖譜的構造規模, 但這種方式仍然存在對一個小規模核心專家群體的強依賴。 例如, 不同用戶提交的數據之間存在的不一致性, 仍然需要由社區核心成員進行裁決[7, 8]。

1.1.2 自動化構造

知識圖譜的自動化構造算法大致可以分為基于規則和基于統計兩種類別。 在基于規則的構造算法中, 需要由領域專家事先給定適用于特定數據集的知識抽取、融合以及補全規則[9?12], 然后算法將這些規則應用到特定的數據集上, 形成知識圖譜。 基于統計的構造算法則自動識別特定領域數據源的統計特征, 并自動完成知識圖譜的構造[13?16]。 目前, 主流的基于統計的自動化構造算法普遍采用監督學習的方式, 依賴于事先人工標注的大規模訓練數據集, 且針對不同的問題領域需要建立不同的訓練數據集。 針對開放領域存在的樣本數據稀疏問題, 也有學者探索采用弱監督學習的方式進行知識圖譜的自動化構造[17, 18]。

自動化算法在一定程度上提高了知識圖譜的構造效率, 降低了構造成本, 但仍然存在兩個基本問題。 (1) 自動化算法, 特別是采用監督學習的知識圖譜構造算法, 嚴重依賴于訓練數據集的規模和質量。 (2) 在可以預見的將來, 自動化算法所具有的對一般性非結構化知識的理解能力還遠遠達不到人類個體的能力, 這在很大程度上限制了自動化算法的應用范圍。 在谷歌搜索引擎使用的知識圖譜中, 就大量包含了Freebase項目中由人工方式構造的知識譜圖信息[19, 20]。 一些研究工作也表明, 在自動化構造知識圖譜的過程中, 加入人類的反饋信息, 能夠明顯提升知識圖譜的構造質量[21?23]。

1.2 知識圖譜的表示

早期對知識表示的研究, 主要關注于建立形式化的邏輯語義表示機制, 從而支持對知識的有效推理。 20世紀60年代Collins等人[24]提出了語義網絡(semantic network)的概念, 試圖通過網絡結構表示實體之間的語義關系。 20世紀70年代興起的專家系統[25]提出了更為形式化的知識表示機制, 主要包括: 產生式表示法(production rule pepresentation), 通過IF-THEN的結構支持知識的推理; 框架表示語言(frame representation language), 通過“槽”描述對象可能存在的屬性和關聯; 一階邏輯(first-order logic), 支持量化和斷言的命題邏輯, 通過演算支持知識的推理。 1985年, Brachman等人[26]在KL-ONE系統中使用描述邏輯(description logic)對知識進行表示, 其主要包含公理集合和斷言集合兩部分。 描述邏輯是一階邏輯的一個可判定子集, 能夠支持對一致性(consistency)、可滿足性(satisfiability)、包含檢測subsumption)、實例檢測(instance checking)等性質的判斷。

隨著互聯網的發展, 知識表示的一個重要任務是為互聯網中存在的海量數據信息提供一種統一的描述框架, 從而促進大規模知識的結構化表示、互聯與共享。 與早期的知識表示相比, 現代知識圖譜(如Freebase、Yago、Wikidata等)均弱化了對邏輯語義表達的要求, 而強調大規模的事實型知識。 其中, 資源描述框架(resource description framework, RDF)是對事實型知識的一種主流表示方式, 即通過?主語, 謂語, 賓語?三元組的形式, 表示知識圖譜中實體及其之間的關系。 同時, 通過RDF范式(RDF schema)、元數據(metadata)等方式對RDF的語義信息進行輕量級的描述[2]。

隨著基于深度神經網絡的表示學習技術的發展, 知識的向量化表示成為一個重要研究方向。 通過知識嵌入(embedding), 將實體和關系的語義信息表示為對應的向量, 實體之間的關系可以通過向量計算得到, 減少了對圖的拓撲結構的依賴。 知識的向量化表示能夠有效地支持大規模知識圖譜中的知識查詢和知識補全。 Trans系列工作是知識向量化表示的典型代表。 該系列工作基于翻譯模型, 將知識圖譜中的實體轉換為詞向量, 并將實體間的關系視作兩個實體間的翻譯關系。 在TransE方法[13]中, 源實體通過關系被直接翻譯為目標實體, 所以當源/目標實體和關系確定時目標/源實體也是確定的。 這導致TransE方法無法支持一個實體擁有多個同類關系的情況, 與知識圖譜的實際表達能力不符。 Wang等人提出了TransH方法[27], 以應對實體間可能存在多種同類關系這一客觀情況。 TransH的核心思想是在翻譯過程中僅關心實體中與當前關系相關的維度信息, 且在翻譯前需要先將實體投影到關系所在的超平面。 Lin等人提出了TransR方法[28], 其核心思想是將實體和關系建模在兩個不同的空間中, 從而減小了空間維度, 能夠在一定程度上避免過擬合問題, 在實際數據中取得了更好的補全效果。

1.3 群體智能

1.3.1 自然界中的群體智能

長久以來, 科學家在很多社會性昆蟲群體中觀察到了一種看似矛盾的現象: 每一昆蟲個體不具有或僅具有有限的智能, 但一個昆蟲群體卻能在群體層次上展現出遠超個體的智能行為。 這種在昆蟲群體層次上展現出的智能行為, 被稱為群體智能(swarm/collective intelligence)[29, 30]。 從群體智能現象中可以觀察到群體智能具有的一個基本性質, 即對個體智能的放大效果。

研究者提出了環境激發效應[31]這一概念, 用于解釋社會性昆蟲的群體智能現象。 環境激發效應指代了一種發生在昆蟲個體之間以物理環境為媒介的間接交互機制。 基于這一概念, 昆蟲群體中的群體智能現象通過如下過程涌現形成: 昆蟲個體在物理環境中留下自己的蹤跡, 或對物理環境作出某種改變; 這些蹤跡或改變被群體中的個體感知到, 并刺激這些個體在環境中留下新的蹤跡或對環境作出進一步的改變; 因此, 個體行為之間實現了有效的協同, 并形成了一個正反饋回路, 進而在群體層次上表現出智能的自組織行為。 環境激發效應解釋了群體智能具有的另外一個基本性質: 群體協同規模的可擴展性。

物理空間中存在的群體智能現象指出了信息空間(cyberspace)中一種潛在的大規模人類群體協同方式[1]。 主要基于如下兩點原因: (1) 基于當前的研究, 群體智能蘊含了一種能夠有效放大個體智能的大規模群體協同機制。 (2) 與物理空間中大規模群體聚集的高成本相比, 在信息空間中更容易實現大規模人群的低成本聚集。 如果能夠將群體智能的基本原理成功應用到信息空間中的大規模人類群體上, 實現對人類個體智能的有效放大, 那么, 我們認為, 這將極大地釋放人類社會具有的潛在創造力, 促進人類文明的進一步發展[32]。

1.3.2

基于互聯網的人類群體智能

互聯網上已經出現了很多人類群體智能現象或系統, 為很多領域帶來了創新性的問題求解方法。 其中, 一些群體智能現象/系統是長期的社會-技術協同演化的產物, 另一些則是針對特定的問題精心設計的群智化求解系統。 例如, 在軟件工程領域, 經過數十年的演化, 開源軟件開發[33]已經成為一種重要的社會-技術現象; 在其中, 地理分布的大規模開發者群體通過互聯網進行有效的協同, 成功開發出數量眾多的高質量復雜軟件應用。 在單項選擇題求解領域, UNU系統[34]提供了一個有趣的多人在線環境, 可以支持一個大規模群體通過持續協同的方式確定一個單項選擇題的答案, 在很多實際場景中的預測和決策問題上表現出很高的準確率。 在生物學研究領域中, EteRNA系統[35]提供了一個多人在線游戲, 通過大規模非專業個體的持續協同求解復雜的蛋白質結構問題。

群體智能的研究還遠遠落后于實踐; 現有的研究成果幾乎沒有對人工群體智能系統的構造產生實質性的影響。 目前存在的較為成功的人工群體智能系統都不是在任何成熟的群體智能理論的指導下構造形成的。 主要原因在于, 目前的研究工作主要關注群體智能的解釋型理論(即如何解釋某一群體智能現象的形成機理), 而較少觸及群體智能的構造型理論(即如何可控地構造求解特定問題的群體智能系統)。 一個典型案例是環境激發效應。 這一概念在提出時是用于解釋社會性昆蟲群體中群體智能現象[31], 而且近年來也被廣泛用于分析和解釋人類群體智能現象[36, 37]。 我們認為, 環境激發效應提供了一種針對群體智能的解釋性模型, 能夠對已經存在的群體智能現象進行有效的事后分析。 但是, 這一概念能夠在何種程度上有效指導一個人工群體智能系統的構造, 仍然需要進一步的觀察和確認。

2.方法

本節介紹一種基于互聯網群體智能的知識圖譜構造方法。 該方法的核心是一個持續運行的回路, 包含3個并行的活動: 自由探索、自動融合、主動反饋。 本節分別對這3個活動及其中的基本概念和關鍵技術進行說明。

2.1 自由探索

在自由探索活動中, 每一參與知識圖譜構造的人類個體獨立進行知識圖譜的構造活動, 不與其他參與者發生直接的交互。 在任一時刻, 對于每一參與者而言, 其探索活動的輸出是一個個體知識圖譜。

2.1.1 個體知識圖譜

個體知識圖譜的表示需要考慮兩個方面的因素。 一方面, 所采用的表示機制應該具備有效的抽象性和良好的可擴展性, 從而支持對不同領域中存在的多樣性知識片段進行有效的建模。 另一方面, 這種表示機制應該能夠支持算法有效識別不同知識圖譜之間的共性和差異性, 從而實現對群體知識的有效融合與反饋。 基于上述考慮, 我們設計了一種層次式的個體知識圖譜, 支持對二元關系、多元關系以及高階關系的統一標識, 且可以被方便地轉換為一種邊上帶標簽的有向圖, 從而基于圖結構進行多源信息的分析、融合與反饋。

定義 1(個體知識圖譜)。 個體知識圖譜是一個五元組K?(K0, K1, K2, K3, K4)。 其每個元素的定義如下。

1. K0?(L, V, ?, ?, ?, , ?, ?, η, α): 個體知識圖譜框架, 滿足如下條件。

(a) L?{0, 1, 2, 3, 4}: 個體知識圖譜中節點具有的5個層次。 其中, 0、1、2、3、4分別表示道層(tao level)、元元模型層(meta-meta-model level)、元模型層(meta-model level)、模型層(model level)、實例層(instance level)。

(b) V: 個體知識圖譜的節點集合。

(c) ?: V→L: 層次映射函數, 將個體知識圖譜節點映射到其所在的層次。 為方便下文敘述, 令 前者表示由V中處于i層的元素構成的集合; 后者表示由V中所有不處于i層的元素構成的集合。

(d) : 個體知識圖譜節點之間的實例化關系。 對于任何(u, v)∈?(也記為u?v), 表示v是u的一個實例, 或u是v的一個類型。 為方便下文描述, 令V(?v)?{u∈V|u?v}, 且V(u?)?{v∈V|u?v}。 前者表示由V中所有v的類型構成的集合; 后者表示由V中所有u的實例構成的集合(下文會根據需要將這種表示符號應用到其他集合與二元關系上))。 實例化關系不具有自反性、對稱性、傳遞性。 對任何u?v, 有?(v)=?(u)+1成立。

(e) : 個體知識圖譜節點之間的一般特殊關系。 對任何(g, s)∈?(也記為g?s), 稱g是s的一般概念, 或s是g的特殊概念, 滿足: 對任何s?w, 有g?w成立。 也即一個概念的任何一個實例一定是這個概念的一般概念的實例。 對任何u, v∈∈V, 如果u?v且v?u, 則稱u, v等價, 記為u=v. 一般特殊關系具有自反性、傳遞性, 但不具有對稱性。

(f) : 個體知識圖譜節點之間的冪集關系, 一個部分函數(partial function)。 對任何(u, v)∈ (也記為 , 稱v是u的冪概念, 滿足: 對任何v?w, 有u?w成立。 也即一個概念的冪概念的任何一個實例一定是這個概念的一個特殊概念。

(g) : 個體知識圖譜節點之間的并集關系, 一個部分函數。 對任何u?v∈?(也記為?(u)=v), 稱v是u的所有實例的并集, 滿足: (1) 對任何x, y∈V, 如果u?x且x?y, 則v?y成立; (2) 對任何y∈V, 如果v?y, 則存在x∈V, 有u?x且x?y成立。 也即一個概念的所有實例的并集是由這些實例的所有實例構成的集合。

(h): 個體知識圖譜節點之間的交集關系, 一個部分函數。 對任何u?v∈?(也記為?(u)=v), 稱v是u的所有實例的交, 滿足: (1) 對任何x∈V, 如果對所有y∈V(u?), y?x成立, 則有v?x成立; (2) 對任何x∈V, 如果v?x, 則對任何y∈V(u?), 有y?x成立。 也即一個概念的所有實例的交集是由這些實例的共有實例構成的集合。

(i) η: V→V(Str?): 標識符函數。 將個體知識圖譜節點映射到字符串上。 Str是模型層知識圖譜的一個節點, 表示由所有字符串構成的集合。 該函數的主要目的是為個體知識圖譜中的每一個節點關聯一個人類可理解的描述信息。

(j) : 符號字面量函數。 將V中符號概念?實例的實例映射到字符串上。 符號概念?是元模型層知識圖譜的一個節點。 該函數的主要目的是為每一個符號概念實例的實例關聯一個對應的字面量。 不失一般性, 令α?η。 也即一個符號的字面量即提供對該符號的一種描述信息。

2. K1?(○1, ?1): 元元模型層知識圖譜, 滿足: {○1, ?1}?V. ○1表示元元模型層的滿節點, 滿足: (1) ?(○1)=?; (2) 對于任何v∈V(1), 有○1?v成立。 可知, 對任何1?v成立。 元素?1表示元元模型層的空節點, 滿足: (1) ?(?1)=1; (2) 對于任何v∈V(1), 有v??1成立。 可知, 不存在v∈V(2), 使得?1?v成立。

3. K2?(○2, ?2, ⊙, ?, ?, ?): 元模型層知識圖譜, 滿足: {○2, ?2, ⊙, ?, ?, ?}?V. ○2表示元模型層的滿節點, 滿足: (1) ?(○2)=2; (2) 對任何v∈V(2), 有○2?v成立。 可知, 對任何v∈V(3), 有○2?v成立。 ?2表示元模型層的空節點, 滿足: (1) ?(?2)=2; (2) 對任何v∈V(2), 有v??2成立。 可知, 不存在v∈V(3), 使得?2?v成立。 ⊙、?、?、?分別表示實體概念、關系概念、角色概念、符號概念, 滿足○1?⊙, ○1??, ○1??, ○1??。

4. K3?(○3, ?3, Str, Int, ?, π, κ,

(a) (○3, ?3, Str, Int)?V. ○3表示模型層的滿節點, 滿足: (1) ?(○3)=3; (2) 對任何v∈V(3), 有○3?v成立。 可知, 對任何v∈V(4), 有○3?v成立。 ?3表示模型層的空節點, 滿足: (1) ?(?3)=3; (2) 對任何v∈V(3), 有3成立。 可知, 不存在v∈V(4), 使得?3?v成立。 元素Str、Int分別表示字符串、整數, 滿足??Str, ??Int. 令Ints= (int), 也即Ints是Int的冪概念。

(b) ?: V(??)←V(??): 關系概念實例與角色概念實例之間的關聯關系。 其逆關系??1是一個函數, 即任何一個角色概念實例只與一?: V(??)←V(??): 關系概念實例與角色概念實例之間的關聯關系。 其逆關系??1是一個函數, 即任何一個角色概念實例只與一個關系概念實例相關。

(c) π: V(??)→V(3): 角色概念實例的承擔者函數, 將一個角色概念實例映射到模型層知識圖譜的節點上。 其具體含義見實例層知識圖譜。

(d) κ: V(??)→V(Ints?): 角色概念實例的承擔者數量限制函數, 將一個角色概念實例映射到一個整數集合上。 其具體含義見實例層知識圖譜。

(e) τ, ?, ?, ?): 關于時間點、時間點先后關系、以及時間區間的模型層知識圖譜。 其中, τ表示時間點, 滿足??τ。 ≤τ?V(τ?)×V(τ?)表示時間點之間的先后關系; ≤τ是一個偏序關系(具有自反性、傳遞性, 但不具有對稱性)。 對任何(t0, t1)∈≤τ (也記為t0≤τt1), 若滿足t1≤τt0, 則稱t0和t1相等(記為t0=t1)。 ?表示時間區間, 滿足???。 ?: V(??)→V(τ?)表示一個函數, 將時間區間實例映射到對應的開始時間點實例上。 ?: V(??)→V(τ?)表示一個函數, 將時間區間實例映射到對應的結束時間點實例上。 對任何p∈V(??), 有?(p)≤τ?(p)成立。

5. K4?(ρ, ?): 實例層知識圖譜, 滿足如下條件。

(a): 關系概念實例的實例到角色承擔者的映射函數。 對于其中的一個元素(v, r)?w, v表示一個關系概念的實例u的實例, r表示u的一個角色, w表示角色r在v上的承擔者集合, 且滿足: (1) w是π(r)的一個特殊概念; (2) w的實例的數量是κ(r)中的一個元素。 可以看到, 模型層知識圖譜中定義的角色概念實例的承擔者函數π和承擔者數量限制函數κ對ρ包含的元素進行了限制。

(b) ?: V(4)→?: 實例層節點到其生命周期的映射函數。

該定義給出了一種層次式的知識圖譜, 其中包含5個層次: 道層、元元模型層、元模型層、模型層、實例層。

個體知識圖譜包含的每一個節點都處于且僅處于一個層次中。 相鄰層次的節點之間通過實例化關系相互關聯。 實例化關系的定義建立在概念外延的基礎上, 即將一個概念理解為由其所有實例形成的集合; 若一個元素屬于概念的外延集合, 則表明該元素是該概念的一個實例。 除實例層外(不包括實例層), 處于其他層的節點均是概念, 且指代了概念的外延。 個體知識圖譜還定義了概念之間的一般特殊關系、冪集關系、并集關系、交集關系。 對于個體知識圖譜中的每一個節點, 通過標識符函數, 將該節點與對應的字符串描述信息進行關聯。 對于個體知識圖譜中的每一個節點, 如果是符號概念?實例的實例, 則通過標識符函數將其與對應的字面量進行關聯。 對于元元模型層、元模型層、以及模型層, 分別定義了若干基本節點以及節點之間的關系; 需要指出的是, 這些元素不是一個全集, 可以根據實際需要向其中添加新的元素。 實例層包含兩個函數: ρ函數將關系概念?實例的實例映射到涉及角色的承擔者; ?函數將實例層節點映射到其生命周期。 另外, 對于道層, 由于其中包含的元素(處于元元元模型層或之上)過于抽象, 且不會對知識圖譜的構造產生直接的影響, 所以我們沒有對其中的元素進行定義。

2.1.2 個體知識圖譜的圖表示

給定個體知識圖譜K?(K0, K1, K2, K3, K4), 其圖表示(graph representation)是一個邊上帶標簽的有向圖

基于個體知識圖譜生成對應的圖表示的基本思想如下: 把個體知識圖譜內置的每一種二元關系包含的每一個元素轉化為圖表示中兩個節點之間一條帶標簽的有向邊; 有向邊上的標簽即是對應的關系名。 除此之外, 算法1還包含對兩種例外情況的處理。 (1) 對于函數?, 把其值域中的5個整數分別轉化為符號概念實例l的5個實例li, i∈L; 然后, 把?中的每個元素(v, i)轉化節點v和li之間一條標簽為“l”的有向邊。 (2) 對于函數ρ中的每一個元素(v, r, w), 創建r的一個實例γ; 然后, 在節點v和γ之間建立一條標簽為“?”的有向邊, 在節點γ和w之間建立一條標簽為“ρ”的有向邊。

圖 2給出了個體知識圖譜圖表示的一個示例.

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1796

    文章

    47666

    瀏覽量

    240278
收藏 人收藏

    評論

    相關推薦

    未來趨勢:人工智能+機器人+互聯網三者融合

    當下的趨勢表明,未來需要人工智能、機器人和互聯網三者融合在一起。今天大家都在談論“互聯網+”,相信將來會有更多人看到“人工智能+”。如今,機器人與
    發表于 01-25 11:30

    NLPIR系統KGB知識圖譜引擎為數據內容安全設崗

    、詞法和語義的綜合應用。NLPIR大數據語義智能分析平臺平臺是根據中文數據挖掘的綜合需求,融合了網絡精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯網內容處理的全技術鏈條的共享開發平臺
    發表于 11-23 10:37

    NLPIR系統KGB知識圖譜技術助力大數據深度挖掘

    應用。NLPIR大數據語義智能分析平臺是根據中文數據挖掘的綜合需求,融合了網絡精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯網內容處理的全技術鏈條的共享開發平臺。  其中KGB
    發表于 12-05 11:49

    KGB知識圖譜基于傳統知識工程的突破分析

    知識庫構建主要依靠人工構建、代價高昂、規模有限,投入極大且效率不高。同時,傳統知識圖譜不具有深度知識結構,無法解決專業的業務問題。互聯網時代
    發表于 10-22 15:25

    KGB知識圖譜技術能夠解決哪些行業痛點?

    更加明確。在建立這些深層次概念時,不同人的看法也會產生不同的結果,自動化方法優勢也就此凸顯出來。從知識粒度來看,知識圖譜行業應用通常涵蓋細粒度的知識。
    發表于 10-30 15:34

    知識圖譜的三種特性評析

    。2、知識質量智能核查:知識圖譜加工廠實現對多種知識錯誤與沖突的智能核查與校驗,并對知識庫進行實
    發表于 12-13 13:57

    KGB知識圖譜幫助金融機構進行風險預判

    高風險事件,可以及時預測未來有潛在風險的關聯行業,金融機構從而可對相關行業的風險做出預判,盡早地發現并規避風險。在潛在風險客戶預測上,通過KGB知識圖譜整合和關聯企業內部結構化數據、非結構化數據以及互聯網
    發表于 06-18 23:07

    KGB知識圖譜通過智能搜索提升金融行業分析能力

    知識圖譜作為知識的一種形式,已經在語義搜索、智能問答、數據分析、自然語言理解、視覺理解、物聯網設備互聯等多個方面發揮出越來越大的價值。尤其在
    發表于 06-22 21:23

    AI虛擬偶像 知識圖譜制造富有生命感的人工智能

    如果要為這一切找出緣由,知識圖譜顯然是其中之一。最近中國信息通信研究院云計算與大數據研究所聯合Gowild人工智能研究院以及業內多家企業推出了業內首份《知識圖譜白皮書》,為此,我們采訪了來自Gowild
    發表于 05-30 03:02 ?7672次閱讀

    淺析知識圖譜的建模方法及其應用

    作為人工智能時代最重要的知識表示方式之一,知識圖譜能夠打破不同場景下的數據隔離,為搜索、推薦、問答、解釋與決策等應用提供基礎支撐。
    的頭像 發表于 12-17 15:08 ?9833次閱讀

    全面了解人工智能的重要分支技術知識圖譜

    與大數據、深度學習,這三大“秘密武器”已經成為推動互聯網人工智能發展的核心驅動力之一。 ? 知識圖譜的概念與分類 知識圖譜(Knowledge Graph)于2012年由谷歌提出并成
    的頭像 發表于 01-29 16:27 ?3553次閱讀

    知識圖譜劃分的相關算法及研究

    知識圖譜人工智能的重要基石,因其包含豐富的圖結構和屬性信息而受到廣泛關注。知識圖譜可以精確語義描述現實世界中的各種實體及其聯系,其中頂點表示實體,邊表示實體間的聯系。知識圖譜劃分是大
    發表于 03-18 10:10 ?14次下載
    <b class='flag-5'>知識圖譜</b>劃分的相關算法及研究

    什么是知識圖譜人工智能世界知識圖譜的發展

    1.1 什么是知識圖譜 ? 知識圖譜是一種用圖模型來描述知識和建模世界萬物之間的關聯關系的技術方法[1]。知識圖譜由節點和邊組成。節點可以是
    的頭像 發表于 06-01 19:54 ?6372次閱讀
    什么是<b class='flag-5'>知識圖譜</b>?<b class='flag-5'>人工智能</b>世界<b class='flag-5'>知識圖譜</b>的發展

    知識圖譜知識圖譜的典型應用

    作者:?cooldream2009? 我們構建知識圖譜的目的,在于利用知識圖譜來做一些事情。有效利用知識圖譜,就是要考慮知識圖譜的具備的能力,知識圖
    的頭像 發表于 10-18 09:26 ?2114次閱讀
    <b class='flag-5'>知識圖譜</b>:<b class='flag-5'>知識圖譜</b>的典型應用

    知識圖譜與大模型之間的關系

    人工智能的廣闊領域中,知識圖譜與大模型是兩個至關重要的概念,它們各自擁有獨特的優勢和應用場景,同時又相互補充,共同推動著人工智能技術的發展。本文將從定義、特點、應用及相互關系等方面深入探討
    的頭像 發表于 07-10 11:39 ?1213次閱讀
    易发国际娱乐城| 大发888问题缺少组件| 华侨人百家乐官网的玩法技巧和规则| 澳门娱乐城开户| 在线百家乐游戏软件| 南宁百家乐官网赌机| 九州娱乐城| 现场百家乐牌路分析| 网上的百家乐官网怎么才能赚钱| 赌博网站| 钱柜百家乐的玩法技巧和规则 | 赌百家乐的高手| 百家乐官网出千赌具| 皇冠现金网骗人| 百家乐如何抽千| 百家乐官网网页qq| 破解百家乐官网打路单| 大发888游戏平台寒怕| 百家乐桌子北京| 尊龙百家乐官网娱乐场开户注册| 威尼斯人娱乐城--老品牌值得您信赖| 顶尖百家乐对单| 如何玩百家乐官网赚钱| 百家乐官网拍是什么| 百家乐翻天腾讯视频| 百家乐官网7赢6| 古浪县| 大发888注册送58网站| 邯郸百家乐园怎么样| JJ百家乐官网的玩法技巧和规则 | 爱拼百家乐的玩法技巧和规则 | 繁峙县| 百利宫娱乐城官方网| 优惠搏百家乐的玩法技巧和规则 | 钱隆百家乐官网的玩法技巧和规则| 百家乐官网软件辅助| 香港六合彩网址| 太阳城娱乐网可信吗| 百家乐pc| 百家乐游戏规则玩法| 巴比伦百家乐官网娱乐城|