由斯坦福大學(xué)發(fā)起的國際權(quán)威機(jī)器閱讀理解評測SQuAD(Stanford Question Answering Dataset),相信很多小伙伴已經(jīng)并不陌生,從1.0、1.1再到2.0,比賽難度持續(xù)升級。在谷歌、微軟亞洲研究院、IBM研究院、阿里巴巴達(dá)摩院、平安科技、上海交通大學(xué)、復(fù)旦大學(xué)等眾多參賽的國內(nèi)外知名研究機(jī)構(gòu)和高校中,科大訊飛從2017年成為首次取得賽事榜首的中國本土研究機(jī)構(gòu)起,已四次刷新比賽榜單第一。
就在最近,哈工大訊飛聯(lián)合實(shí)驗(yàn)室(HFL)與河北省訊飛人工智能研究院聯(lián)合團(tuán)隊(duì)再次在SQuAD 2.0挑戰(zhàn)賽中有了新突破:不僅再再再再再次登上榜單第一,還全球首次在全部兩項(xiàng)指標(biāo)上都超過了人類平均水平,一舉創(chuàng)下比賽的全新紀(jì)錄。
科大訊飛在機(jī)器閱讀理解領(lǐng)域的實(shí)力已不言而喻,這次突破背后又有怎樣的故事,“秘籍”何在?當(dāng)機(jī)器學(xué)會做閱讀理解,甚至比人類的答題水平還勝出一籌時(shí),TA們能為我們帶來怎樣的改變和影響?
SQuAD 2.0好難一比賽!
要會答題,還要會拒絕答題
雖然之前已對SQuAD比賽有過幾次介紹,還是讓我們先復(fù)習(xí)一下這項(xiàng)比賽的關(guān)鍵信息:
TA是認(rèn)知智能行業(yè)內(nèi)公認(rèn)的機(jī)器閱讀理解領(lǐng)域頂級水平測試,通過吸收來自維基百科的大量數(shù)據(jù),構(gòu)建了一個(gè)包含十多萬問題的大規(guī)模機(jī)器閱讀理解數(shù)據(jù)集。
參賽者提交的系統(tǒng)模型在閱讀完數(shù)據(jù)集中的一個(gè)篇章內(nèi)容之后,回答若干個(gè)基于文章內(nèi)容的問題,然后與人工標(biāo)注的答案進(jìn)行比對,得出精確匹配(Exact Match)和模糊匹配(F1-score)的結(jié)果。
精確匹配EM:機(jī)器給出的答案和人給出的一樣才算正確;模糊匹配F1:機(jī)器答案短語切成詞后與人給出的答案共同計(jì)算回歸率與準(zhǔn)確性,就算沒有完全匹配也可以得分。
對于機(jī)器而言,存儲、運(yùn)算,甚至圖像、語音的識別都已不在話下,但是想要讀懂文章內(nèi)容并做出回答,沒有人類思維大腦的機(jī)器還是非常困難的。
SQuAD 2.0的比賽則在上面任務(wù)的基礎(chǔ)上,把難度再次提升:加入“不可回答的問題”。也就是說,參賽系統(tǒng)閱讀完篇章內(nèi)容后再讀題,如果這個(gè)問題不能通過之前讀完的內(nèi)容回答,要拒絕回答;如果判斷可以回答,那么再給出篇章中的某個(gè)連續(xù)片段作為答案。
雙指標(biāo)超過人類水平!
訊飛答題有妙招
如此高難度的閱讀理解比賽,如果讓人類來答題,水平幾何呢?
人類的成績是:EM:86.831;F1:89.452
訊飛此次參賽系統(tǒng)的成績是:EM:87.147;F1:89.474
雖然差距不算太大,但已是全球首次在這兩項(xiàng)指標(biāo)上都超過人類水平了!就在去年11月,哈工大訊飛聯(lián)合實(shí)驗(yàn)室刷新SQuAD 2.0比賽榜單時(shí)的成績,還與人類認(rèn)知水平在該數(shù)據(jù)集上的效果有一定差距。短短不到半年的時(shí)間,科大訊飛已經(jīng)取得了彌足珍貴的進(jìn)步。
首次超越人類水平的背后,得益于提交的“BERT + DAE + AoA”參賽模型,模型融合了業(yè)界領(lǐng)先自然語言語義表示模型BERT和團(tuán)隊(duì)持續(xù)積累改進(jìn)的層疊式注意力機(jī)制(Attention-over-Attention,AoA),在吸收業(yè)界最新前沿技術(shù)的同時(shí)又加入了已有的原創(chuàng)核心技術(shù),將該評測的相關(guān)技術(shù)指標(biāo)推向新的高度。
哈工大訊飛聯(lián)合實(shí)驗(yàn)室參賽提交系統(tǒng)一覽
超越人類不是目的
汽車、司法都已助力
也許你會疑惑,機(jī)器在閱讀理解上的水平獲得這樣的突破與成績,難道是為了超越人類、成為做題機(jī)器?
核心技術(shù)評測中的積累,最終是為了將技術(shù)更好應(yīng)用到實(shí)際產(chǎn)品中,讓人們親身體會到技術(shù)帶來的改變。閱讀理解技術(shù)其實(shí)已經(jīng)在汽車、司法領(lǐng)域有所應(yīng)用,例如一些車型中的車載電子說明書產(chǎn)品,通過機(jī)器閱讀汽車領(lǐng)域相關(guān)的材料,使機(jī)器深度理解并掌握對該車型的相關(guān)知識。用戶提出相關(guān)問題之后,產(chǎn)品不僅可以快速反饋相關(guān)的章節(jié),還能利用閱讀理解技術(shù)進(jìn)一步挖掘并反饋更精準(zhǔn)的答案;這樣就能夠減少用戶的閱讀量,提高信息獲取的速度。
在司法領(lǐng)域,哈工大訊飛聯(lián)合實(shí)驗(yàn)室出品的“法小飛”智能法律咨詢助手也應(yīng)用了對話型閱讀理解技術(shù),帶來優(yōu)質(zhì)快速的法律咨詢和相關(guān)服務(wù),為用戶提供精準(zhǔn)的答案,還提升了用戶的對話交互體驗(yàn)。
技術(shù)探索的腳步還在涉足更廣的領(lǐng)域,目前科大訊飛還在積極探索其他類型的閱讀理解,例如基于知識、常識的閱讀理解,對話型閱讀理解以及基于綜合線索的閱讀理解等。
在比賽指標(biāo)上超越人類水平并不是結(jié)束,對于機(jī)器閱讀理解的“能理解會思考”的終極目標(biāo)來說,也許這仍是一個(gè)全新的開始。對自然語言的更深層次的歸納、總結(jié)、推理,一定是未來機(jī)器閱讀理解不可缺少的部分;落地應(yīng)用,機(jī)器閱讀理解技術(shù)在產(chǎn)品的精準(zhǔn)問答、開放域的問答都能起到有力的支撐作用,未來還會有怎樣的產(chǎn)品讓我們收獲更多驚喜,科大訊飛將全力以赴給出答案。
哈工大訊飛聯(lián)合實(shí)驗(yàn)室
哈工大訊飛聯(lián)合實(shí)驗(yàn)室(HFL)是科大訊飛針對“訊飛超腦”項(xiàng)目計(jì)劃,重點(diǎn)引進(jìn)和布局的核心研發(fā)團(tuán)隊(duì)之一,由科大訊飛AI研究院與哈爾濱工業(yè)大學(xué)社會計(jì)算與信息檢索研究中心(HIT-SCIR)共同創(chuàng)辦。根據(jù)聯(lián)合實(shí)驗(yàn)室建設(shè)規(guī)劃,雙方將在語言認(rèn)知計(jì)算領(lǐng)域進(jìn)行長期、深入合作,具體開展閱讀理解、自動閱卷、類人答題、人機(jī)對話、語音識別后處理、社會輿情計(jì)算等前瞻課題的研究。重點(diǎn)突破深層語義理解、邏輯推理決策、自主學(xué)習(xí)進(jìn)化等認(rèn)知智能關(guān)鍵技術(shù),支撐科大訊飛實(shí)現(xiàn)從“能聽會說”到“能理解會思考”的技術(shù)跨越,并圍繞教育、司法、人機(jī)交互等領(lǐng)域?qū)崿F(xiàn)科研成果的規(guī)?;瘧?yīng)用。
哈工大訊飛聯(lián)合實(shí)驗(yàn)室不僅在核心技術(shù)上持續(xù)深耕,同時(shí)也積極關(guān)注和推動中文信息處理的研究發(fā)展。在2017年和2018年,哈工大訊飛聯(lián)合實(shí)驗(yàn)室先后承辦了兩屆“訊飛杯”中文機(jī)器閱讀理解評測(CMRC)受到了業(yè)界廣泛關(guān)注和各界研究人員的積極參加,并且發(fā)布了相關(guān)中文數(shù)據(jù)集,進(jìn)一步促進(jìn)了中文機(jī)器閱讀理解研究。今年將繼續(xù)攜手中國中文信息學(xué)會計(jì)算語言學(xué)專業(yè)委員會(CIPS-CL)承辦相關(guān)中文機(jī)器閱讀理解評測活動,持續(xù)推動中文機(jī)器閱讀理解技術(shù)的研究發(fā)展。
所獲榮譽(yù):
1. 多次榮登國際權(quán)威機(jī)器閱讀理解評測SQuAD 1.1榜首
2. 多次榮登國際權(quán)威機(jī)器閱讀理解評測SQuAD 2.0榜首
3. 2018年2月,榮獲國際語義評測SemEval 2018閱讀理解任務(wù)冠軍
4. 2018年12月,榮獲對話型閱讀理解評測CoQA冠軍
河北省訊飛人工智能研究院
科大訊飛河北省訊飛人工智能研究院,成立于2019年1月,是科大訊飛推動人工智能戰(zhàn)略落地,助力京津冀區(qū)域人工智能規(guī)模化應(yīng)用和產(chǎn)業(yè)發(fā)展重要核心研發(fā)團(tuán)隊(duì)之一。研究院重點(diǎn)聚焦人工智能中認(rèn)知智能技術(shù),實(shí)現(xiàn)認(rèn)知基礎(chǔ)前沿技術(shù)、教育認(rèn)知技術(shù)、司法認(rèn)知技術(shù)等技術(shù)在政務(wù)、各公共服務(wù)等領(lǐng)域的應(yīng)用。
-
人工智能
+關(guān)注
關(guān)注
1796文章
47683瀏覽量
240313 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1209瀏覽量
24835 -
科大訊飛
+關(guān)注
關(guān)注
19文章
818瀏覽量
61517
原文標(biāo)題:全球首次!科大訊飛SQuAD 2.0比賽全部指標(biāo)超越人類平均水平
文章出處:【微信號:iFLYTEK1999,微信公眾號:科大訊飛】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論