機(jī)器閱讀理解超越人類 云從刷新自然語言處理新紀(jì)錄

發(fā)布時間:2024-11-16
近日,云從科技和上海交通大學(xué)在自然語言處理領(lǐng)域取得重大突破,在卡內(nèi)基-梅隆大學(xué)發(fā)起的大型深層閱讀理解任務(wù)數(shù)據(jù)集race數(shù)據(jù)集上奪得魁首,并成為超過人類排名的模型。
云從科技與上海交通大學(xué)開創(chuàng)了一種閱讀信息匹配機(jī)制——dcmn模型,使機(jī)器的正確率達(dá)到72.1%,較之前結(jié)果(67.9%)提高了4.2個百分點,并在高中測試題部分超越人類69.4%的成績。
有種題型叫“閱讀理解”
不管是中文、英語還是任意其他語言,閱讀理解都算得上是難的題型之一,需要信息收集、知識儲備、邏輯推理、甚至還要融會貫通的主觀作答。
微軟創(chuàng)始人比爾·蓋茨曾經(jīng)表示,“語言理解是人工智能領(lǐng)域皇冠上的明珠”。
機(jī)器閱讀理解,是指機(jī)器通過閱讀和理解大量文字,有效整理和總結(jié)出人類所需要的信息。
按照人工智能技術(shù)發(fā)展路徑,在機(jī)器視覺、語音識別等智能感知技術(shù)在性能上趨于飽和之后,下一個人工智能的突破就是自然語言處理等認(rèn)知決策技術(shù)。技術(shù)上形成從智能感知到認(rèn)知決策的閉環(huán),在機(jī)器上體現(xiàn)為會理解、會思考、會分析決策,人機(jī)交互方式更加便捷,將對各行各業(yè)將產(chǎn)生顛覆式創(chuàng)新。
例如為證券投資提供各種分析數(shù)據(jù),進(jìn)行金融風(fēng)險分析、欺詐識別;在社交軟件、搜索引擎輔助文字審閱和信息查找;還可以幫助醫(yī)生檢索和分析醫(yī)學(xué)資料、輔助診斷等等。
race數(shù)據(jù)集
race數(shù)據(jù)集(reading comprehension dataset collected from english examinations)是一個來源于中學(xué)考試題目的大規(guī)模閱讀理解數(shù)據(jù)集,包含了大約28000個文章以及近100000個問題。
它的形式類似于英語考試中的閱讀理解(選擇題),給定一篇文章,通過閱讀并理解文章(passage),針對提出的問題(question)從選項中選擇正確的答案(answers)。
race數(shù)據(jù)集的難點在于,該題型的正確答案并不一定直接體現(xiàn)在文章中,只能從語義層面深入理解文章,通過分析文中線索并基于上下文推理,選出正確答案。
相對以往的抽取類閱讀理解,算法要求更高,被認(rèn)為是“深度閱讀理解”。
dcmn模型
針對這種“深度閱讀理解”,云從科技與上海交通大學(xué)開創(chuàng)了一種p、q、與a之間的匹配機(jī)制,稱為dual co-matching network(簡稱dcmn),并基于這種機(jī)制探索性的研究了p、q、與a的各種組合下的匹配策略。
1、dcmn匹配機(jī)制
以p與q之間的匹配為例:
本圖為p與q之間的dcmn匹配框架
云從科技和上海交大使用目前nlp新的研究成果bert分別為p和q中的每一個token進(jìn)行編碼?;赽ert的編碼,可以得到的編碼是一個包含了p和q中各自上下文信息的編碼,而不是一個固定的靜態(tài)編碼,如上圖中hp與hq;
其次,通過attention的方式,實現(xiàn)p和q的匹配。具體來講,是構(gòu)建p中的每一個token在q中的attendances,即question-aware的passage,如上圖中mp。這樣得到的每一個p的token編碼,包含了與question的匹配信息;
為了充分利用bert帶來的上下文信息,以及p與q匹配后的信息,將p中每個token的bert編碼hp,與p中每個token與q匹配后的編碼mp進(jìn)行融合, 對hp和mp進(jìn)行了元素減法及乘法操作,通過一個激活函數(shù),得到了p與q的終融合表示,圖中表示為spq;
后通過maxpooling操作得到cpq,l維向量,用于后的loss計算。
2、各種匹配策略研究
除了p與q之間的匹配之外,還可以有q與a、p與a之間的匹配,以及不同匹配得到的匹配向量間的組合,這些不同的匹配與組合構(gòu)成了不同的匹配策略。對七種不同的匹配策略分別進(jìn)行了試驗,以找到更加合適的匹配策略,分別是:
[p_q; p_a; q_a], [p_q; p_a], [p_q; q_a], [p_a; q_a], [pq_a], [p_qa], [pa_q]
“pa”表示先將p和a連接為一個序列,再參與匹配,“pq”與“qa”同理。符號“[ ; ]”表示將多種匹配的結(jié)果組合在一起。
[p_q; p_a; q_a]模式下的模型架構(gòu)
7種不同策略經(jīng)試驗后,得出采用pq_a的匹配策略,即先將p與q連接,然后與a匹配,無論是在初中題目(race-m)、高中題目(race-h)還是整體(race),都得到了更優(yōu)的結(jié)果。
雖然目前機(jī)器在一些閱讀理解數(shù)據(jù)集上的水平已經(jīng)超過了人類,但這并不能表明“機(jī)器打敗了人類”,對于自然語言處理、對于人工智能,我們?nèi)杂幸淮蟛叫枰斑M(jìn)。
上一個:TPCXZ變頻串聯(lián)諧振高壓試驗裝置變頻串并聯(lián)諧振成套試驗裝置
下一個:深圳美國海運服務(wù)熱線

選擇電阻時,6個經(jīng)常被忽略的冷門參數(shù)
小米筆記本512g怎么磁盤分區(qū)(小米筆記本系統(tǒng)分區(qū)教程)
通風(fēng)多參數(shù)檢測儀主要檢測項目風(fēng)速風(fēng)壓風(fēng)量儀
dell5402找不到硬盤
RC0402FR-079K76L,0402 9.76KΩ 1% 1/16W 電阻
美國海運有哪些航線呢(美國海運有哪些公司)
syo轉(zhuǎn)運 syo海淘轉(zhuǎn)運
中國私人物品海運美國(耐用的私人物品海運)
美國fba托盤打托要求的尺寸標(biāo)準(zhǔn)
商標(biāo)注冊官費是多少(商標(biāo)注冊官費是怎么收?。?/a>
十八禁 网站在线观看免费视频_2020av天堂网_一 级 黄 色 片免费网站_绝顶高潮合集Videos