賽事評獎
賽事評獎是世界人工智能大會(WAIC)“會、展、賽、用”四大板塊之一,由世界人工智能大會組委會主辦,上海市人工智能行業(yè)協(xié)會作為唯一組織、服務(wù)、支撐和管理單位。
WAIC 2022現(xiàn)有品牌賽事包括:AIWIN世界人工智能創(chuàng)新大賽,BPAA全球算法最佳實(shí)踐典范大賽,黑客馬拉松和團(tuán)市委青少年人工智能創(chuàng)新大賽。根據(jù)世界人工智能大會SAIL獎的推薦規(guī)則和資格要求,品牌賽事承辦方將有機(jī)會推薦本賽事中的優(yōu)秀項(xiàng)目參與SAIL獎評選。
2022年AIWIN世界人工智能創(chuàng)新大賽春季賽與太平洋保險(xiǎn)、國泰君安、SMG技術(shù)中心(上海東方傳媒技術(shù)有限公司)三家出題方聯(lián)合舉辦了中文保險(xiǎn)小樣本多任務(wù)競賽、發(fā)債企業(yè)的違約風(fēng)險(xiǎn)預(yù)警競賽、文本語音驅(qū)動數(shù)字人表情口型競賽三場AI算法技術(shù)賽事。目前中文保險(xiǎn)小樣本多任務(wù)競賽、發(fā)債企業(yè)的違約風(fēng)險(xiǎn)預(yù)警競賽已完成競賽,為了讓小伙伴們更好地通過賽事交流學(xué)習(xí),在7-8月之間每周二,我們將陸續(xù)邀請優(yōu)秀的賽事團(tuán)隊(duì)分享賽事方案,大家敬請期待。
今天分享的是“中文保險(xiǎn)小樣本多任務(wù)競賽”知識工廠團(tuán)隊(duì)的方案,他們獲得本賽題的第6名。
1.團(tuán)隊(duì)簡介
陸軒韜
復(fù)旦大學(xué) 軟件工程 碩士研究生二年級 @知識工場實(shí)驗(yàn)室
本科畢業(yè)于 華東師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)
字節(jié)跳動 AI-LAB NLP算法工程師(實(shí)習(xí))
曾多次在國內(nèi)外自然語言處理競賽中獲得top名次與獎項(xiàng)
過往獲獎情況:
? 2022 Kaggle - Feedback Prize - Evaluating Student Writing 銀牌
? 2022 山東省第三屆數(shù)據(jù)應(yīng)用創(chuàng)新創(chuàng)業(yè)大賽 - 網(wǎng)格事件智能分類 亞軍
? 2021 iFLYTEK 科大訊飛AI 開發(fā)者大賽-非標(biāo)準(zhǔn)化疾病訴求的簡單分診挑戰(zhàn)賽 冠軍
? 2021 CCKS 華為-面向通信領(lǐng)域的事件共指消解任務(wù) 亞軍
? 2021 iFLYTEK 科大訊飛AI 開發(fā)者大賽-試題標(biāo)簽預(yù)測挑戰(zhàn)賽 季軍
? 2021 DIGIX 華為全球校園AI 算法精英大賽-基于多模型遷移預(yù)訓(xùn)練文章質(zhì)量判別 季軍
2.賽題理解與問題建模
賽題理解:
本次賽題目標(biāo)為探索統(tǒng)一范式的多任務(wù)小樣本學(xué)習(xí)。
多任務(wù):
賽題覆蓋了保險(xiǎn)真實(shí)業(yè)務(wù)場景中常見的保險(xiǎn)領(lǐng)域、醫(yī)療領(lǐng)域和金融領(lǐng)域,包括文本分類、文本相似度、自然語言推斷、命名實(shí)體識別和機(jī)器閱讀理解等五大基礎(chǔ)自然語言理解任務(wù),具體為18個保險(xiǎn)業(yè)務(wù)場景中的常見任務(wù)。
小樣本:
為了還原真實(shí)業(yè)務(wù)場景中大規(guī)模高質(zhì)量標(biāo)注數(shù)據(jù)積累困難的情況,訓(xùn)練集從18個任務(wù)中選取了14個作為訓(xùn)練集任務(wù),每個任務(wù)提供20條標(biāo)注樣本,共計(jì)280條標(biāo)注樣本。測試集從18個任務(wù)中選取了14個作為測試集任務(wù),每個任務(wù)提供400條測試樣本,分A/B榜測試。
問題建模:
由于預(yù)訓(xùn)練語言模型在NLP領(lǐng)域中大放異彩,因此是本次比賽中不可或缺的一部分。
具體地,有以下兩類方案:
1.使用NLU類型的預(yù)訓(xùn)練語言模型。由于本次賽題的任務(wù)都屬于NLU范疇,因此可以使用諸如BERT之類的NLU模型進(jìn)行建模。
2.使用NLG類型的預(yù)訓(xùn)練語言模型(諸如T5,BART),將所有的任務(wù)都轉(zhuǎn)換為序列生成任務(wù),也是baseline中的做法。
由于部分任務(wù)只在測試集中出現(xiàn)而沒有相應(yīng)的訓(xùn)練樣本,如果使用BERT等NLU模型無法有效處理這部分任務(wù),因此我采用第二種方案。
3.數(shù)據(jù)探索與特征工程
模型結(jié)構(gòu):
訓(xùn)練集從18個自然語言處理任務(wù)中選取了14個作為訓(xùn)練集任務(wù),每個任務(wù)提供20條標(biāo)注樣本,共計(jì)280條標(biāo)注樣本。
測試集從18個任務(wù)中選取了14個作為測試集任務(wù),每個任務(wù)提供400條測試樣本,A/B榜各200條。
此外,主辦方還提供70個開源數(shù)據(jù)集,每個數(shù)據(jù)集從原始數(shù)據(jù)中采樣約500條(共計(jì)70*500條數(shù)據(jù)),構(gòu)建了opensource_sample_500.json,用于輔助統(tǒng)一模型訓(xùn)練。
數(shù)據(jù)增強(qiáng):
擾動verbalizer在instruction中的出現(xiàn)順序。通過該方法可以利用一條數(shù)據(jù)生成多條數(shù)據(jù)。
該數(shù)據(jù)增強(qiáng)方法可同時(shí)應(yīng)用于opensource訓(xùn)練數(shù)據(jù),instruction訓(xùn)練數(shù)據(jù),以及instruction測試數(shù)據(jù)。
4.模型訓(xùn)練
模型選擇(方案一)
BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
模型選擇(方案二)
CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation
模型選擇(方案三)
mT5: A massively multilingual pre-trained text-to-text transformer
不同模型在opensource驗(yàn)證集上的表現(xiàn)
mt5-large > cpt-large > bart-large
因此模型最終選擇方案三
即int8量化的單模單折mt5-large模型
5.Tricks
1.在數(shù)據(jù)增強(qiáng)部分有提到:該增強(qiáng)方法可同時(shí)應(yīng)用于opensource訓(xùn)練數(shù)據(jù),instruction訓(xùn)練數(shù)據(jù),以及instruction測試數(shù)據(jù)。實(shí)驗(yàn)發(fā)現(xiàn)對于opensource訓(xùn)練數(shù)據(jù)和instruction訓(xùn)練數(shù)據(jù)的增強(qiáng)并不會帶來收益,因此只對instruction測試數(shù)據(jù)進(jìn)行了增強(qiáng)。
2.Constrained decoding:分析bad case的時(shí)候,發(fā)現(xiàn)有部分生成的結(jié)果未出現(xiàn)在verbalizer(即候選項(xiàng)中),可以通過constrained decoding強(qiáng)制輸出中出現(xiàn)verbalizer 中的token。然而這類bad case并不多,會影響萬分位。
Ximing Lu, et al. [2021] NEUROLOGIC A*esque Decoding: Constrained Text Generation with Lookahead Heuristics.
6.實(shí)驗(yàn)結(jié)果
A榜主要實(shí)驗(yàn)結(jié)果
7.總結(jié)
1.量化過的大模型相較于同量級的小模型,通常能夠取得更好的結(jié)果,并擁有更快的推理速度。
2.Inference Ensemble(數(shù)據(jù)增強(qiáng))能夠在只使用單一模型的情況下,同樣達(dá)到良好的集成效果。
3.Constrained decoding:學(xué)術(shù)界的熱點(diǎn)問題之一,比賽中這類bad case并不多,所以效果不明顯,但是仍不失為是一個很有前景的方法。
4.小樣本場景下,引入額外的外部數(shù)據(jù)能夠有效地幫助模型達(dá)到一個更好的初始狀態(tài)。
想一起交流學(xué)習(xí)的小伙伴
可掃碼加入“AIWIN算法競賽俱樂部”
掃碼完成云觀眾預(yù)注冊
(轉(zhuǎn)載)