賽事評獎|“中文保險(xiǎn)小樣本多任務(wù)競賽”知識工場團(tuán)隊(duì)方案——2022AIWIN(春季)世界人工智能創(chuàng)新大賽優(yōu)秀方案分享系列

ainet.cn 2022年08月08日

賽事評獎

　　賽事評獎是世界人工智能大會(WAIC)“會、展、賽、用”四大板塊之一，由世界人工智能大會組委會主辦，上海市人工智能行業(yè)協(xié)會作為唯一組織、服務(wù)、支撐和管理單位。

　　WAIC 2022現(xiàn)有品牌賽事包括：AIWIN世界人工智能創(chuàng)新大賽，BPAA全球算法最佳實(shí)踐典范大賽，黑客馬拉松和團(tuán)市委青少年人工智能創(chuàng)新大賽。根據(jù)世界人工智能大會SAIL獎的推薦規(guī)則和資格要求，品牌賽事承辦方將有機(jī)會推薦本賽事中的優(yōu)秀項(xiàng)目參與SAIL獎評選。

　　2022年AIWIN世界人工智能創(chuàng)新大賽春季賽與太平洋保險(xiǎn)、國泰君安、SMG技術(shù)中心(上海東方傳媒技術(shù)有限公司)三家出題方聯(lián)合舉辦了中文保險(xiǎn)小樣本多任務(wù)競賽、發(fā)債企業(yè)的違約風(fēng)險(xiǎn)預(yù)警競賽、文本語音驅(qū)動數(shù)字人表情口型競賽三場AI算法技術(shù)賽事。目前中文保險(xiǎn)小樣本多任務(wù)競賽、發(fā)債企業(yè)的違約風(fēng)險(xiǎn)預(yù)警競賽已完成競賽，為了讓小伙伴們更好地通過賽事交流學(xué)習(xí)，在7-8月之間每周二，我們將陸續(xù)邀請優(yōu)秀的賽事團(tuán)隊(duì)分享賽事方案，大家敬請期待。

　　今天分享的是“中文保險(xiǎn)小樣本多任務(wù)競賽”知識工廠團(tuán)隊(duì)的方案，他們獲得本賽題的第6名。

1.團(tuán)隊(duì)簡介

　　陸軒韜

　　復(fù)旦大學(xué) 軟件工程碩士研究生二年級 @知識工場實(shí)驗(yàn)室

　　本科畢業(yè)于華東師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)

　　字節(jié)跳動 AI-LAB NLP算法工程師(實(shí)習(xí))

　　曾多次在國內(nèi)外自然語言處理競賽中獲得top名次與獎項(xiàng)

　　過往獲獎情況：

　　? 2022 Kaggle - Feedback Prize - Evaluating Student Writing 銀牌

　　? 2022 山東省第三屆數(shù)據(jù)應(yīng)用創(chuàng)新創(chuàng)業(yè)大賽 - 網(wǎng)格事件智能分類亞軍

　　? 2021 iFLYTEK 科大訊飛AI 開發(fā)者大賽-非標(biāo)準(zhǔn)化疾病訴求的簡單分診挑戰(zhàn)賽冠軍

　　? 2021 CCKS 華為-面向通信領(lǐng)域的事件共指消解任務(wù) 亞軍

　　? 2021 iFLYTEK 科大訊飛AI 開發(fā)者大賽-試題標(biāo)簽預(yù)測挑戰(zhàn)賽季軍

　　? 2021 DIGIX 華為全球校園AI 算法精英大賽-基于多模型遷移預(yù)訓(xùn)練文章質(zhì)量判別季軍

2.賽題理解與問題建模

　　賽題理解：

　　本次賽題目標(biāo)為探索統(tǒng)一范式的多任務(wù)小樣本學(xué)習(xí)。

　　多任務(wù)：

　　賽題覆蓋了保險(xiǎn)真實(shí)業(yè)務(wù)場景中常見的保險(xiǎn)領(lǐng)域、醫(yī)療領(lǐng)域和金融領(lǐng)域，包括文本分類、文本相似度、自然語言推斷、命名實(shí)體識別和機(jī)器閱讀理解等五大基礎(chǔ)自然語言理解任務(wù)，具體為18個保險(xiǎn)業(yè)務(wù)場景中的常見任務(wù)。

　　小樣本：

　　為了還原真實(shí)業(yè)務(wù)場景中大規(guī)模高質(zhì)量標(biāo)注數(shù)據(jù)積累困難的情況，訓(xùn)練集從18個任務(wù)中選取了14個作為訓(xùn)練集任務(wù)，每個任務(wù)提供20條標(biāo)注樣本，共計(jì)280條標(biāo)注樣本。測試集從18個任務(wù)中選取了14個作為測試集任務(wù)，每個任務(wù)提供400條測試樣本，分A/B榜測試。

　　問題建模：

　　由于預(yù)訓(xùn)練語言模型在NLP領(lǐng)域中大放異彩，因此是本次比賽中不可或缺的一部分。

　　具體地，有以下兩類方案：

　　1.使用NLU類型的預(yù)訓(xùn)練語言模型。由于本次賽題的任務(wù)都屬于NLU范疇，因此可以使用諸如BERT之類的NLU模型進(jìn)行建模。

　　2.使用NLG類型的預(yù)訓(xùn)練語言模型(諸如T5，BART)，將所有的任務(wù)都轉(zhuǎn)換為序列生成任務(wù)，也是baseline中的做法。

　　由于部分任務(wù)只在測試集中出現(xiàn)而沒有相應(yīng)的訓(xùn)練樣本，如果使用BERT等NLU模型無法有效處理這部分任務(wù)，因此我采用第二種方案。

3.數(shù)據(jù)探索與特征工程

　　模型結(jié)構(gòu)：

　　訓(xùn)練集從18個自然語言處理任務(wù)中選取了14個作為訓(xùn)練集任務(wù)，每個任務(wù)提供20條標(biāo)注樣本，共計(jì)280條標(biāo)注樣本。

　　測試集從18個任務(wù)中選取了14個作為測試集任務(wù)，每個任務(wù)提供400條測試樣本，A/B榜各200條。

　　此外，主辦方還提供70個開源數(shù)據(jù)集，每個數(shù)據(jù)集從原始數(shù)據(jù)中采樣約500條(共計(jì)70*500條數(shù)據(jù))，構(gòu)建了opensource_sample_500.json，用于輔助統(tǒng)一模型訓(xùn)練。

　　數(shù)據(jù)增強(qiáng)：

　　擾動verbalizer在instruction中的出現(xiàn)順序。通過該方法可以利用一條數(shù)據(jù)生成多條數(shù)據(jù)。

　　該數(shù)據(jù)增強(qiáng)方法可同時(shí)應(yīng)用于opensource訓(xùn)練數(shù)據(jù)，instruction訓(xùn)練數(shù)據(jù)，以及instruction測試數(shù)據(jù)。

4.模型訓(xùn)練

　　模型選擇(方案一)

　　BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension

　　模型選擇(方案二)

　　CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation

　　模型選擇(方案三)

　　mT5: A massively multilingual pre-trained text-to-text transformer

　　不同模型在opensource驗(yàn)證集上的表現(xiàn)

　　mt5-large > cpt-large > bart-large

　　因此模型最終選擇方案三

　　即int8量化的單模單折mt5-large模型

5.Tricks

　　1.在數(shù)據(jù)增強(qiáng)部分有提到：該增強(qiáng)方法可同時(shí)應(yīng)用于opensource訓(xùn)練數(shù)據(jù)，instruction訓(xùn)練數(shù)據(jù)，以及instruction測試數(shù)據(jù)。實(shí)驗(yàn)發(fā)現(xiàn)對于opensource訓(xùn)練數(shù)據(jù)和instruction訓(xùn)練數(shù)據(jù)的增強(qiáng)并不會帶來收益，因此只對instruction測試數(shù)據(jù)進(jìn)行了增強(qiáng)。

　　2.Constrained decoding：分析bad case的時(shí)候，發(fā)現(xiàn)有部分生成的結(jié)果未出現(xiàn)在verbalizer(即候選項(xiàng)中)，可以通過constrained decoding強(qiáng)制輸出中出現(xiàn)verbalizer 中的token。然而這類bad case并不多，會影響萬分位。