<bdo id="7433k"></bdo><noframes id="7433k"><rt id="7433k"></rt><bdo id="7433k"><rt id="7433k"><noframes id="7433k"><rt id="7433k"><delect id="7433k"><bdo id="7433k"></bdo></delect></rt><noframes id="7433k"><delect id="7433k"></delect><bdo id="7433k"><rt id="7433k"><noframes id="7433k"><noframes id="7433k"><rt id="7433k"><delect id="7433k"></delect></rt><rt id="7433k"><delect id="7433k"><delect id="7433k"></delect></delect></rt><delect id="7433k"></delect> <noframes id="7433k"><noframes id="7433k"><noframes id="7433k"><noframes id="7433k"><rt id="7433k"><noframes id="7433k"><rt id="7433k"></rt><rt id="7433k"></rt><noframes id="7433k"><rt id="7433k"><rt id="7433k"></rt></rt><noframes id="7433k"><rt id="7433k"></rt><noframes id="7433k"><rt id="7433k"><rt id="7433k"></rt></rt> <noframes id="7433k"><delect id="7433k"><bdo id="7433k"></bdo></delect><noframes id="7433k"><rt id="7433k"></rt><noframes id="7433k"><rt id="7433k"></rt><noframes id="7433k"><delect id="7433k"></delect><noframes id="7433k"><noframes id="7433k"><noframes id="7433k"><delect id="7433k"></delect><rt id="7433k"><delect id="7433k"><delect id="7433k"></delect></delect></rt><noframes id="7433k"><noframes id="7433k"><noframes id="7433k">
人工智能

賽事評獎|“中文保險小樣本多任務競賽”知識工場團隊方案——2022AIWIN(春季)世界人工智能創新大賽優秀方案分享系列

2025China.cn   2022年08月08日

賽事評獎

  賽事評獎是世界人工智能大會(WAIC)“會、展、賽、用”四大板塊之一,由世界人工智能大會組委會主辦,上海市人工智能行業協會作為唯一組織、服務、支撐和管理單位。

  WAIC 2022現有品牌賽事包括:AIWIN世界人工智能創新大賽,BPAA全球算法最佳實踐典范大賽,黑客馬拉松和團市委青少年人工智能創新大賽。根據世界人工智能大會SAIL獎的推薦規則和資格要求,品牌賽事承辦方將有機會推薦本賽事中的優秀項目參與SAIL獎評選。

  2022年AIWIN世界人工智能創新大賽春季賽與太平洋保險、國泰君安、SMG技術中心(上海東方傳媒技術有限公司)三家出題方聯合舉辦了中文保險小樣本多任務競賽、發債企業的違約風險預警競賽、文本語音驅動數字人表情口型競賽三場AI算法技術賽事。目前中文保險小樣本多任務競賽、發債企業的違約風險預警競賽已完成競賽,為了讓小伙伴們更好地通過賽事交流學習,在7-8月之間每周二,我們將陸續邀請優秀的賽事團隊分享賽事方案,大家敬請期待。

  今天分享的是“中文保險小樣本多任務競賽”知識工廠團隊的方案,他們獲得本賽題的第6名。

1.團隊簡介

  陸軒韜

  復旦大學 軟件工程 碩士研究生二年級 @知識工場實驗室

  本科畢業于 華東師范大學 計算機科學與技術

  字節跳動 AI-LAB NLP算法工程師(實習)

  曾多次在國內外自然語言處理競賽中獲得top名次與獎項

  過往獲獎情況:

  ? 2022 Kaggle - Feedback Prize - Evaluating Student Writing 銀牌

  ? 2022 山東省第三屆數據應用創新創業大賽 - 網格事件智能分類 亞軍

  ? 2021 iFLYTEK 科大訊飛AI 開發者大賽-非標準化疾病訴求的簡單分診挑戰賽 冠軍

  ? 2021 CCKS 華為-面向通信領域的事件共指消解任務 亞軍

  ? 2021 iFLYTEK 科大訊飛AI 開發者大賽-試題標簽預測挑戰賽 季軍

  ? 2021 DIGIX 華為全球校園AI 算法精英大賽-基于多模型遷移預訓練文章質量判別 季軍

2.賽題理解與問題建模

  賽題理解:

  本次賽題目標為探索統一范式的多任務小樣本學習。

  多任務:

  賽題覆蓋了保險真實業務場景中常見的保險領域、醫療領域和金融領域,包括文本分類、文本相似度、自然語言推斷、命名實體識別和機器閱讀理解等五大基礎自然語言理解任務,具體為18個保險業務場景中的常見任務。

  小樣本:

  為了還原真實業務場景中大規模高質量標注數據積累困難的情況,訓練集從18個任務中選取了14個作為訓練集任務,每個任務提供20條標注樣本,共計280條標注樣本。測試集從18個任務中選取了14個作為測試集任務,每個任務提供400條測試樣本,分A/B榜測試。

  問題建模:

  由于預訓練語言模型在NLP領域中大放異彩,因此是本次比賽中不可或缺的一部分。

  具體地,有以下兩類方案:

  1.使用NLU類型的預訓練語言模型。由于本次賽題的任務都屬于NLU范疇,因此可以使用諸如BERT之類的NLU模型進行建模。

  2.使用NLG類型的預訓練語言模型(諸如T5,BART),將所有的任務都轉換為序列生成任務,也是baseline中的做法。

  由于部分任務只在測試集中出現而沒有相應的訓練樣本,如果使用BERT等NLU模型無法有效處理這部分任務,因此我采用第二種方案。

3.數據探索與特征工程

  模型結構:

  訓練集從18個自然語言處理任務中選取了14個作為訓練集任務,每個任務提供20條標注樣本,共計280條標注樣本。

  測試集從18個任務中選取了14個作為測試集任務,每個任務提供400條測試樣本,A/B榜各200條。

  此外,主辦方還提供70個開源數據集,每個數據集從原始數據中采樣約500條(共計70*500條數據),構建了opensource_sample_500.json,用于輔助統一模型訓練。

  數據增強:

  擾動verbalizer在instruction中的出現順序。通過該方法可以利用一條數據生成多條數據。

  該數據增強方法可同時應用于opensource訓練數據,instruction訓練數據,以及instruction測試數據。

4.模型訓練

  模型選擇(方案一)

  BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension

  模型選擇(方案二)

  CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation

  模型選擇(方案三)

  mT5: A massively multilingual pre-trained text-to-text transformer

  不同模型在opensource驗證集上的表現

  mt5-large > cpt-large > bart-large

  因此模型最終選擇方案三

  即int8量化的單模單折mt5-large模型

5.Tricks

  1.在數據增強部分有提到:該增強方法可同時應用于opensource訓練數據,instruction訓練數據,以及instruction測試數據。實驗發現對于opensource訓練數據和instruction訓練數據的增強并不會帶來收益,因此只對instruction測試數據進行了增強。

  2.Constrained decoding:分析bad case的時候,發現有部分生成的結果未出現在verbalizer(即候選項中),可以通過constrained decoding強制輸出中出現verbalizer 中的token。然而這類bad case并不多,會影響萬分位。

  Ximing Lu, et al. [2021] NEUROLOGIC A*esque Decoding: Constrained Text Generation with Lookahead Heuristics.

6.實驗結果

  A榜主要實驗結果

7.總結

  1.量化過的大模型相較于同量級的小模型,通常能夠取得更好的結果,并擁有更快的推理速度。

  2.Inference Ensemble(數據增強)能夠在只使用單一模型的情況下,同樣達到良好的集成效果。

  3.Constrained decoding:學術界的熱點問題之一,比賽中這類bad case并不多,所以效果不明顯,但是仍不失為是一個很有前景的方法。

  4.小樣本場景下,引入額外的外部數據能夠有效地幫助模型達到一個更好的初始狀態。

想一起交流學習的小伙伴

可掃碼加入“AIWIN算法競賽俱樂部”

掃碼完成云觀眾預注冊

(轉載)

標簽:世界人工智能大會 我要反饋 
參與ABB電機與發電機拼圖挑戰賽贏取探廠等好禮,快來挑戰!
2024漢諾威工業博覽會專題
西克
2023世界人工智能大會專題
專題報道
2024漢諾威工業博覽會專題
2024漢諾威工業博覽會專題

2024 漢諾威工業博覽會將于4月22 - 26日在德國漢諾威展覽中心舉行。作為全球首屈一指的工業貿易展覽會,本屆展覽會

安全走向數字化
安全走向數字化

如果說安全是過程工業的基本盤,數字化是過程工業的新錨點,那么作為2023 NAMUR中國年會唯一的贊助商,HIMA與這次

第三屆EESA儲能展
第三屆EESA儲能展

EESA儲能展是由儲能領跑者聯盟主辦的品牌展會,創辦至今已經連續舉辦了兩屆。為加快適應儲能規?;l展的步伐,促進儲能行業

最近最新中文字幕大全免费版,亚洲性无码AV在线观看DVD,久久996RE热这里有精品,久久99精品久久久久久清纯
<bdo id="7433k"></bdo><noframes id="7433k"><rt id="7433k"></rt><bdo id="7433k"><rt id="7433k"><noframes id="7433k"><rt id="7433k"><delect id="7433k"><bdo id="7433k"></bdo></delect></rt><noframes id="7433k"><delect id="7433k"></delect><bdo id="7433k"><rt id="7433k"><noframes id="7433k"><noframes id="7433k"><rt id="7433k"><delect id="7433k"></delect></rt><rt id="7433k"><delect id="7433k"><delect id="7433k"></delect></delect></rt><delect id="7433k"></delect> <noframes id="7433k"><noframes id="7433k"><noframes id="7433k"><noframes id="7433k"><rt id="7433k"><noframes id="7433k"><rt id="7433k"></rt><rt id="7433k"></rt><noframes id="7433k"><rt id="7433k"><rt id="7433k"></rt></rt><noframes id="7433k"><rt id="7433k"></rt><noframes id="7433k"><rt id="7433k"><rt id="7433k"></rt></rt> <noframes id="7433k"><delect id="7433k"><bdo id="7433k"></bdo></delect><noframes id="7433k"><rt id="7433k"></rt><noframes id="7433k"><rt id="7433k"></rt><noframes id="7433k"><delect id="7433k"></delect><noframes id="7433k"><noframes id="7433k"><noframes id="7433k"><delect id="7433k"></delect><rt id="7433k"><delect id="7433k"><delect id="7433k"></delect></delect></rt><noframes id="7433k"><noframes id="7433k"><noframes id="7433k">