• <span id="n97xl"><optgroup id="n97xl"></optgroup></span>
          1. <li id="n97xl"></li>
            <label id="n97xl"><meter id="n97xl"></meter></label>

              【EMNLP2024】阿里云人工智能平臺PAI多篇論文入選EMNLP2024

                 2024-11-07 10036
              核心提示:近期,阿里云人工智能平臺 PAI 的多篇論文在 EMNLP2024 上入選。

              近期,阿里云人工智能平臺 PAI 的多篇論文在 EMNLP2024 上入選。論文成果是阿里云與華南理工大學金連文教授團隊、復旦大學王鵬教授團隊共同研發。EMNLP 是人工智能自然語言處理領域的頂級國際會議,聚焦于自然語言處理技術在各個應用場景的學術研究,尤其重視自然語言處理的實證研究。該會議曾推動了預訓練語言模型、文本挖掘、對話系統、機器翻譯等自然語言處理領域的核心創新,在學術和工業界都有巨大的影響力。此次入選標志著阿里云人工智能平臺 PAI 在自然語言處理和多模態算法能力方面研究獲得了學術界認可。

              論文簡述

              面向長文本的文視頻表征學習與檢索模型 VideoCLIP-XL

              CLIP 模型在視覺-語言預訓練領域已經取得了重要進展。然而,原始 CLIP 模型的一個顯著局限性是處理長文本描述的能力受限。原始 CLIP 模型的訓練過程中對簡短的摘要性文本的強調迫使文本/視覺編碼器主要關注文本/視覺輸入中的主要特征,常常忽視一些較小但潛在關鍵的細節。為了解決這些限制,該工作提出了一個名為 VideoCLIP-XL 的視頻 CLIP 模型,旨在提升對視頻的長文本描述的理解能力。其首先構建了一個大規模的視頻-長描述配對數據集 VILD,并在預訓練階段提出了一種文本相似度引導的主成分匹配方法(TPCM)來優化高維特征空間的學習。

              此外,該工作提出能夠理解長描述的視頻 CLIP 模型應當體現兩個特征:給定一個視頻及其相關描述,CLIP 類模型應該對(1)具有更豐富和更精確細節的描述以及(2)在相同細節水平下更準確即幻覺更少的描述賦予更高的分數。為此,其提出兩個新的預訓練任務:細節描述排序(DDR)和幻覺描述排序(HDR)。此外,該工作也建立了一個新的視頻長描述排序基準測評集(LVDR),來更全面地評估視頻 CLIP 模型的性能。

              基于多任務課程規劃的大語言模型蒸餾算法

              大語言模型在回答開放領域通用任務的指令上取得了很大地進步。指令微調是微調預訓練模型,使其從文本補全模型成為強大的對話模型的關鍵。盡管已有研究探索了使用強大的黑盒教師模型(如GPT-4, Qwen-max)來自動蒸餾和標注指令的方法,但這些研究往往忽視了微調訓練集中任務的多樣性分布,以及訓練集中指令難度的差異,這可能導致學生 LLMs 知識能力的不平衡和解決復雜任務的能力的不足。為了解決這些挑戰,這篇文章介紹了一個名為 TAPIR 的知識蒸餾框架,它通過多任務課程規劃來蒸餾黑盒大語言模型的指令回答能力,在蒸餾和多輪迭代過程中,使用教師 LLM 做為裁判找出對于學生 LLM 來說難以回答的指令,進行難度重采樣。并調整多任務配比進行訓練集中的任務多樣性分布的重采樣,并根據相應多任務特點自動優化教師模型的回答風格。

              該工作創新性地用顯式的任務標簽配比代替隱式的句向量多樣性。在任務重采樣的過程中,大大增加數學推理代碼類任務的數據比例。首次提出了模型擬合難度 (MFD) 指標,來表示數據難度大小,并在多輪迭代優化的過程中提升困難數據占比。提升模型從弱到強的泛化速度。在 Alpacaeval 排行榜上,我們微調后的 LLaMA2-7B 底座獲得了7.8的相對分數,超過了參數量、數據量都遠大于我們的知名開源模型模型(LLaMA2-Chat-13B,Vicuna 13B)。我們持續優化了 Qwen 系列模型的指令回答能力,優化 Qwen1.5系列模型在 Alpacaeval 榜單上提升3-8個百分點。

              產品化服務

              上述科研成果也在人工智能平臺PAI的各個模塊進行了深度的集成和整合,持續為PAI客戶提供AI模型訓練和推理相關服務。其中,VideoCLIP-XL作為文視頻質量評估模塊,與EasyAnimate視頻生成解決方案無縫融合,支持用戶輕松實現文視頻語義一致性計算和數據過濾,從而訓練AIGC視頻生成大模型。在智碼實驗室,我們也上架了“VideoCLIP-XL:面向超長文本的文視頻跨模態特征抽取”的notebook。

              用于數據增強和改寫的蒸餾模型也已經上架PAI平臺,為用戶提供簡單易用的大模型蒸餾解決方案。基于Qwen2的開源模型,PAI也在開源了DistilQwen2蒸餾小模型系列,進一步提升了模型的指令跟隨能力,在HuggingFace和ModelScope開源社區開放下載。

              此外,PAI-QuickStart集成了超過50個熱門大語言模型,及其多種訓練和推理方式,使客戶更加簡單地微調和部署大語言模型。在未來,我們也將在PAI平臺上持續提供業界領先的算法和模型能力給廣大客戶。

              資源鏈接

              -視頻多模態

               EasyAnimate開源項目:https://github.com/aigc-apps/EasyAnimate

                VideoCLIP-XL:https://huggingface.co/alibaba-pai/VideoCLIP-XL

                VideoCLIP-XL-v2:https://huggingface.co/alibaba-pai/VideoCLIP-XL-v2

                LVDR數據集:https://huggingface.co/alibaba-pai/LVDR

                VILD數據集:https://huggingface.co/alibaba-pai/VILD

                VideoCLIP-XL:面向超長文本的文視頻跨模態特征抽取:https://gallery.pai-ml.com/#/preview/deepLearning/cv/videoclipxl

              大模型蒸餾

              ● 大語言模型數據增強與模型蒸餾解決方案:https://help.aliyun.com/zh/pai/use-cases/llm-data-enhancement-and-model-distillation-solution

                DistilQwen2蒸餾小模型系列

              alibaba-pai/DistilQwen2-7B-Instruct

                https://huggingface.co/alibaba-pai/DistilQwen2-7B-Instruct

                https://modelscope.cn/models/PAI/DistilQwen2-7B-Instruct

              alibaba-pai/DistilQwen2-1.5B-Instruct

                https://huggingface.co/alibaba-pai/DistilQwen2-1.5B-Instruct

                https://modelscope.cn/models/PAI/DistilQwen2-1.5B-Instruct

              論文匯總

              論文名字:VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP Models

              論文作者:汪嘉鵬、汪誠愚、黃坤哲、黃俊、金連

              論文pdf鏈接:https://arxiv.org/abs/2410.00741

              論文名字:Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning

              論文作者:岳元浩、汪誠愚、黃俊、王鵬

              論文pdf鏈接:https://arxiv.org/abs/2405.13448

               

              阿里云人工智能平臺 PAI 長期招聘研究實習生。團隊專注于深度學習算法研究與應用,重點聚焦大語言模型和多模態 AIGC 大模型的應用算法研究和應用。

              簡歷投遞和咨詢:chengyu.wcy@alibaba-inc.com。

               

               
              分享到: 0
              收藏 0
               
              更多>同類資訊
              免責申明
              推薦資訊
              點擊排行
              最新資訊更多>
              最新供應更多>
              網站首頁  |  聯系方式  |  關于我們  |  問題解析  |  版權隱私  |  使用協議  |  網站地圖  |  排名推廣  |  廣告服務  |  積分換禮  |  網站留言  |  RSS訂閱  |  違規舉報  |  粵ICP備1207862號

              中國智能化網(zgznh®)--引領工業智能化產業發展 共享智能化+優質平臺

              版權所有:深圳市智控網絡有限公司 學術指導:深圳市智能化學會

              粵ICP備12078626號

              深公網安備案證字第 4403101901094 號 | 粵公網安備 44030702001206號

               
              主站蜘蛛池模板: 色与欲影视天天看综合网| 国产精品九九久久精品女同亚洲欧美日韩综合区 | 欧美国产日韩综合在线| 桃花色综合影院| 成人综合伊人五月婷久久| 伊人久久大香线焦综合四虎| 国产日韩欧美综合| 香蕉蕉亚亚洲aav综合| 亚洲综合av永久无码精品一区二区| 欧美激情综合亚洲一二区| 一日本道伊人久久综合影| 亚洲国产成人久久综合野外| 国产欧美精品一区二区色综合 | 欧美亚洲综合免费精品高清在线观看| 一本一道色欲综合网中文字幕| 国产成人综合精品一区| 青青草原综合久久大伊人导航| 久久综合久久美利坚合众国| 天天做天天爱天天综合网| 久久婷婷成人综合色综合| 欧美综合自拍亚洲综合网| 亚洲综合色在线观看亚洲| 婷婷五月综合色视频| 久久久久综合国产欧美一区二区| 欧美精品综合视频一区二区| 伊人久久综合精品无码AV专区 | 台湾佬综合娱乐| 奇米综合四色77777久久| 国产天天综合永久精品日| 91精品欧美综合在线观看| 久久亚洲高清综合| 狠狠色丁香久久婷婷综合_中| 国产综合精品久久亚洲| 欧美日韩国产综合视频在线看| 99久久婷婷国产综合亚洲| 亚洲综合自拍成人| 国产精品欧美亚洲日本综合| 综合久久国产九一剧情麻豆| 欧美一区二区三区久久综合| 亚洲综合一区二区精品导航| 自拍 偷拍 另类 综合图片|