|
標貝(青島)科技有限公司
| 聯(lián)系人:郭女士
先生 (市場經(jīng)理) |
| 電 話:400-8982016 |
手 機:15321344012  |
 |
|
 |
|
| AI訓練數(shù)據(jù)集 |
2023年3月14日,OpenAI發(fā)布了多模態(tài)大模型的*新版本GPT-4:文生視頻大模型Sora,Sora通過采用更大規(guī)模的AI訓練數(shù)據(jù)集進行訓練,其推理能力超過了ChatGPT,已成為目前*成功、*受歡迎的大模型。
Sora的出現(xiàn),打破了人們對AI技術復雜、使用門檻高的固有思維。雖然谷歌提出了比Sora高10倍參數(shù)量的大模型(如Switch Transformer),且Sora的核心算法采用谷歌提出的Transformer架構,但是谷歌卻敗給了OpenAI。我們分析AI訓練數(shù)據(jù)集的數(shù)據(jù)規(guī)模、數(shù)據(jù)處理方式、用戶數(shù)據(jù)-模型飛輪是Sora成功的關鍵。
1、龐大的AI訓練數(shù)據(jù)集規(guī)模是Sora成功的基礎
Sora訓練的AI訓練數(shù)據(jù)集主要包括網(wǎng)站、書籍、社交媒體平臺等,80%以上的AI訓練數(shù)據(jù)集來自GPT3使用的AI訓練數(shù)據(jù)集。這些AI訓練數(shù)據(jù)集包含大量的文本數(shù)據(jù),用于自然語言處理等領域的研究和應用。
2、高效的數(shù)據(jù)處理方式是Sora脫穎而出的重要技術
Sora在基礎技術方面并未有大的突破,主要是在數(shù)據(jù)清洗、人工標注反饋和整體系統(tǒng)工程化方面取得了進展,從而使其整體效果相比之前的系統(tǒng)取得了較大飛躍。OpenAI團隊也表示他們采用了多項措施確保AI訓練數(shù)據(jù)集的質(zhì)量和準確性,尤其數(shù)據(jù)篩選、數(shù)據(jù)收集、工程化(千億級token編碼、人工標注)等起了關鍵作用。
3、爆發(fā)式的用戶數(shù)據(jù)促進產(chǎn)品質(zhì)量與用戶規(guī)模形成飛輪效應保證的Sora的火爆
Sora的服務開放給公眾,同時可收集海量、多樣化的數(shù)據(jù),搶得數(shù)據(jù)獲取先機。幾億用戶為Sora貢獻數(shù)據(jù),進一步訓練和微調(diào)使得Sora更符合用戶需求,吸引更多用戶為其免費提供數(shù)據(jù)。由此模型的數(shù)據(jù)飛輪快速轉(zhuǎn)動起來,用戶數(shù)據(jù)質(zhì)量越高,迭代模型效果越好。
由Sora的分析可知,AI訓練數(shù)據(jù)集將是決定模型好壞的關鍵。據(jù)DeepMind 研究團隊預測大模型所需AI訓練數(shù)據(jù)集規(guī)模隨參數(shù)量的增加而增加。然而隨著AI訓練數(shù)據(jù)集規(guī)模增加,相應數(shù)據(jù)質(zhì)量將越難控制。AI訓練數(shù)據(jù)集的管理將是大模型發(fā)展面臨的一大困境。
通 |
 |
| |
|
|
 |
|
|