Open AI發布新聞稿,引入兩個新的GPT-3模型:CLIP(可將圖像從任意文本分類到類別中)和DALL·E(可從文本生成圖像)。
其中,CLIP神經網絡可以從自然語言監督中有效學習視覺概念。只需提供要識別的視覺類別的名稱即可使用CLIP(對比語言 - 圖像預訓練),將其應用於任何視覺分類基準,類似於GPT-2和3的「零鏡頭」功能。
「我們生活在視覺世界中,」 OpenAI首席科學家Ilya Sutskever說。從長遠來看,您將擁有同時理解文本和圖像的模型。人工智慧將能夠更好地理解語言,因為它可以看到單詞和句子的含義。
OpenAI擴展的GPT-3兩個新模型,結合了NLP和圖像識別,使其人工智慧更好地理解日常概念。
(文章來源:鈦媒體)