88IV - Hot News

OpenAI 正式發布影片生成模型Sora @ 2024-02-18T16:

Keyword：影片生成文字模型

Concept：文字生成影片模型

說到文字生成影片的ＡＩ模型，ＭＥＴＡ、ＧＯＯＧＬＥ、ＲＵＮＷＡＹ等都其實也有，甚至有提供公眾使用，不過ＯＰＥＮＡＩ的ＳＯＲＡ是目前唯一能生成６０秒長的內容，而且是整段影片一口氣生成，而非像其他模型般逐格生成再連續播放。

ＯＰＥＮＡＩ名為ＳＯＲＡ的新人工智能模型可以根據文本提示生成細節豐富的影片。該技術在令許多人驚歎的同時也引發了混淆視聽的擔憂。ＯＰＥＮＡＩ表示，一組研究人員將找出該工具可能被濫用的方式來予以防范。ＯＰＥＮＡＩ旗下的人工智能工具包括ＣＨＡＴＧＰＴ。封面圖片來源：ＯＰＥＮＡＩ

ＯＰＥＮＡＩ表示，ＳＯＲＡ目前為未完成的產品，可能難以消化復雜的物理或空間細節，導致生成不合邏輯的影片，例如：人在跑步機上可能跑錯方向，或博物館影片中地板會「移動」及影片中被咬的餅干不會出現被咬過後的缺口等，目前僅對正在評估潛在危害和風險的「紅隊成員」開放，以幫助識別系統中的缺陷，藉此獲得使用回饋。依照ＯＰＥＮＡＩ技術推進及ＡＩ成長速度，一般預料，明年文字生成影片這項功能，就會有機會進入一般消費者可以使用存取的應用階段。

【明報專訊】ＣＨＡＴＧＰＴ母企ＯＰＥＮＡＩ公布開發了全新的ＡＩ模型ＳＯＲＡ（日文指天空），它可根據文字提示，生成１分鍾的高清影片，又或基於靜態圖像生成影片，並可在原有的影片加入新的影像。該模型暫未對外開放，目前僅供少數研究員及電影制作人使用，以評估該模型被濫用的風險。ＯＰＥＮＡＩ正測試用戶能否繞過其服務條款限制，生成違規的極端暴力、色情、仇恨或侵權影像。部分影片制作者憂慮，新模型令影視業者飯碗不保。

從技術層面而言，ＳＯＲＡ是一個擴散模型，能從一個看似靜態噪音（ＳＴＡＴＩＣＮＯＩＳＥ）的影格開始，逐步透過去除噪音生成一則影片。ＳＯＲＡ是在ＤＡＬＬ-Ｅ及ＧＰＴ模型的研究基礎上發展，它使用ＤＡＬＬ-Ｅ３的重描述（ＲＥＣＡＰＴＩＯＮＩＮＧ）技術，能為視覺訓練資料產生高度描述文字，因此能依循用戶文字指令產生影片。除了根據文字指示外，該模型也能將靜態圖片動態化以生成影片。ＳＯＲＡ能從無到有生成全新影片，也能延長現有影片，或是將遺失的影格補上。

ＯＰＥＮＡＩ的ＳＯＲＡ模型可以透過輸入文字或者圖片自動生成長達６０秒的影片，從示范片段中可見，生成的影片無論在畫質、影片中物件的連貫性以及對人體和物理環境的描繪准確度都相當強勁，相對於ＲＵＮＷＡＹ、ＰＩＫＡ和ＳＴＡＢＩＬＩＴＹＡＩ等初創公司的類似模型，以及ＧＯＯＧＬＥ的ＬＵＭＩＥＲＥ模型等都有優勢。ＯＰＥＮＡＩ指，ＳＯＲＡ使用的技術是基於過往開發ＤＡＬＬ-Ｅ和ＧＰＴ系列模型的經驗，基於ＴＲＡＮＳＦＯＲＭＥＲ架構開發，能夠在流暢度和畫質上帶來極佳表現。

生成式人工智能（ＧＥＮＡＩ）巨頭ＯＰＥＮＡＩ去年藉ＣＨＡＴＧＰＴ而為人熟悉，其後也開發出文字、圖片各類生成工具。近日ＯＰＥＮＡＩ又有「新搞作」，於昨（１５日）公布影片生成ＡＩ模型「ＳＯＲＡ」。

外媒報道，人工智能(ＡＩ)公司ＯＰＥＮＡＩ正在開發一款可以「文字轉影片」的ＡＩ模型「ＳＯＲＡ」，原理和ＯＰＥＮＡＩ的圖像生成ＡＩ工具ＤＡＬＬ-Ｅ類似，透過使用者輸入的文字提示來生成影片，目前僅能生成最多１分鍾的影片。

ＣＨＡＴＧＰＴ開發公司ＯＰＥＮＡＩ日前推出新生成式人工智能（ＡＩ）模型「ＳＯＲＡ」，可根據文字提示及要求生成短影片，雖然目前只提供最長６０秒ＡＩ生成影片，畫面細節亦尚有少許瑕疵，但影片質素及多元化依然令各界印象深刻，加上ＳＯＲＡ為當今唯一進入「影片生成」市場的產品，因而引發熱烈討論。分析認為ＳＯＲＡ的面世不但令ＡＩ風潮持續加溫，亦造成三大行業即將變天。

ＯＰＥＮＡＩ１５日正式發布影片生成模型ＳＯＲＡ，該模型只要輸入簡短文字，就能生成約一分鍾影片。

ＯＰＥＮＡＩ宣布發布首個視頻生成模型ＳＯＲＡ，能夠根據文字提示生成影片。

就在今（１６）日凌晨，ＯＰＥＮＡＩ在Ｘ上介紹一款名為ＳＯＲＡ的新模型，其建立在ＤＡＬＬ·Ｅ和ＧＰＴ模型的研究之上，可根據文字提示生成長度一分鍾的影片。盡管目前尚未向市場推出，但釋出的范例影片已引起社群廣泛討論。

ＯＰＥＮＡＩ在官網上展示了ＳＯＲＡ多個應用范例，並公開了這些影片生成的文字指令，其中一個仿若來自真實東京街頭場景，一名身著皮衣、紅色長裙女人走在街頭的影片，ＯＰＥＮＡＩ在影片下方公開其畫面指令，無論是影片里出現的女人臉上出現的墨鏡、紅色口紅，街道潮濕反光、五顏六色的燈光、行人四處走動等場景細節，無一不符合該生成影片文字描述。

創造聊天機械人ＣＨＡＴＧＰＴ的人工智能（ＡＩ）公司ＯＰＥＮＡＩ，今日（１６日）公布推出一款名為「ＳＯＲＡ」的影片生成工具模型，能根據使用者給予的文字指令生成短影片，片長度最多６０秒，也可依據靜態圖像制作動畫。

ＣＨＡＴＧＰＴ開發商ＯＰＥＮＡＩ發布影片生成模型「ＳＯＲＡ」，展示多條基於文字生成的ＡＩ生成影片

人工智能公司ＯＰＥＮＡＩ公布新生成式ＡＩ模型「ＳＯＲＡ」，可利用根據文字提示生成短影片，現時尚未開放公眾使用。

[ＮＥＷＴＡＬＫ新聞] 人工智慧新創公司ＯＰＥＮＡＩ宣布正在開發名為ＳＯＲＡ的新模型，可根據文字提示生成短影片。盡管尚未向大眾開放使用，但已引起網上回響。根據ＯＰＥＮＡＩ在社群平台上的宣布，ＳＯＲＡ能夠根據用戶給予的提示生成包含多個角色和特定類型的動態畫面的影片。它將根據提示的主題與背景精准生成影片內容，並呈現復雜的攝影機運鏡，影片長度最多可達６０秒。此外，ＳＯＲＡ還可以根據靜態影像制作動畫。ＳＯＲＡ是一個類似於ＭＥＴＡ和ＧＯＯＧＬＥ釋出的ＥＭＵＶＩＤＥＯ及ＶＩＤＥＯＰＯＥＴ的人工智模型。然而，ＯＰＥＮＡＩ指出，ＳＯＲＡ目前仍處於未完成階段，可能難以處理復雜的物理或空間細節，可能導致生成不合邏輯的影片。該公司表示，ＳＯＲＡ目前可用於紅隊演練，以幫助識別人工智慧系統中的缺陷，同時也可供視覺藝術家、設計師和電影制作人使用。面對產品引起的爭議，ＯＰＥＮＡＩ強調正在開發工具用以檢測影片是否由ＳＯＲＡ生成。未來，ＯＰＥＮＡＩ也將利用團隊現有的安全技術，為ＳＯＲＡ加入安全措施。例如，文字分類器將會拒絕違反使用政策的提示，而圖像分類器

生成影片的ＡＩ其實並不新鮮，從ＧＯＯＧＬＥ、ＭＥＴＡ等科技巨頭到成立不滿一年的新創ＰＩＫＡＬＡＢＳ等公司，都發表過生成影片的ＡＩ技術。而ＳＯＲＡ最大的特點在於極其逼真，外媒《ＷＩＲＥＤ》聲稱，這是沒有在其他影片生成ＡＩ模型中看見過的真實感，並且生成的影片長於其他模型。

ＯＰＥＮＡＩ將推出新ＡＩ模型可透過文字生成短影片

經過測試，ＳＯＲＡ可以生成各種風格（包括真實電影，動漫風或黑白）的影片，長度可達一分鍾，遠遠超過目前大多數其他市面上的文字轉影片模型，而且這些影片都盡可能在保持合理的連貫性上，像是他們展示的第一款影片中除了文字之外，街上水窪的倒影、衣服隨走路的擺動效果，甚至是主角臉上的肌理都栩栩如生。

（中央社舊金山１５日綜合外電報導）創造聊天機器人ＣＨＡＴＧＰＴ和圖像生成器ＤＡＬＬ-Ｅ的科技公司ＯＰＥＮＡＩ表示，公司正在測試一款由文本轉為影片的模型ＳＯＲＡ，能讓用戶透過簡單的指令創造出逼真的影片。

88iv | Home | Login

Forum rule | About Us | Contact Info | Terms & Conditions | Privacy Statment | Disclaimer

Copyright (C) 2025

Suntek Computer Systems Limited.

All rights reserved