文 | 定焦One 陳丹
編輯 | 魏佳
Sora2的發(fā)布,再次攪動了全球人工智能行業(yè)的神經(jīng)。
9月30日,OpenAI正式推出其視頻生成模型的重大升級版本——Sora2,以及基于該模型的社交應用Sora App。與前一代相比,Sora2在物理模擬的精確度、畫面逼真度和生成可控性上顯著提升,并實現(xiàn)了音頻與人物對話的同步生成。這不僅讓AI視頻更“像真的”,也讓視頻生產(chǎn)“像寫字”一樣簡單。
短短五天,Sora App下載量便突破百萬次;應用分析機構App Figures數(shù)據(jù)顯示,其首周iOS下載量達62.7萬次,高于ChatGPT首周的60.6萬次。盡管Sora App仍處“僅限邀請”階段,但它的下載量增速超過了當年的ChatGPT。有觀點稱其為AI版的“TikTok”,被寄望成為下一個全球現(xiàn)象級應用。
在國內(nèi),Sora2同樣掀起熱潮。國慶期間,OpenAI CEO薩姆·奧特曼成為社交媒體上流量擔當。他開放了個人肖像權,點燃了網(wǎng)友們的創(chuàng)作熱情,其數(shù)字分身從商店偷GPU被抓包、與李小龍對打。這些病毒式傳播的短視頻,也加速了Sora2的出圈。
除了用戶端,Sora2的發(fā)布也讓行業(yè)按下了加速鍵。大廠加速產(chǎn)品迭代,10月15日,百度宣布旗下視頻生成模型百度蒸汽機再次升級,支持AI長視頻實時交互生成;次日,谷歌發(fā)布視頻模型Veo3.1與Veo3.1Fast,主打更豐富的音頻、更強的敘事控制和真實感。與此同時,創(chuàng)業(yè)團隊也在全力沖刺。多位AI視頻的創(chuàng)業(yè)者向「定焦One」透露,他們最近一直在加班,兩位創(chuàng)業(yè)者甚至只有在深夜才有時間接通電話。

如今,公眾熱度已趨平穩(wěn),但在AI行業(yè)內(nèi)部,一場靜悄悄的技術競賽,正在全速展開。
追趕Sora2的人
仿佛一聲發(fā)令槍,Sora2讓AI視頻領域進入“超級加速”階段。
國慶假期剛過,社交媒體上便傳出消息:快手AI團隊假期8天無休,全力追趕Sora2的技術進度。
主攻AIGC創(chuàng)作的紀錄片、廣告片導演丁一向「定焦One」透露,據(jù)他了解到的情況,幾乎所有國內(nèi)AI視頻創(chuàng)業(yè)團隊都已進入“全員加班”狀態(tài)。他預測,不出兩個月,國產(chǎn)版Sora2類產(chǎn)品可能就會出現(xiàn),“所有的大廠、模型廠商都卷起來了”。
好耶科技創(chuàng)始人吳杰茜也證實了這種緊迫氛圍,其團隊同樣連軸工作,對Sora2進行測試、拆解。她的創(chuàng)業(yè)項目FilmAction是一個AI電影生成平臺,與Sora2在功能上有不少重疊。Sora2的橫空出世,讓她既興奮又有壓力——興奮于技術的天花板被再次抬高,焦慮于行業(yè)的迭代速度超出了所有人的想象。
Sora2發(fā)布僅半個月后,谷歌于10月16日推出Veo3.1與Veo3.1Fast,被普遍解讀為正面迎戰(zhàn)OpenAI的舉措。
同一天,OpenAI也宣布Sora2兩項升級:Pro用戶現(xiàn)可通過網(wǎng)頁端使用“故事板”功能,同時全平臺視頻生成時長獲得提升。普通用戶可在App及網(wǎng)頁生成15秒視頻,Pro用戶網(wǎng)頁端更支持生成25秒內(nèi)容,較此前標準版10秒、Pro版15秒的設定顯著延長。
“這像極了ChatGPT剛出現(xiàn)時的那一刻,”吳杰茜說,“所有人都在拼命追趕?!?/p>
綜合多位從業(yè)者的說法,Sora2的震撼來自于三個層面的技術突破:
首先,是物理世界的擬真突破。Sora2能精準模擬水流、光影、重力與碰撞效果,甚至處理浮力與重心轉移等復雜物理場景,極大提升了人物動作的連貫性與主體穩(wěn)定性。
其次,是多模態(tài)融合。Sora2可直接生成同步音頻,自動匹配環(huán)境聲、動作音效與多語言對白。在此之前,只有少數(shù)幾個軟件有此功能,但音質(zhì)差不說,人物的語音和口型往往也不匹配。丁一團隊還試著用不同的方言對Sora2進行測試,口音自然,口型精準,足見其技術成熟度。
Sora2真正的顛覆,并非僅是生成視頻的“以假亂真”,而在于它理解了“鏡頭語言”。
吳杰茜的測試印證了這一點:她將小說或劇本原文直接輸入Sora2,生成的視頻不僅畫面與文本高度契合,其鏡頭運用、節(jié)奏把控等視聽語言,更是達到了專業(yè)創(chuàng)作者的水準。
要知道,在Sora2出現(xiàn)之前,AI視頻創(chuàng)作始終受制于“鏡頭思維缺失”。過去,創(chuàng)作者需先手動拆解劇本,反復琢磨鏡頭銜接邏輯、人物視角選擇、場景轉換方式,耗費大量時間。市面上多數(shù)AI工具也只能生成單個簡單鏡頭,若想串聯(lián)成連續(xù)敘事,還需用戶具備專業(yè)的視聽語言知識與分鏡設計能力,門檻并不低。
Sora2打破了這一局限:用戶只需一句話的文本指令,它便能自動生成包含多鏡頭切換、劇情連貫推進的完整視頻。換句話說,Sora2不再是單純的“畫面生成工具”,而是初步具備了導演的敘事邏輯與剪輯師的鏡頭調(diào)度能力。
“如果把Sora2比作一位剪輯師,那么他的能力已經(jīng)超越了市場上95%的人?!痹诙∫豢磥恚渌鸄I視頻軟件目前還只是輔助工具,但Sora2一定程度上已經(jīng)具備“智能體”的雛形。
創(chuàng)作門檻坍塌:AI正在重寫“專業(yè)”
但技術狂奔的另一面,是行業(yè)秩序的松動。當AI視頻進入“后Sora時代”,最先感到震動的,往往是那些曾依靠專業(yè)壁壘生存的人。
“既興奮又焦慮。”丁一如此總結Sora2發(fā)布二十天來的心情。
他的團隊是首批測試用戶,結果Sora2幾乎立刻改變了他們的工作方式。在現(xiàn)在丁一團隊的工作流程中,Sora2已經(jīng)深度嵌入,承擔了很多前期的籌備工作,比如說分鏡頭的設計。注冊四五個賬號,可以快速的生成大量方案,并從中抽取最滿意者。效率比人工快太多,而且質(zhì)量也不差,包括視頻概念、氣氛、鏡頭運動方式這些因素都在其中。
Sora2一句話便能生成15秒成片,這意味著他們團隊平時接的一些便宜的商單,基本上沒有了技術門檻。他告訴「定焦One」,目前Youtube上的一些小推流廣告,已經(jīng)在使用Sora2生成。
另一位創(chuàng)作者等登等噔(以下簡稱“等登”)也受到了震動。
在最新的一支短片中,他用Sora2完成幾個分鏡頭的構思:先上傳參考圖片,再用文字描述故事背景與情節(jié),Sora2便能自動生成包含3-4個分鏡頭的視頻,完整呈現(xiàn)劇情。而且據(jù)他測算,平均操作3次就能得到符合預期的版本,“抽卡率”遠高于其他軟件。
技術進步帶來的創(chuàng)作便捷性讓他感嘆不已,但興奮過后,等登心中也有一絲不安:分鏡設計曾是專業(yè)創(chuàng)作者與普通用戶的分水嶺,但Sora2正在抹平這個門檻。
等登告訴「定焦One」,在Sora2出現(xiàn)之前,還沒有哪個軟件是支持分鏡頭自動生成,部分軟件可以做到一些簡單的分鏡頭,但還是需要使用者明確的提示詞,比如第一個鏡頭是什么、第二個鏡頭是什么,然后它會在十秒內(nèi)給出一個分鏡頭的組合。
Sora2可以直接生成一個動態(tài)視頻。比如有網(wǎng)友將歸有光的《項脊軒志》最后一句輸給Sora2,生成的視頻第一個鏡頭是歸有光和枇杷樹的特寫,第二個鏡頭是歸有光與妻子種植枇杷樹的回憶,回憶鏡頭與歸有光睹樹思人的鏡頭來回切換。在這個視頻里機位、角度以及鏡頭的切換AI都已經(jīng)設計好了。
在AI時代,由于技術進步,帶來的專業(yè)壁壘的消解,可能是很多人都需要面對的課題。
AI導演、AI分鏡師等新職業(yè)原本是AIGC帶來的新紅利,但隨著Sora2具備“理解劇本”的能力,這些崗位或許也會被再次淘汰。
丁一對此感觸尤深。
他入行時也是一名分鏡師,后來進入導演組、成為執(zhí)行導演,最終一步步做到導演。過去只要精通一項工具——哪怕是Photoshop,就能找到工作。而現(xiàn)在,純技術崗位的空間越來越小。今年早些時候,他拍的一個實驗性質(zhì)短片試圖找過一些分鏡師,但最后只能不了了之,因為“效率太慢了、溝通成本也很高”。
焦慮之后,他也開始調(diào)整心態(tài)。最起碼從現(xiàn)階段來看,AI生成的內(nèi)容最終成果還是需要人的把關,個人的經(jīng)驗、審美、判斷都會對最終的結果產(chǎn)生影響。丁一相信,未來人類的工具就是交互式的AI,就像現(xiàn)在的筆和鍵盤一樣,但最終比拼的仍舊是內(nèi)容和創(chuàng)意。
英偉達CEO黃仁勛曾對媒體說:“如果世界沒有新的創(chuàng)意,AI的生產(chǎn)力提升終將轉化為失業(yè)?!痹赟ora2帶來的劇烈震蕩中,這句話顯得格外應景。
從“技術奇觀”到現(xiàn)實考題
在AI應用層出不窮的時代,爆紅與冷卻往往只隔幾天。很多人也在觀望,Sora2是否只是“曇花一現(xiàn)”。
從熱度來看,Sora2的確已經(jīng)降溫。
微信指數(shù)和百度指數(shù)顯示,Sora2在國內(nèi)熱度高峰僅維持數(shù)日后迅速回落。等登認為,一方面國內(nèi)用戶無法直接訪問Sora2,另一方面清晰度與水印限制也讓創(chuàng)作者難以商用,從而削弱了話題度。
吳杰茜則指出,作為新聞事件,它注定會降溫;但作為新的創(chuàng)作工具,它的普及才剛開始。
從前景上看,東莞證券的研報也佐證了這一觀點,認為Sora2及其配套社交應用的發(fā)布,標志著AI視頻生成與社交互動進入融合階段,“有望重塑內(nèi)容創(chuàng)作和分發(fā)生態(tài),或迎來AI視頻生成的ChatGPT時刻?!?/p>
回顧語言模型的發(fā)展史,ChatGPT的出現(xiàn)是AI從實驗室走向大眾的決定性轉折點。從這個意義上講,Sora2也標志著視頻生成領域的一個關鍵拐點——即從技術嘗鮮邁向普遍應用。
但類似Sora2這樣的產(chǎn)品要想成為全民表達的工具,需要克服的不僅僅是技術難題。
首先是版權的迷霧。Sora2初期采取的“選擇退出(Opt-out)”機制,默認可以使用互聯(lián)網(wǎng)公開內(nèi)容訓練模型,將維權舉證責任推給版權方。這種做法迅速招致了好萊塢經(jīng)紀公司、美國電影協(xié)會乃至日本政府的強烈抵制和法律威脅。
面對集體施壓,OpenAI迅速調(diào)整了策略,奧特曼宣布放棄Opt-out,轉而采用更審慎的“主動同意(Opt-in)”模式,即需版權方簽署明確授權協(xié)議才能使用其IP。奧特曼還建議引入IP分成收益機制,與授權方共享平臺收入。
有律師認為,OpenAI的這一機制將矛盾從法律博弈轉向商業(yè)合作。盡管仍有局限,但它預示AI行業(yè)正邁向付費許可與生態(tài)共建的新階段。一位好萊塢制片人的評論頗具代表性:“未來的影視公司,其運營模式可能更趨近于版權管理機構,而非傳統(tǒng)的內(nèi)容制造者——這一趨勢幾乎無可避免?!?/p>
其次是變現(xiàn)模式的拷問。目前Sora2的主要使用場景仍以娛樂為主,如生成趣味視頻或表情包。這類低價值、高頻交互難以支撐龐大的模型訓練與運維成本。未來,專業(yè)用戶或高質(zhì)量內(nèi)容創(chuàng)作者的“付費模式”或?qū)⒊蔀橹髁?。如何在廣告變現(xiàn)與用戶體驗之間取得平衡,仍是所有AI視頻廠商的共同考題。
這些現(xiàn)實的疑問和戰(zhàn)略調(diào)整,勾勒出AI視頻行業(yè)從“野蠻生長”轉向“理性發(fā)展”的軌跡。
用丁一的話說,隨著Sora2的出現(xiàn),全球AI視頻賽道正邁向更高維的競爭階段。各家模型廠商“卷”得更深,訓練數(shù)據(jù)涵蓋影視、動漫、廣告、紀錄片等多種素材,“AI正在學習全人類的影像史”,而當技術卷到極致,拼的將不再是算法,而是創(chuàng)意與落地能力?!?/p>
Sora2發(fā)布二十天后,世界或許并未立刻改變。但在每個AI視頻創(chuàng)作者的電腦上,故事的生成方式,已經(jīng)悄然不同。


