四虎AV成人在线观看|免费免费特黄的欧美大片|人妻丝袜中文字幕一区三区|性爱一级二级三级|日本黄色视频在线观看免费|亚洲午夜天堂超碰大香蕉中出|国产日韩三级黄色AV一区二区三区|a片网站在线观看视频|人人AV播放日韩操在线|国产伦清品一区二区三区

正在閱讀:

AI手機(jī)的終局,“讀屏”還是“對(duì)話”?

掃一掃下載界面新聞APP

AI手機(jī)的終局,“讀屏”還是“對(duì)話”?

兩條路線,最終指向的是人和機(jī)器如何共處。

文 | 定焦One 金玙璠

編輯 | 阮梅

最近科技圈的兩場(chǎng)“AI秀”先后刷屏。

在大洋彼岸,當(dāng)?shù)貢r(shí)間1月12日,蘋(píng)果和谷歌宣布合作,要給Siri用上谷歌的Gemini。但蘋(píng)果的做法,不是直接讓Gemini操作手機(jī)上的App,而是用戶說(shuō)什么,Siri先理解意圖,然后去調(diào)用相應(yīng)的應(yīng)用。換句話說(shuō),AI只是個(gè)“調(diào)度員”。這套操作,很蘋(píng)果。

另一邊,國(guó)內(nèi)的情況就熱鬧得多。字節(jié)跳動(dòng)的豆包AI手機(jī)一度刷屏,AI可以幫你打車(chē)、購(gòu)物、訂票,就像一個(gè)真正的“萬(wàn)能助理”。這套打法,很互聯(lián)網(wǎng)。

你看,同樣是AI手機(jī),實(shí)現(xiàn)的方式完全不同。這背后,其實(shí)是兩條技術(shù)路線:

一條路線,是讓AI和App學(xué)會(huì)“對(duì)話”,通過(guò)標(biāo)準(zhǔn)接口直接調(diào)用應(yīng)用能力,被稱為A2A(Agent-to-Agent)。這條路需要所有人坐下來(lái)一起制定規(guī)則,走得慢,但更穩(wěn)妥。

另一條路線,是給AI一把“萬(wàn)能鑰匙”,通過(guò)系統(tǒng)權(quán)限“讀屏”并模擬操作APP,被稱為GUI(圖形用戶界面)。這條路簡(jiǎn)單直接,走得快,但可能存在風(fēng)險(xiǎn)。

這背后不只是技術(shù)選擇,本質(zhì)上,是不同公司基于自身利益與生態(tài)位,對(duì)未來(lái)主導(dǎo)權(quán)的一次押注。誰(shuí)的模式能贏得用戶,很可能將決定:下一個(gè)十年,我們?nèi)绾闻c手中的設(shè)備共處。

兩種解法,兩種邏輯

要看懂這場(chǎng)牌局,我們先得看清這兩條路線背后的邏輯。

GUI路線,主打一個(gè)“快”字。

它的實(shí)現(xiàn)方式,最初是AI助手借助安卓系統(tǒng)中一個(gè)名為“無(wú)障礙服務(wù)”的功能。這項(xiàng)權(quán)限最初是為有視力障礙的人士設(shè)計(jì)的,好讓他們能通過(guò)語(yǔ)音指令來(lái)操作手機(jī)?,F(xiàn)在,AI通過(guò)這項(xiàng)權(quán)限可以“讀懂”屏幕上的文字和圖標(biāo),然后模擬人的手指去點(diǎn)擊、滑動(dòng),從而操作各種App。之后不久,市場(chǎng)上出現(xiàn)了比調(diào)用無(wú)障礙權(quán)限更“領(lǐng)先”的路線,也就是AI助手拿到了手機(jī)廠商給自己的系統(tǒng)簽名權(quán)限,從而通過(guò)進(jìn)程注入,更絲滑、無(wú)感地模擬操作。

這樣做的好處顯而易見(jiàn)——它繞開(kāi)了所有App廠商,直接把AI能力覆蓋到了現(xiàn)有的應(yīng)用生態(tài)中。對(duì)于急于在AI浪潮中搶占身位的廠商來(lái)說(shuō),這是最快的驗(yàn)證路徑。

“當(dāng)用戶習(xí)慣了通過(guò)一個(gè)AI助手來(lái)操作所有App時(shí),這個(gè)助手就成了新的流量入口,這背后的商業(yè)價(jià)值,相當(dāng)有吸引力?!标P(guān)注互聯(lián)網(wǎng)公司的投資人林亮表示。

不過(guò),對(duì)于用戶來(lái)說(shuō),體驗(yàn)現(xiàn)階段的GUI可能“時(shí)靈時(shí)不靈”。

“GUI很依賴應(yīng)用界面的穩(wěn)定性”,應(yīng)用開(kāi)發(fā)者陳剛表示,“如果App更新了界面設(shè)計(jì),比如一個(gè)按鈕的位置變了,都可能讓AI‘點(diǎn)錯(cuò)’位置,整個(gè)任務(wù)流程就會(huì)卡住?!?/p>

陳剛指出,當(dāng)任務(wù)鏈路變長(zhǎng)時(shí),這種不穩(wěn)定性會(huì)被放大。有數(shù)據(jù)顯示,一個(gè)包含5個(gè)步驟的操作,即便每一步的成功率都高達(dá)90%,整個(gè)任務(wù)的最終成功率也可能驟降至59%。

除了體驗(yàn)上的不確定性,很多用戶擔(dān)心的是安全和隱私風(fēng)險(xiǎn)。GUI模式下,AI需要通過(guò)“讀屏”來(lái)理解屏幕內(nèi)容,進(jìn)而決定下一步操作,就意味著,它需要實(shí)時(shí)獲取屏幕信息。盡管廠商們承諾數(shù)據(jù)會(huì)加密或不上傳,但用戶心中難免會(huì)有疑慮:用戶的數(shù)據(jù)在什么情況下被收集、如何被使用、誰(shuí)來(lái)負(fù)責(zé)?

A2A則是完全不同的思路。它不讓AI“看”屏幕,而是為AI和各個(gè)應(yīng)用建立一套通用的“對(duì)話語(yǔ)言”——也就是標(biāo)準(zhǔn)的API接口。

這聽(tīng)起來(lái)有點(diǎn)抽象,你可以想象這樣的場(chǎng)景:你對(duì)手機(jī)說(shuō)“幫我打車(chē)去機(jī)場(chǎng)”,系統(tǒng)Agent理解后,直接告訴相應(yīng)的Agent:“用戶要去機(jī)場(chǎng),請(qǐng)?zhí)峁┐蜍?chē)服務(wù)?!背鲂蠥pp的Agent收到請(qǐng)求后,在自己的權(quán)限范圍內(nèi)完成任務(wù)。

A2A的核心,是“合作”。這一路線中有個(gè)關(guān)鍵設(shè)計(jì)叫“雙重授權(quán)”:同時(shí)獲得用戶和應(yīng)用方的授權(quán)。

這樣一來(lái),權(quán)責(zé)變得清晰了。用戶可以對(duì)不同的App設(shè)置不同的權(quán)限等級(jí)。比如,允許AI讀取外賣(mài)App來(lái)比價(jià),但禁止讀取銀行App;對(duì)于轉(zhuǎn)賬這樣的高風(fēng)險(xiǎn)操作,每次執(zhí)行都需要你的額外確認(rèn)。由于數(shù)據(jù)流動(dòng)是通過(guò)明確的接口進(jìn)行的,是有據(jù)可查的,即便出了問(wèn)題也可以追溯。

那為什么不是所有廠商都選擇A2A呢?

因?yàn)閰f(xié)調(diào)成本很高。A2A需要操作系統(tǒng)廠商、應(yīng)用開(kāi)發(fā)者共同推進(jìn)一套標(biāo)準(zhǔn)化的協(xié)議。沒(méi)有足夠多的應(yīng)用支持,A2A的價(jià)值就顯現(xiàn)不出來(lái);沒(méi)有明確的價(jià)值,開(kāi)發(fā)者就缺乏適配的動(dòng)力。

所以,A2A路線注定是一場(chǎng)“持久戰(zhàn)”,它“慢”在生態(tài)共識(shí)的達(dá)成與基礎(chǔ)設(shè)施的建設(shè)。

現(xiàn)在,兩條路線的邏輯就清楚了:GUI雖有一定風(fēng)險(xiǎn)但高效,能讓廠商用最小代價(jià)快速驗(yàn)證AI手機(jī)的可能性。A2A穩(wěn)妥但緩慢,需要更多協(xié)調(diào)和投入,不過(guò)一旦成功,就能建立一套更安全的體系。

有人可能會(huì)問(wèn),GUI路線就不能通過(guò)技術(shù)手段實(shí)現(xiàn)分級(jí)授權(quán)嗎?理論上可以,但這樣做也就失去了相對(duì)于A2A的“快速部署”優(yōu)勢(shì),同時(shí)還要承受更高的技術(shù)成本。

目前行業(yè)內(nèi)相對(duì)公認(rèn)的路徑是,GUI探路尚可,因?yàn)樗鼤?huì)把智能體的便利和風(fēng)險(xiǎn)都充分呈現(xiàn)出來(lái),最終還是要看A2A,因?yàn)橹挥袧M足了安全和便利兩個(gè)條件,才能走得遠(yuǎn)。如果跳出中國(guó)市場(chǎng),全球的科技巨頭們是如何選擇的呢?

不同路線背后,巨頭們的算盤(pán)

在手機(jī)端,海外巨頭幾乎都選了A2A,推動(dòng)API(接口)集成。

蘋(píng)果最直接。它升級(jí)了“App Intents”框架,要求所有想接入AI功能的應(yīng)用,都必須按照蘋(píng)果制定的標(biāo)準(zhǔn)提供API接口。

谷歌的路更復(fù)雜。它一邊推“AppFunctions API”來(lái)統(tǒng)一智能體交互標(biāo)準(zhǔn),一邊大力推廣各類應(yīng)用適配,這是個(gè)緩慢的過(guò)程。

微軟自研了“AutoGen”這樣的多智能體對(duì)話框架,探索不同AI智能體怎樣更好地協(xié)同。

OpenAI和Anthropic雖然不直接做手機(jī),但它們推動(dòng)的“函數(shù)調(diào)用”和“工具使用”功能,實(shí)際上就是A2A的技術(shù)前身。根據(jù)Anthropic公布的數(shù)據(jù),從2025年3月的2000多個(gè)活躍MCP服務(wù),到12月已經(jīng)超過(guò)1萬(wàn)個(gè)——這個(gè)增速相當(dāng)驚人。

為什么無(wú)論是蘋(píng)果、谷歌這樣的操作系統(tǒng)霸主,還是微軟、OpenAI這樣的AI領(lǐng)頭羊,都選了緩慢的接口路線?

因?yàn)樗鼈兪乾F(xiàn)有秩序的建立者和最大受益者。

蘋(píng)果、谷歌的核心利益是維護(hù)平臺(tái)、穩(wěn)定開(kāi)發(fā)者。未經(jīng)三方授權(quán)就簡(jiǎn)單使用GUI,這種“外掛式”的路線,本質(zhì)上是在挑戰(zhàn)它們的統(tǒng)治地位。所以它們必然會(huì)選A2A這種“可控”的方案,把AI能力牢牢掌握在自己手中,作為強(qiáng)化生態(tài)控制力的新工具。

微軟手握Windows和Office兩大王牌,其AI戰(zhàn)略的核心是提升生產(chǎn)力,服務(wù)企業(yè)客戶。對(duì)于這些客戶來(lái)說(shuō),安全和穩(wěn)定是第一需求,無(wú)法接受GUI的不確定性和安全風(fēng)險(xiǎn)。

OpenAI作為AI技術(shù)的“軍火商”,目標(biāo)是讓自己的模型被盡可能多的應(yīng)用“調(diào)用”。所以它必須提供穩(wěn)定、可靠的API接口,而不是無(wú)法確保結(jié)果的GUI工具。

海外巨頭是不是完全放棄GUI了?并非如此。

谷歌的Gemini和微軟的Copilot,在手機(jī)上推出了“屏幕共享”功能——讓用戶可以把屏幕分享給AI,AI可以“看”并回答問(wèn)題,但本身不會(huì)去操作。

海外巨頭的GUI嘗試,主要在PC端,而且,嚴(yán)格限制在受控環(huán)境(如瀏覽器、沙盒、虛擬機(jī))內(nèi)。

OpenAI把具備GUI操作能力的Agent限定在Atlas瀏覽器內(nèi),明確禁止它運(yùn)行代碼、下載文件或訪問(wèn)本地應(yīng)用。Anthropic在2024年底就發(fā)布了Computer Use API,但相關(guān)功能至今僅供開(kāi)發(fā)者在虛擬環(huán)境中測(cè)試。

微軟的做法最具代表性。在其Recall功能因高頻截屏引發(fā)隱私爭(zhēng)議后,它直接把“看”和“做”兩個(gè)動(dòng)作拆分了——Copilot Vision只能“看”用戶共享的應(yīng)用并提供建議,不能操作;有操作能力的Copilot Actions必須在單獨(dú)的沙盒桌面中進(jìn)行。

所以,海外巨頭出于“維護(hù)現(xiàn)有秩序”的考慮,堅(jiān)定地走A2A路線,GUI嘗試只停留在“測(cè)試版”,并未向普通用戶大規(guī)模推廣。

相比之下,國(guó)內(nèi)市場(chǎng)格局更復(fù)雜,巨頭中既有“挑戰(zhàn)者”也有“守成者”,選擇也因此更多樣。

字節(jié)跳動(dòng)走的是高權(quán)限GUI路線。它通過(guò)豆包大模型與中興努比亞深度合作,推出集成系統(tǒng)級(jí)AI助手的“AI手機(jī)”,希望繞開(kāi)現(xiàn)有的生態(tài)壁壘,爭(zhēng)奪下一代流量入口。

阿里、華為、OPPO,都布局了A2A路線。

阿里的動(dòng)作很直接,就是通過(guò)自建的、可控的API體系,將“通義千問(wèn)”這個(gè)超級(jí)大腦,深度集成到淘寶、支付寶、高德等核心業(yè)務(wù)中。

華為則在2025年底發(fā)布的HarmonyOS 6中,通過(guò)“意圖框架”,實(shí)現(xiàn)了“小藝”智能體與十余款鴻蒙原生應(yīng)用的A2A協(xié)作。

OPPO也聯(lián)合了支付寶等頭部應(yīng)用,共同探索A2A的行業(yè)標(biāo)準(zhǔn)。

但這些看似相同的選擇背后,是各自的商業(yè)考量。

對(duì)阿里來(lái)說(shuō),這套打法“攻守兼?zhèn)洹?。一方面,作為中?guó)頭部電商平臺(tái),核心利益是用可控的API保護(hù)龐大的交易生態(tài)。但另一方面,它又不止于防守,而是通過(guò)通義千問(wèn)打造一個(gè)入口,讓用戶在阿里生態(tài)內(nèi)完成更多交易和服務(wù)。

華為和OPPO當(dāng)然不想只做硬件制造商,容易被“管道化”,所以,在A2A路線之上,它們還在走一條以自家操作系統(tǒng)或AI大模型為核心的“混合生態(tài)”的路線。在這套體系里,既有標(biāo)準(zhǔn)的API調(diào)用,也有更底層的系統(tǒng)級(jí)智能體,最終目的都是為了掌握生態(tài)主導(dǎo)權(quán),從一個(gè)“設(shè)備提供商”,升級(jí)為未來(lái)生態(tài)的“規(guī)則制定者”之一。

簡(jiǎn)言之,國(guó)內(nèi)外廠商多數(shù)都選了A2A。只是區(qū)別在于,海外巨頭用它來(lái)強(qiáng)化現(xiàn)有控制;國(guó)內(nèi)廠商則用它來(lái)爭(zhēng)取話語(yǔ)權(quán),一邊參與A2A的標(biāo)準(zhǔn)制定,一邊通過(guò)自身的OS、大模型或生態(tài)優(yōu)勢(shì),建立以自己為核心的混合生態(tài)。

為什么主流廠商更傾向A2A?

選擇背后,是不同玩家在牌桌上的位置使然。不過(guò),從這些主流廠商的選擇中,我們可以得出一個(gè)結(jié)論:GUI路線雖然能快速驗(yàn)證AI手機(jī)的可能性,但A2A正獲得越來(lái)越多主流廠商的青睞。

是因?yàn)锳2A更安全、更穩(wěn)定嗎?不全是。它之所以被看作是未來(lái),可以從技術(shù)演進(jìn)、監(jiān)管合規(guī)和商業(yè)成本三個(gè)維度來(lái)看。

從技術(shù)角度看,A2A更符合AI分工協(xié)作的本質(zhì)。

GUI路線要求大模型同時(shí)承擔(dān)“感知屏幕(眼)、規(guī)劃任務(wù)(腦)、模擬操作(手)”的工作,負(fù)擔(dān)重、效率低且易出錯(cuò)。A2A路線,則是讓AI回歸到它最擅長(zhǎng)的“大腦”角色,專注于理解與任務(wù)調(diào)度,具體的執(zhí)行交給各垂直領(lǐng)域優(yōu)化的應(yīng)用智能體。這種“各司其職”的模式,不僅更高效可靠,也為未來(lái)更復(fù)雜的智能體協(xié)作打下了基礎(chǔ)。

從監(jiān)管角度看,A2A是更安全、更合規(guī)的選擇。

GUI的“讀屏”行為在全球范圍內(nèi)都面臨越來(lái)越嚴(yán)格的隱私監(jiān)管。2025年12月,美國(guó)德州起訴了包括三星在內(nèi)的多家智能電視制造商,指控它們通過(guò)高頻截屏非法收集用戶數(shù)據(jù)。這為所有采用類似技術(shù)的廠商敲響了警鐘。

而A2A由于數(shù)據(jù)流動(dòng)通過(guò)明確的接口進(jìn)行,并且有“雙重授權(quán)”機(jī)制保障,為廠商建立了一道合規(guī)“防火墻”。

最后,也是最關(guān)鍵的,從商業(yè)成本角度看,A2A是更經(jīng)濟(jì)的選擇。GUI方案看似“快”,但長(zhǎng)期運(yùn)營(yíng)成本高。

陳剛做了個(gè)類比:

GUI模式就像雇了一個(gè)需要24小時(shí)盯著監(jiān)控屏幕的保安,要不斷地看、不斷地分析圖像。這消耗的是大量的“腦力”(云端計(jì)算資源)。

A2A模式是建立了一個(gè)高效的內(nèi)部通訊系統(tǒng)。當(dāng)需要某個(gè)部門(mén)配合時(shí),發(fā)送一條結(jié)構(gòu)化的簡(jiǎn)單指令即可。這消耗的只是“通訊費(fèi)”(API調(diào)用費(fèi)用)。

對(duì)于手機(jī)廠商來(lái)說(shuō),如果幾億用戶每天都在用AI讀屏,算力與帶寬開(kāi)支將是一筆巨大的開(kāi)支。這種商業(yè)模式,在規(guī)?;逃玫那熬跋?,幾乎是不可持續(xù)的。

所以無(wú)論從技術(shù)、監(jiān)管還是商業(yè)成本來(lái)看,A2A都是更優(yōu)的選擇。更重要的是,一旦這個(gè)生態(tài)建立起來(lái),它將帶來(lái)全新的商業(yè)機(jī)會(huì)。這也是最讓行業(yè)人士興奮的原因。

首先,協(xié)議層與中間件將成為核心。PC時(shí)代有Windows,移動(dòng)互聯(lián)網(wǎng)時(shí)代有iOS和安卓。在AI時(shí)代,A2A、MCP等協(xié)議標(biāo)準(zhǔn),就像是新時(shí)代的“操作系統(tǒng)”和“開(kāi)發(fā)語(yǔ)言”。誰(shuí)能掌握標(biāo)準(zhǔn),誰(shuí)就可能成為下一個(gè)平臺(tái)級(jí)的巨頭。

其次,“智能體工廠”與垂直Agent服務(wù)商將迎來(lái)爆發(fā)?;跇?biāo)準(zhǔn)協(xié)議,為金融、醫(yī)療、物流等特定行業(yè)開(kāi)發(fā)專屬智能體,將成為一個(gè)巨大的市場(chǎng)。未來(lái),可能會(huì)有專門(mén)的“智能體商店”,你可以像下載App一樣,為你的手機(jī)雇傭一個(gè)“私人理財(cái)顧問(wèn)”或“專屬旅行規(guī)劃師”。這為無(wú)數(shù)中小開(kāi)發(fā)者,提供了全新的創(chuàng)業(yè)機(jī)會(huì)。

最后,現(xiàn)有公司也將在新生態(tài)中重新找到自己的位置。云廠商將成為智能體的“訓(xùn)練場(chǎng)”,手機(jī)廠商則成為智能體的承載終端。它們都將獲得新的增長(zhǎng)。

對(duì)于中國(guó)的科技公司而言,這是一個(gè)在底層協(xié)議和基礎(chǔ)設(shè)施上,與全球巨頭同臺(tái)競(jìng)技的絕佳機(jī)會(huì)。

結(jié)語(yǔ)

聊了這么多技術(shù)和商業(yè),我們不妨回到一個(gè)最根本的問(wèn)題:AI,到底應(yīng)該如何服務(wù)于人?

AI手機(jī)的發(fā)展,正從功能炫技的“概念期”,進(jìn)入生態(tài)構(gòu)建期。GUI和A2A,從不同維度給出了各自的回答。

GUI用一種最直觀的方式,完成了初步的市場(chǎng)啟蒙。它讓我們提前看到了AI手機(jī)未來(lái)的樣子——一個(gè)能聽(tīng)懂、會(huì)操作的伙伴。這種“快”的優(yōu)勢(shì),幫助廠商們快速驗(yàn)證了AI手機(jī)的可能性。但安全性存疑、經(jīng)濟(jì)性不高,決定了它更可能是一種過(guò)渡方案。

A2A路線盡管起步緩慢、協(xié)調(diào)艱難,但它在做一件更基礎(chǔ)的事——為AI和應(yīng)用之間建立一套清晰的“規(guī)則”。這些規(guī)則看起來(lái)很復(fù)雜,但本質(zhì)上是在回答一個(gè)問(wèn)題:AI應(yīng)該在哪些地方有權(quán)力,在哪些地方?jīng)]有。一旦這套規(guī)則被廣泛接受和應(yīng)用,就能形成一個(gè)更穩(wěn)定、更可控的生態(tài)。這必然是一場(chǎng)持久戰(zhàn)。

這場(chǎng)路線之爭(zhēng),往深了想,其實(shí)是我們希望與機(jī)器建立何種關(guān)系的思考。

AI手機(jī)的未來(lái),或許并不在于讓手機(jī)變得無(wú)所不能,去替代我們做所有事。而在于,它能否成為一個(gè)更聰明的“副駕駛”,在我們做決策時(shí),提供更精準(zhǔn)的信息、更周全的建議,最終把選擇權(quán)交還給我們自己。說(shuō)到底,技術(shù)終究是為人服務(wù)的。

(應(yīng)受訪者要求,文中陳剛、林亮為化名)

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

AI手機(jī)的終局,“讀屏”還是“對(duì)話”?

兩條路線,最終指向的是人和機(jī)器如何共處。

文 | 定焦One 金玙璠

編輯 | 阮梅

最近科技圈的兩場(chǎng)“AI秀”先后刷屏。

在大洋彼岸,當(dāng)?shù)貢r(shí)間1月12日,蘋(píng)果和谷歌宣布合作,要給Siri用上谷歌的Gemini。但蘋(píng)果的做法,不是直接讓Gemini操作手機(jī)上的App,而是用戶說(shuō)什么,Siri先理解意圖,然后去調(diào)用相應(yīng)的應(yīng)用。換句話說(shuō),AI只是個(gè)“調(diào)度員”。這套操作,很蘋(píng)果。

另一邊,國(guó)內(nèi)的情況就熱鬧得多。字節(jié)跳動(dòng)的豆包AI手機(jī)一度刷屏,AI可以幫你打車(chē)、購(gòu)物、訂票,就像一個(gè)真正的“萬(wàn)能助理”。這套打法,很互聯(lián)網(wǎng)。

你看,同樣是AI手機(jī),實(shí)現(xiàn)的方式完全不同。這背后,其實(shí)是兩條技術(shù)路線:

一條路線,是讓AI和App學(xué)會(huì)“對(duì)話”,通過(guò)標(biāo)準(zhǔn)接口直接調(diào)用應(yīng)用能力,被稱為A2A(Agent-to-Agent)。這條路需要所有人坐下來(lái)一起制定規(guī)則,走得慢,但更穩(wěn)妥。

另一條路線,是給AI一把“萬(wàn)能鑰匙”,通過(guò)系統(tǒng)權(quán)限“讀屏”并模擬操作APP,被稱為GUI(圖形用戶界面)。這條路簡(jiǎn)單直接,走得快,但可能存在風(fēng)險(xiǎn)。

這背后不只是技術(shù)選擇,本質(zhì)上,是不同公司基于自身利益與生態(tài)位,對(duì)未來(lái)主導(dǎo)權(quán)的一次押注。誰(shuí)的模式能贏得用戶,很可能將決定:下一個(gè)十年,我們?nèi)绾闻c手中的設(shè)備共處。

兩種解法,兩種邏輯

要看懂這場(chǎng)牌局,我們先得看清這兩條路線背后的邏輯。

GUI路線,主打一個(gè)“快”字。

它的實(shí)現(xiàn)方式,最初是AI助手借助安卓系統(tǒng)中一個(gè)名為“無(wú)障礙服務(wù)”的功能。這項(xiàng)權(quán)限最初是為有視力障礙的人士設(shè)計(jì)的,好讓他們能通過(guò)語(yǔ)音指令來(lái)操作手機(jī)?,F(xiàn)在,AI通過(guò)這項(xiàng)權(quán)限可以“讀懂”屏幕上的文字和圖標(biāo),然后模擬人的手指去點(diǎn)擊、滑動(dòng),從而操作各種App。之后不久,市場(chǎng)上出現(xiàn)了比調(diào)用無(wú)障礙權(quán)限更“領(lǐng)先”的路線,也就是AI助手拿到了手機(jī)廠商給自己的系統(tǒng)簽名權(quán)限,從而通過(guò)進(jìn)程注入,更絲滑、無(wú)感地模擬操作。

這樣做的好處顯而易見(jiàn)——它繞開(kāi)了所有App廠商,直接把AI能力覆蓋到了現(xiàn)有的應(yīng)用生態(tài)中。對(duì)于急于在AI浪潮中搶占身位的廠商來(lái)說(shuō),這是最快的驗(yàn)證路徑。

“當(dāng)用戶習(xí)慣了通過(guò)一個(gè)AI助手來(lái)操作所有App時(shí),這個(gè)助手就成了新的流量入口,這背后的商業(yè)價(jià)值,相當(dāng)有吸引力?!标P(guān)注互聯(lián)網(wǎng)公司的投資人林亮表示。

不過(guò),對(duì)于用戶來(lái)說(shuō),體驗(yàn)現(xiàn)階段的GUI可能“時(shí)靈時(shí)不靈”。

“GUI很依賴應(yīng)用界面的穩(wěn)定性”,應(yīng)用開(kāi)發(fā)者陳剛表示,“如果App更新了界面設(shè)計(jì),比如一個(gè)按鈕的位置變了,都可能讓AI‘點(diǎn)錯(cuò)’位置,整個(gè)任務(wù)流程就會(huì)卡住?!?/p>

陳剛指出,當(dāng)任務(wù)鏈路變長(zhǎng)時(shí),這種不穩(wěn)定性會(huì)被放大。有數(shù)據(jù)顯示,一個(gè)包含5個(gè)步驟的操作,即便每一步的成功率都高達(dá)90%,整個(gè)任務(wù)的最終成功率也可能驟降至59%。

除了體驗(yàn)上的不確定性,很多用戶擔(dān)心的是安全和隱私風(fēng)險(xiǎn)。GUI模式下,AI需要通過(guò)“讀屏”來(lái)理解屏幕內(nèi)容,進(jìn)而決定下一步操作,就意味著,它需要實(shí)時(shí)獲取屏幕信息。盡管廠商們承諾數(shù)據(jù)會(huì)加密或不上傳,但用戶心中難免會(huì)有疑慮:用戶的數(shù)據(jù)在什么情況下被收集、如何被使用、誰(shuí)來(lái)負(fù)責(zé)?

A2A則是完全不同的思路。它不讓AI“看”屏幕,而是為AI和各個(gè)應(yīng)用建立一套通用的“對(duì)話語(yǔ)言”——也就是標(biāo)準(zhǔn)的API接口。

這聽(tīng)起來(lái)有點(diǎn)抽象,你可以想象這樣的場(chǎng)景:你對(duì)手機(jī)說(shuō)“幫我打車(chē)去機(jī)場(chǎng)”,系統(tǒng)Agent理解后,直接告訴相應(yīng)的Agent:“用戶要去機(jī)場(chǎng),請(qǐng)?zhí)峁┐蜍?chē)服務(wù)?!背鲂蠥pp的Agent收到請(qǐng)求后,在自己的權(quán)限范圍內(nèi)完成任務(wù)。

A2A的核心,是“合作”。這一路線中有個(gè)關(guān)鍵設(shè)計(jì)叫“雙重授權(quán)”:同時(shí)獲得用戶和應(yīng)用方的授權(quán)。

這樣一來(lái),權(quán)責(zé)變得清晰了。用戶可以對(duì)不同的App設(shè)置不同的權(quán)限等級(jí)。比如,允許AI讀取外賣(mài)App來(lái)比價(jià),但禁止讀取銀行App;對(duì)于轉(zhuǎn)賬這樣的高風(fēng)險(xiǎn)操作,每次執(zhí)行都需要你的額外確認(rèn)。由于數(shù)據(jù)流動(dòng)是通過(guò)明確的接口進(jìn)行的,是有據(jù)可查的,即便出了問(wèn)題也可以追溯。

那為什么不是所有廠商都選擇A2A呢?

因?yàn)閰f(xié)調(diào)成本很高。A2A需要操作系統(tǒng)廠商、應(yīng)用開(kāi)發(fā)者共同推進(jìn)一套標(biāo)準(zhǔn)化的協(xié)議。沒(méi)有足夠多的應(yīng)用支持,A2A的價(jià)值就顯現(xiàn)不出來(lái);沒(méi)有明確的價(jià)值,開(kāi)發(fā)者就缺乏適配的動(dòng)力。

所以,A2A路線注定是一場(chǎng)“持久戰(zhàn)”,它“慢”在生態(tài)共識(shí)的達(dá)成與基礎(chǔ)設(shè)施的建設(shè)。

現(xiàn)在,兩條路線的邏輯就清楚了:GUI雖有一定風(fēng)險(xiǎn)但高效,能讓廠商用最小代價(jià)快速驗(yàn)證AI手機(jī)的可能性。A2A穩(wěn)妥但緩慢,需要更多協(xié)調(diào)和投入,不過(guò)一旦成功,就能建立一套更安全的體系。

有人可能會(huì)問(wèn),GUI路線就不能通過(guò)技術(shù)手段實(shí)現(xiàn)分級(jí)授權(quán)嗎?理論上可以,但這樣做也就失去了相對(duì)于A2A的“快速部署”優(yōu)勢(shì),同時(shí)還要承受更高的技術(shù)成本。

目前行業(yè)內(nèi)相對(duì)公認(rèn)的路徑是,GUI探路尚可,因?yàn)樗鼤?huì)把智能體的便利和風(fēng)險(xiǎn)都充分呈現(xiàn)出來(lái),最終還是要看A2A,因?yàn)橹挥袧M足了安全和便利兩個(gè)條件,才能走得遠(yuǎn)。如果跳出中國(guó)市場(chǎng),全球的科技巨頭們是如何選擇的呢?

不同路線背后,巨頭們的算盤(pán)

在手機(jī)端,海外巨頭幾乎都選了A2A,推動(dòng)API(接口)集成。

蘋(píng)果最直接。它升級(jí)了“App Intents”框架,要求所有想接入AI功能的應(yīng)用,都必須按照蘋(píng)果制定的標(biāo)準(zhǔn)提供API接口。

谷歌的路更復(fù)雜。它一邊推“AppFunctions API”來(lái)統(tǒng)一智能體交互標(biāo)準(zhǔn),一邊大力推廣各類應(yīng)用適配,這是個(gè)緩慢的過(guò)程。

微軟自研了“AutoGen”這樣的多智能體對(duì)話框架,探索不同AI智能體怎樣更好地協(xié)同。

OpenAI和Anthropic雖然不直接做手機(jī),但它們推動(dòng)的“函數(shù)調(diào)用”和“工具使用”功能,實(shí)際上就是A2A的技術(shù)前身。根據(jù)Anthropic公布的數(shù)據(jù),從2025年3月的2000多個(gè)活躍MCP服務(wù),到12月已經(jīng)超過(guò)1萬(wàn)個(gè)——這個(gè)增速相當(dāng)驚人。

為什么無(wú)論是蘋(píng)果、谷歌這樣的操作系統(tǒng)霸主,還是微軟、OpenAI這樣的AI領(lǐng)頭羊,都選了緩慢的接口路線?

因?yàn)樗鼈兪乾F(xiàn)有秩序的建立者和最大受益者。

蘋(píng)果、谷歌的核心利益是維護(hù)平臺(tái)、穩(wěn)定開(kāi)發(fā)者。未經(jīng)三方授權(quán)就簡(jiǎn)單使用GUI,這種“外掛式”的路線,本質(zhì)上是在挑戰(zhàn)它們的統(tǒng)治地位。所以它們必然會(huì)選A2A這種“可控”的方案,把AI能力牢牢掌握在自己手中,作為強(qiáng)化生態(tài)控制力的新工具。

微軟手握Windows和Office兩大王牌,其AI戰(zhàn)略的核心是提升生產(chǎn)力,服務(wù)企業(yè)客戶。對(duì)于這些客戶來(lái)說(shuō),安全和穩(wěn)定是第一需求,無(wú)法接受GUI的不確定性和安全風(fēng)險(xiǎn)。

OpenAI作為AI技術(shù)的“軍火商”,目標(biāo)是讓自己的模型被盡可能多的應(yīng)用“調(diào)用”。所以它必須提供穩(wěn)定、可靠的API接口,而不是無(wú)法確保結(jié)果的GUI工具。

海外巨頭是不是完全放棄GUI了?并非如此。

谷歌的Gemini和微軟的Copilot,在手機(jī)上推出了“屏幕共享”功能——讓用戶可以把屏幕分享給AI,AI可以“看”并回答問(wèn)題,但本身不會(huì)去操作。

海外巨頭的GUI嘗試,主要在PC端,而且,嚴(yán)格限制在受控環(huán)境(如瀏覽器、沙盒、虛擬機(jī))內(nèi)。

OpenAI把具備GUI操作能力的Agent限定在Atlas瀏覽器內(nèi),明確禁止它運(yùn)行代碼、下載文件或訪問(wèn)本地應(yīng)用。Anthropic在2024年底就發(fā)布了Computer Use API,但相關(guān)功能至今僅供開(kāi)發(fā)者在虛擬環(huán)境中測(cè)試。

微軟的做法最具代表性。在其Recall功能因高頻截屏引發(fā)隱私爭(zhēng)議后,它直接把“看”和“做”兩個(gè)動(dòng)作拆分了——Copilot Vision只能“看”用戶共享的應(yīng)用并提供建議,不能操作;有操作能力的Copilot Actions必須在單獨(dú)的沙盒桌面中進(jìn)行。

所以,海外巨頭出于“維護(hù)現(xiàn)有秩序”的考慮,堅(jiān)定地走A2A路線,GUI嘗試只停留在“測(cè)試版”,并未向普通用戶大規(guī)模推廣。

相比之下,國(guó)內(nèi)市場(chǎng)格局更復(fù)雜,巨頭中既有“挑戰(zhàn)者”也有“守成者”,選擇也因此更多樣。

字節(jié)跳動(dòng)走的是高權(quán)限GUI路線。它通過(guò)豆包大模型與中興努比亞深度合作,推出集成系統(tǒng)級(jí)AI助手的“AI手機(jī)”,希望繞開(kāi)現(xiàn)有的生態(tài)壁壘,爭(zhēng)奪下一代流量入口。

阿里、華為、OPPO,都布局了A2A路線。

阿里的動(dòng)作很直接,就是通過(guò)自建的、可控的API體系,將“通義千問(wèn)”這個(gè)超級(jí)大腦,深度集成到淘寶、支付寶、高德等核心業(yè)務(wù)中。

華為則在2025年底發(fā)布的HarmonyOS 6中,通過(guò)“意圖框架”,實(shí)現(xiàn)了“小藝”智能體與十余款鴻蒙原生應(yīng)用的A2A協(xié)作。

OPPO也聯(lián)合了支付寶等頭部應(yīng)用,共同探索A2A的行業(yè)標(biāo)準(zhǔn)。

但這些看似相同的選擇背后,是各自的商業(yè)考量。

對(duì)阿里來(lái)說(shuō),這套打法“攻守兼?zhèn)洹?。一方面,作為中?guó)頭部電商平臺(tái),核心利益是用可控的API保護(hù)龐大的交易生態(tài)。但另一方面,它又不止于防守,而是通過(guò)通義千問(wèn)打造一個(gè)入口,讓用戶在阿里生態(tài)內(nèi)完成更多交易和服務(wù)。

華為和OPPO當(dāng)然不想只做硬件制造商,容易被“管道化”,所以,在A2A路線之上,它們還在走一條以自家操作系統(tǒng)或AI大模型為核心的“混合生態(tài)”的路線。在這套體系里,既有標(biāo)準(zhǔn)的API調(diào)用,也有更底層的系統(tǒng)級(jí)智能體,最終目的都是為了掌握生態(tài)主導(dǎo)權(quán),從一個(gè)“設(shè)備提供商”,升級(jí)為未來(lái)生態(tài)的“規(guī)則制定者”之一。

簡(jiǎn)言之,國(guó)內(nèi)外廠商多數(shù)都選了A2A。只是區(qū)別在于,海外巨頭用它來(lái)強(qiáng)化現(xiàn)有控制;國(guó)內(nèi)廠商則用它來(lái)爭(zhēng)取話語(yǔ)權(quán),一邊參與A2A的標(biāo)準(zhǔn)制定,一邊通過(guò)自身的OS、大模型或生態(tài)優(yōu)勢(shì),建立以自己為核心的混合生態(tài)。

為什么主流廠商更傾向A2A?

選擇背后,是不同玩家在牌桌上的位置使然。不過(guò),從這些主流廠商的選擇中,我們可以得出一個(gè)結(jié)論:GUI路線雖然能快速驗(yàn)證AI手機(jī)的可能性,但A2A正獲得越來(lái)越多主流廠商的青睞。

是因?yàn)锳2A更安全、更穩(wěn)定嗎?不全是。它之所以被看作是未來(lái),可以從技術(shù)演進(jìn)、監(jiān)管合規(guī)和商業(yè)成本三個(gè)維度來(lái)看。

從技術(shù)角度看,A2A更符合AI分工協(xié)作的本質(zhì)。

GUI路線要求大模型同時(shí)承擔(dān)“感知屏幕(眼)、規(guī)劃任務(wù)(腦)、模擬操作(手)”的工作,負(fù)擔(dān)重、效率低且易出錯(cuò)。A2A路線,則是讓AI回歸到它最擅長(zhǎng)的“大腦”角色,專注于理解與任務(wù)調(diào)度,具體的執(zhí)行交給各垂直領(lǐng)域優(yōu)化的應(yīng)用智能體。這種“各司其職”的模式,不僅更高效可靠,也為未來(lái)更復(fù)雜的智能體協(xié)作打下了基礎(chǔ)。

從監(jiān)管角度看,A2A是更安全、更合規(guī)的選擇。

GUI的“讀屏”行為在全球范圍內(nèi)都面臨越來(lái)越嚴(yán)格的隱私監(jiān)管。2025年12月,美國(guó)德州起訴了包括三星在內(nèi)的多家智能電視制造商,指控它們通過(guò)高頻截屏非法收集用戶數(shù)據(jù)。這為所有采用類似技術(shù)的廠商敲響了警鐘。

而A2A由于數(shù)據(jù)流動(dòng)通過(guò)明確的接口進(jìn)行,并且有“雙重授權(quán)”機(jī)制保障,為廠商建立了一道合規(guī)“防火墻”。

最后,也是最關(guān)鍵的,從商業(yè)成本角度看,A2A是更經(jīng)濟(jì)的選擇。GUI方案看似“快”,但長(zhǎng)期運(yùn)營(yíng)成本高。

陳剛做了個(gè)類比:

GUI模式就像雇了一個(gè)需要24小時(shí)盯著監(jiān)控屏幕的保安,要不斷地看、不斷地分析圖像。這消耗的是大量的“腦力”(云端計(jì)算資源)。

A2A模式是建立了一個(gè)高效的內(nèi)部通訊系統(tǒng)。當(dāng)需要某個(gè)部門(mén)配合時(shí),發(fā)送一條結(jié)構(gòu)化的簡(jiǎn)單指令即可。這消耗的只是“通訊費(fèi)”(API調(diào)用費(fèi)用)。

對(duì)于手機(jī)廠商來(lái)說(shuō),如果幾億用戶每天都在用AI讀屏,算力與帶寬開(kāi)支將是一筆巨大的開(kāi)支。這種商業(yè)模式,在規(guī)?;逃玫那熬跋?,幾乎是不可持續(xù)的。

所以無(wú)論從技術(shù)、監(jiān)管還是商業(yè)成本來(lái)看,A2A都是更優(yōu)的選擇。更重要的是,一旦這個(gè)生態(tài)建立起來(lái),它將帶來(lái)全新的商業(yè)機(jī)會(huì)。這也是最讓行業(yè)人士興奮的原因。

首先,協(xié)議層與中間件將成為核心。PC時(shí)代有Windows,移動(dòng)互聯(lián)網(wǎng)時(shí)代有iOS和安卓。在AI時(shí)代,A2A、MCP等協(xié)議標(biāo)準(zhǔn),就像是新時(shí)代的“操作系統(tǒng)”和“開(kāi)發(fā)語(yǔ)言”。誰(shuí)能掌握標(biāo)準(zhǔn),誰(shuí)就可能成為下一個(gè)平臺(tái)級(jí)的巨頭。

其次,“智能體工廠”與垂直Agent服務(wù)商將迎來(lái)爆發(fā)?;跇?biāo)準(zhǔn)協(xié)議,為金融、醫(yī)療、物流等特定行業(yè)開(kāi)發(fā)專屬智能體,將成為一個(gè)巨大的市場(chǎng)。未來(lái),可能會(huì)有專門(mén)的“智能體商店”,你可以像下載App一樣,為你的手機(jī)雇傭一個(gè)“私人理財(cái)顧問(wèn)”或“專屬旅行規(guī)劃師”。這為無(wú)數(shù)中小開(kāi)發(fā)者,提供了全新的創(chuàng)業(yè)機(jī)會(huì)。

最后,現(xiàn)有公司也將在新生態(tài)中重新找到自己的位置。云廠商將成為智能體的“訓(xùn)練場(chǎng)”,手機(jī)廠商則成為智能體的承載終端。它們都將獲得新的增長(zhǎng)。

對(duì)于中國(guó)的科技公司而言,這是一個(gè)在底層協(xié)議和基礎(chǔ)設(shè)施上,與全球巨頭同臺(tái)競(jìng)技的絕佳機(jī)會(huì)。

結(jié)語(yǔ)

聊了這么多技術(shù)和商業(yè),我們不妨回到一個(gè)最根本的問(wèn)題:AI,到底應(yīng)該如何服務(wù)于人?

AI手機(jī)的發(fā)展,正從功能炫技的“概念期”,進(jìn)入生態(tài)構(gòu)建期。GUI和A2A,從不同維度給出了各自的回答。

GUI用一種最直觀的方式,完成了初步的市場(chǎng)啟蒙。它讓我們提前看到了AI手機(jī)未來(lái)的樣子——一個(gè)能聽(tīng)懂、會(huì)操作的伙伴。這種“快”的優(yōu)勢(shì),幫助廠商們快速驗(yàn)證了AI手機(jī)的可能性。但安全性存疑、經(jīng)濟(jì)性不高,決定了它更可能是一種過(guò)渡方案。

A2A路線盡管起步緩慢、協(xié)調(diào)艱難,但它在做一件更基礎(chǔ)的事——為AI和應(yīng)用之間建立一套清晰的“規(guī)則”。這些規(guī)則看起來(lái)很復(fù)雜,但本質(zhì)上是在回答一個(gè)問(wèn)題:AI應(yīng)該在哪些地方有權(quán)力,在哪些地方?jīng)]有。一旦這套規(guī)則被廣泛接受和應(yīng)用,就能形成一個(gè)更穩(wěn)定、更可控的生態(tài)。這必然是一場(chǎng)持久戰(zhàn)。

這場(chǎng)路線之爭(zhēng),往深了想,其實(shí)是我們希望與機(jī)器建立何種關(guān)系的思考。

AI手機(jī)的未來(lái),或許并不在于讓手機(jī)變得無(wú)所不能,去替代我們做所有事。而在于,它能否成為一個(gè)更聰明的“副駕駛”,在我們做決策時(shí),提供更精準(zhǔn)的信息、更周全的建議,最終把選擇權(quán)交還給我們自己。說(shuō)到底,技術(shù)終究是為人服務(wù)的。

(應(yīng)受訪者要求,文中陳剛、林亮為化名)

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。