近日,小米大模型團(tuán)隊(duì)的兩篇論文成功入選國際頂級(jí)AI會(huì)議NAACL 2025,并均被收錄為主會(huì)長文。這兩篇論文分別聚焦于圖形用戶界面(GUI)代理和機(jī)器翻譯方向,其研究成果已深度應(yīng)用于小愛翻譯,為辦公場(chǎng)景中的語言障礙提供了全新的解決方案。
技術(shù)亮點(diǎn):從GUI代理到多語言翻譯
小米在GUI代理方向的研究中,將手機(jī)控制任務(wù)拆解為頁面到達(dá)和頁面操作兩個(gè)子任務(wù),使智能代理更關(guān)注整體任務(wù)的完成能力,而非單步最優(yōu)解。這一技術(shù)顯著提升了智能助手的效率,尤其在辦公場(chǎng)景中,用戶可以通過語音指令快速完成復(fù)雜的操作,例如切換應(yīng)用、查找文件等。
在機(jī)器翻譯領(lǐng)域,小米基于大語言模型探索了多語言翻譯的最佳訓(xùn)練范式,并開源了一系列翻譯模型。這些模型已深度集成到小愛翻譯中,支持實(shí)時(shí)翻譯、語音翻譯和圖文翻譯等功能。無論是跨國會(huì)議中的實(shí)時(shí)語音翻譯,還是外文文檔的快速解讀,小愛翻譯都能輕松應(yīng)對(duì)。
辦公場(chǎng)景應(yīng)用:提升效率,打破語言障礙
在跨國會(huì)議中,小愛翻譯支持邊說邊譯、邊聽邊譯,實(shí)時(shí)將語音轉(zhuǎn)化為目標(biāo)語言,確保與會(huì)者無障礙溝通。例如,在英語和中文的對(duì)話中,小愛翻譯可以快速生成精準(zhǔn)的翻譯結(jié)果,避免因語言差異導(dǎo)致的誤解。
對(duì)于需要處理大量外文文檔的用戶,小愛翻譯提供了圖文翻譯功能。用戶只需拍攝或上傳外文文檔,即可快速獲取翻譯結(jié)果。這一功能特別適用于法律、金融等領(lǐng)域的專業(yè)人士,幫助他們高效完成工作。
在與外國客戶或合作伙伴的交流中,小愛翻譯不僅支持語音翻譯,還能根據(jù)上下文提供精準(zhǔn)的翻譯結(jié)果。例如,在涉及專業(yè)術(shù)語的對(duì)話中,小愛翻譯能夠準(zhǔn)確識(shí)別并翻譯,確保溝通的準(zhǔn)確性和專業(yè)性。
小米表示,此次研究成果的發(fā)布是其“深耕底層技術(shù)、長期持續(xù)投入”的又一例證。未來,小米將繼續(xù)優(yōu)化大模型技術(shù),進(jìn)一步提升小愛翻譯的性能和用戶體驗(yàn),為全球用戶提供更高效、更智能的語言服務(wù)。
小米大模型技術(shù)的突破,不僅為辦公場(chǎng)景中的語言障礙提供了全新的解決方案,也展現(xiàn)了小米在人工智能領(lǐng)域的深厚積累和前瞻性布局。隨著技術(shù)的不斷升級(jí),小愛翻譯有望成為全球用戶跨語言溝通的得力助手,推動(dòng)辦公效率的進(jìn)一步提升。