場(chǎng)景描述
隨著AI能力進(jìn)步,越來(lái)越多的傳統(tǒng)硬件廠商以及基于小模型AI能力構(gòu)建的智能硬件廠商,迫切得需要升級(jí)到大模型以提升交互體驗(yàn)。然而,對(duì)于眾多企業(yè)來(lái)說(shuō)要想保障低延時(shí)交互的同時(shí),又要確保模型的效果并且引入外部服務(wù)豐富AI能力,還要兼顧成本就變得尤為挑戰(zhàn)。
眾所周知,想要低時(shí)延則模型尺寸不能過(guò)大,而模型尺寸偏小又會(huì)帶來(lái)效果問(wèn)題;想要引入更多的外部服務(wù)來(lái)豐富AI能力,則工程鏈路必然更復(fù)雜,工程鏈路的冗長(zhǎng)又會(huì)帶來(lái)高時(shí)延問(wèn)題。
面對(duì)這些挑戰(zhàn),眾多硬件廠商急需一種兼顧成本、時(shí)延、功能、效果并且易用的解決方案。
解決方案
阿里通義實(shí)驗(yàn)室,深刻認(rèn)識(shí)到消費(fèi)電子行業(yè)升級(jí)AI能力的緊迫性和重要性,為了解決上述挑戰(zhàn),決定建設(shè)多模態(tài)交互方案。
該方案借助通義實(shí)驗(yàn)室的應(yīng)用算法能力,對(duì)AI硬件的常見(jiàn)場(chǎng)景進(jìn)行了分析,專項(xiàng)定制了數(shù)個(gè)小尺寸意圖識(shí)別模型,在確保效果的同時(shí)最大程度降低時(shí)延。另外依托于阿里云百煉平臺(tái)的生態(tài),使得用戶可以靈活自主得添加各類接口、MCP、智能體,極大程度得擴(kuò)展了應(yīng)用的能力邊界。而且在阿里云自研算力的加持下,保障了性能和穩(wěn)定的前提下讓成本可控。使其最終成為硬件廠商用得起、用得好的解決方案。
成效
面向消費(fèi)電子產(chǎn)品,提供結(jié)合了意圖識(shí)別、安全審核、長(zhǎng)期記憶、聯(lián)網(wǎng)搜索、Function call與Agent靈活插拔的語(yǔ)音、視覺(jué)多模態(tài)實(shí)時(shí)交互的一站式解決方案:
1. 低延時(shí),語(yǔ)音對(duì)話最低不足1s,視頻流對(duì)話最低1.5s2. 豐富的內(nèi)置技能與Agent(互聯(lián)網(wǎng)搜索、設(shè)備控制、天氣、翻譯、新聞)3. 從上下文到備忘錄到長(zhǎng)期記憶的多級(jí)記憶,記憶召回F1值90%以上4. 意圖識(shí)別模型準(zhǔn)確率95%的前提下時(shí)延低于200ms
阿里云為聽(tīng)力熊、希沃、深勵(lì)科技等廠商提供的多模態(tài)交互解決方案使得其多款產(chǎn)品的AI體驗(yàn)大幅度提升,無(wú)論是情感陪伴、學(xué)習(xí)教育、語(yǔ)音控制、視覺(jué)理解都贏得了最終用戶的好評(píng)和贊譽(yù),用戶粘性大幅提升,產(chǎn)品使用時(shí)長(zhǎng)和交互頻次分別提升20%和70%。