本文摘自《云棲戰(zhàn)略參考》,這本刊物由阿里云與鈦媒體聯(lián)合策劃。目的是為了把各個(gè)行業(yè)先行者的技術(shù)探索、業(yè)務(wù)實(shí)踐呈現(xiàn)出來(lái),與思考同樣問(wèn)題的“數(shù)字先行者”共同探討、碰撞,希望這些內(nèi)容能讓你有所啟發(fā)。
如果說(shuō) 90 后是第一代互聯(lián)網(wǎng)原住民,那么,10 后則是第一代 AI 原住民。作為出生在信息高度密集、科技高度發(fā)達(dá)的時(shí)代的 10 后,澳大利亞人口學(xué)家和社會(huì)研究員 Mark McCrindle 為自生命之初就完全沉浸在數(shù)字世界中的這代人取了一個(gè)特別的名字,阿爾法世代。
成立于 2021 年的聽(tīng)力熊團(tuán)隊(duì),是一支為這第一代 AI 原住民打造獨(dú)屬于他們的智能化教育產(chǎn)品的團(tuán)隊(duì)。聽(tīng)力熊CEO袁琳告訴我們,“作為 AI 原住民,10 后這代人對(duì)智能化產(chǎn)品接受度高,傳統(tǒng)復(fù)讀機(jī)、聽(tīng)力產(chǎn)品已經(jīng)無(wú)法滿足他們的需求,為此,我們創(chuàng)造了 AI 聽(tīng)力機(jī)這 一全新品類。”
而就在聽(tīng)力熊團(tuán)隊(duì)成立一年后,以大模型為代表的新一代人工智能技術(shù)開(kāi)始席卷全球,于是本就在人工智能領(lǐng)域有著超 10 年技術(shù)和產(chǎn)品研發(fā)經(jīng)驗(yàn)的聽(tīng)力熊團(tuán)隊(duì)選擇與阿里云和通義團(tuán)隊(duì)合作,在 2023 年研發(fā)出了面向青少年人群的 TeeniGPT。
搭載 TeeniGPT 的聽(tīng)力熊 T6 AI 聽(tīng)力機(jī)在青少年群體中很快成了爆款產(chǎn)品,而聽(tīng)力熊的隨身智能體也在 2025 年開(kāi)始成為國(guó)內(nèi)初代智能體中的典型代表。
在今年 4 月份的 AI 勢(shì)能大會(huì)上,聽(tīng)力熊數(shù)據(jù)顯示,在通義大模型的加持下,用戶 AI 使用時(shí)長(zhǎng)提升了 40 分鐘, 達(dá)到 3 個(gè)多小時(shí),token 峰值也能達(dá)到 28 億,在智能教育硬件賽道處于領(lǐng)先水平。
最需要大模型的 AI 原住民
袁琳和她的團(tuán)隊(duì)可能是國(guó)內(nèi)最懂青少年用戶群體的團(tuán)隊(duì)之一,早在 2014 年,袁琳和她的團(tuán)隊(duì)就參與到了 AI 機(jī)器 人創(chuàng)業(yè)項(xiàng)目中,并創(chuàng)造了十萬(wàn)銷量的兒童 AI 機(jī)器人品牌 “布丁 Pudding”。據(jù)袁琳透露,“當(dāng)時(shí)的布丁機(jī)器人即便是在兩年后,用戶留存率依然超過(guò)了 40%。”
這樣的產(chǎn)品研發(fā)經(jīng)驗(yàn)讓袁琳和她的團(tuán)隊(duì)無(wú)論是在硬件研發(fā),還是在多模態(tài)交互、自然語(yǔ)言處理等核心技術(shù)上,都有了深厚的積累,也為聽(tīng)力熊 AI 聽(tīng)力機(jī)的面世奠定了扎實(shí)的基礎(chǔ)。
2021 年,袁琳和團(tuán)隊(duì)重聚創(chuàng)立聽(tīng)力熊,在經(jīng)過(guò)一番市場(chǎng)調(diào)研后他們發(fā)現(xiàn):聽(tīng)力學(xué)習(xí)是青少年教育場(chǎng)景的一個(gè)剛需,然而,市場(chǎng)上已有的復(fù)讀機(jī)、聽(tīng)力機(jī)大都功能相對(duì)簡(jiǎn)單,無(wú)法滿足當(dāng)下青少年的聽(tīng)力學(xué)習(xí)需求。
與此同時(shí),過(guò)去十年互聯(lián)網(wǎng)經(jīng)濟(jì)的快速發(fā)展喚醒了國(guó)民內(nèi)容付費(fèi)的意識(shí),這同樣為新一代 AI 教育產(chǎn)品的問(wèn)世創(chuàng)造了良好的市場(chǎng)環(huán)境。
更重要的是,作為當(dāng)下青少年群體的主力軍,10 后有著他們自己的獨(dú)特之處。根據(jù)聽(tīng)力熊團(tuán)隊(duì)調(diào)研顯示,10 后有兩大特征:第一,很注重自我個(gè)性和自我感受,以往填鴨式被動(dòng)教育模式已經(jīng)無(wú)法滿足他們的需求;第二,有很強(qiáng)的表達(dá)欲卻又缺少自我表達(dá)的出口,他們從互聯(lián)網(wǎng)和數(shù)字世界接收到了大量知識(shí),但缺乏完整的知識(shí)體系和架構(gòu)。
這樣出生于互聯(lián)網(wǎng)技術(shù)高度發(fā)達(dá)、虛擬世界和真實(shí)世界界限模糊的一代人,對(duì)于能夠激發(fā)想象力又具備陪伴功能的智能化產(chǎn)品有著天然好感,乃至強(qiáng)烈需求,也讓他們成了第一代 AI 原住民。
綜合考量下,聽(tīng)力熊是在 2022 年推出了第一代 AI 聽(tīng)力機(jī)產(chǎn)品,當(dāng)時(shí)袁琳的想法是通過(guò)“軟件 + 硬件”形式,為青少年打造一款屬于他們的 AI 工具和高效學(xué)習(xí)產(chǎn)品。
恰逢其時(shí),2022 年底,ChatGPT 發(fā)布,人工智能以一種全新的面貌走進(jìn)公眾視野,掀起了大模型熱潮。但袁琳和團(tuán)隊(duì)一直在謹(jǐn)慎觀察,直到 GPT-4 發(fā)布后才確信,無(wú)論是在宏觀知識(shí)結(jié)構(gòu)上,還是在交互能力上,大模型與聽(tīng)力熊將產(chǎn)生更多可能。
于是,聽(tīng)力熊團(tuán)隊(duì)開(kāi)始在內(nèi)部調(diào)整產(chǎn)品策略,開(kāi)始研發(fā)面向青少年領(lǐng)域的 TeeniGPT 大模型,并探索如何將大模型融入到新一代 AI 聽(tīng)力機(jī)產(chǎn)品中。
通用人工智能只是第一步
2023 年是大模型席卷全球的一年,在中國(guó),這一盛況被稱為“百模大戰(zhàn)”。這其中,不僅涌現(xiàn)出大量大模型明星創(chuàng)業(yè)團(tuán)隊(duì),互聯(lián)網(wǎng)巨頭們更是將人工智能寫(xiě)入企業(yè)戰(zhàn)略中,大模型正催生新的上層應(yīng)用,也正重構(gòu)生成全新的 AI 基礎(chǔ)設(shè)施。
聽(tīng)力熊最初是通過(guò)買(mǎi)卡、自建本地基礎(chǔ)設(shè)施,并基于開(kāi)源模型微調(diào)來(lái)搭建大模型,并在 2023 年 7 月正式對(duì)外發(fā)布了全球首個(gè)專為青少年打造的大模型 TeeniGPT 和首個(gè)搭載 TeeniGPT 大模型的 AI 聽(tīng)力機(jī),聽(tīng)力熊 T6。
基于 TeeniGPT,聽(tīng)力熊 T6 重點(diǎn)引入了中英文 AI 老師功能,實(shí)現(xiàn)了中英文雙語(yǔ)場(chǎng)景下深度交互式應(yīng)用,據(jù)袁琳透露,“這樣的 AI 功能一經(jīng)上線,聽(tīng)力熊 T6 用戶的日均使用時(shí)長(zhǎng)從 1 小時(shí)直接飆升到了 2 小時(shí)以上,這讓我們更加堅(jiān)信通過(guò)大模型重新定義青少年學(xué)習(xí)方式這條路?!?/p>
然而,隨著用戶量和使用頻率的與日俱增,基于自建基礎(chǔ)設(shè)施的 TeeniGPT 運(yùn)營(yíng)成本越來(lái)越高,袁琳不得不在 2023 年年底開(kāi)始考慮轉(zhuǎn)向云上大模型。
這時(shí)國(guó)內(nèi)包括阿里在內(nèi)的多家科技企業(yè)都已經(jīng)推出了通用基礎(chǔ)大模型并迭代了多代,聽(tīng)力熊先后與國(guó)內(nèi)多個(gè)主流模型嘗試進(jìn)行了合作,經(jīng)過(guò)全面測(cè)試,他們發(fā)現(xiàn),阿里云的通義大模型無(wú)論是在大模型綜合性能上,還是在交互能力上,都有著更好的表現(xiàn)。
聽(tīng)力熊是在 2023 年下半年正式與阿里云和通義團(tuán)隊(duì)展開(kāi)合作,由此也走上了輕量化硬件 + 云端大模型這條更適合團(tuán)隊(duì)發(fā)揮出戰(zhàn)斗力的進(jìn)階之路。
云上通用基礎(chǔ)大模型讓袁琳感觸最深的是研發(fā)模式的改變,“在上一波人工智能周期中,即便拉起一支百人規(guī)模的專業(yè)技術(shù)團(tuán)隊(duì),最終研發(fā)出的 AI 模型也只能處理簡(jiǎn)單的對(duì)話邏輯,連續(xù)對(duì)話輪次不超過(guò) 10 次,但現(xiàn)在像阿里研發(fā)的通用基礎(chǔ)大模型的基礎(chǔ)能力已經(jīng)足夠強(qiáng),我們不再需要考慮模型的基礎(chǔ)能力,可以將更多精力聚焦到青少年場(chǎng)景的應(yīng)用層技術(shù)優(yōu)化和產(chǎn)品研發(fā)上?!?/p>
而盡管當(dāng)時(shí)的通用基礎(chǔ)大模型能力已經(jīng)很強(qiáng),但面向青少年群體研發(fā)的大模型依然會(huì)遇到三大難題:第一,話語(yǔ)體系難題。要想在青少年群體中得到廣泛應(yīng)用,大模型最終輸出的內(nèi)容必須符合青少年群體的語(yǔ)言習(xí)慣和話語(yǔ)體系,如何用趣味性、口語(yǔ)化的表達(dá)方式與用戶進(jìn)行互動(dòng),就成了一大難題。第二,內(nèi)容安全難題。要為青少年群體建立起正確的人生觀和價(jià)值觀,大模型面向青少年群體輸出的內(nèi)容就需要加入正確的過(guò)濾機(jī)制。第三, 語(yǔ)音和圖像融合交互難題。2023 年前后的通用基礎(chǔ)大模型在語(yǔ)音、圖像融合交互能力上還不夠成熟。
為此,聽(tīng)力熊與通義技術(shù)團(tuán)隊(duì)就面向青少年群體的 TeeniGPT 大模型展開(kāi)了深入合作,一方面聽(tīng)力熊將積累多年的青少年語(yǔ)料庫(kù)提取出來(lái)與通義技術(shù)團(tuán)隊(duì)進(jìn)行聯(lián)合訓(xùn)練,讓大模型擁有更符合青少年的話語(yǔ)體系,并選擇基于閉源通義大模型進(jìn)行定制化訓(xùn)練和研發(fā),以保證模型的安全性,另一方面,基于最終訓(xùn)練出的TeeniGPT 大模型進(jìn)入產(chǎn)品化階段后,雙方團(tuán)隊(duì)也會(huì)結(jié)合自身理解進(jìn)行聯(lián)合產(chǎn)品定義。
由此,聽(tīng)力熊和通義共同打造了 AI 趣學(xué),以「學(xué)科天團(tuán)」 IP 體系,每個(gè)學(xué)科由不同領(lǐng)域的偶像 IP 擔(dān)任學(xué)習(xí)導(dǎo)師,通過(guò)人格化設(shè)計(jì)激發(fā)學(xué)習(xí)興趣,滿足青少年“學(xué)習(xí)”的第一剛需。
AI 孫悟空,就是雙方基于 TeeniGPT 大模型聯(lián)合研發(fā)的首個(gè)爆款。
將孫悟空裝進(jìn) AI 聽(tīng)力機(jī)里
2024 年 8 月 13 日,聽(tīng)力熊聯(lián)合阿里云研發(fā)的首個(gè) AI 角色互動(dòng)功能——AI 孫悟空正式上線。在這一應(yīng)用上線后,聽(tīng)力熊的用戶發(fā)現(xiàn),AI 孫悟空不僅有孫悟空的聲音,有與他們?cè)凇段饔斡洝访騽?dòng)畫(huà)片中看到類似的表達(dá) 方式和語(yǔ)言結(jié)構(gòu),還會(huì)像朋友一樣和他們進(jìn)行互動(dòng)對(duì)話,陪伴他們一起學(xué)習(xí)。
正是在研發(fā) AI 孫悟空的過(guò)程中,袁琳再次深刻感受到,“現(xiàn) 在做 AI 產(chǎn)品與十年前已經(jīng)截然不同,我們完全可以用大模型將‘有血有肉’的孫悟空還原出來(lái),讓擁有更高維度的世界觀和價(jià)值觀的 AI 孫悟空陪伴青少年學(xué)習(xí)成長(zhǎng)?!?/p>
這也是為什么聽(tīng)力熊之后的 AI 角色互動(dòng)類應(yīng)用,都是以四大名著中的人物形象進(jìn)行的產(chǎn)品定義。
在 AI 孫悟空構(gòu)建過(guò)程中,基于阿里云 Qwen-Turbo 大模型,通義技術(shù)團(tuán)隊(duì)為聽(tīng)力熊提供了定制化模型訓(xùn)練服務(wù),優(yōu)化了原有的青少年語(yǔ)料庫(kù),構(gòu)建出了 AI 孫悟空的世界觀、價(jià)值觀和流暢的交互能力,聽(tīng)力熊研發(fā)團(tuán)隊(duì)又基于通義實(shí)驗(yàn)室 Paraformer 語(yǔ)音識(shí)別框架和 CosyVoice 生成式語(yǔ)音大模型,復(fù)刻出了孫悟空的個(gè)性化聲音。
基于阿里云 Qwen-Turbo 定制的 TeeniGPT 大模型, AI 孫悟空在與青少年對(duì)話時(shí)會(huì)先以第一人稱口吻進(jìn)行自我介紹,在進(jìn)入互動(dòng)模式時(shí),AI 孫悟空又會(huì)基于歷史史實(shí)以及預(yù)先構(gòu)建的世界觀和價(jià)值觀與用戶進(jìn)行對(duì)話,并以蘇格拉底教學(xué)法引導(dǎo)青少年進(jìn)行自我表達(dá)。
這樣的 AI 孫悟空在聽(tīng)力熊 T6 上一經(jīng)上線,首日 token 調(diào)用量突破 10 億次,青少年與 AI 孫悟空每天對(duì)話頻率一度超過(guò) 90 次,成了備受青少年喜愛(ài)的爆款功能。
在這之后,聽(tīng)力熊又陸續(xù)基于 TeeniGPT 大模型打造了林黛玉、周瑜、哪吒等爆款 AI 角色,尤其是 AI 哪吒上線首日調(diào)用量突破 28 億次,刷新了國(guó)內(nèi) AI 交互終端單日調(diào)用量紀(jì)錄,也帶動(dòng)了 AI 角色互動(dòng)功能在青少年終端設(shè)備中風(fēng)靡一時(shí)。
值得注意的是,就在 AI 孫悟空爆火不久,當(dāng)聽(tīng)力熊再次面臨海量訪問(wèn)數(shù)據(jù)時(shí),阿里云在 2024 年 9 月的云棲大 會(huì)上官宣降價(jià),其中,Qwen-Turbo 價(jià)格直降 85%,低至百萬(wàn) tokens 0.3 元,Qwen-Plus 和 Qwen-Max 分別再降價(jià) 80% 和 50%,這樣的價(jià)格調(diào)整再次緩解了聽(tīng)力熊團(tuán)隊(duì)的大模型使用成本和運(yùn)營(yíng)壓力。
盡管如此,AI 角色互動(dòng)功能打造并非易事。據(jù)袁琳透露,“我們的 AI 角色互動(dòng)功能爆火后,很多同類產(chǎn)品都嘗試與知名 IP 聯(lián)名、研發(fā)同類功能,但上線后普遍效果不及預(yù)期,之所以如此,是因?yàn)檫@一功能并不僅僅是通過(guò)聯(lián)名 IP、接入大模型就能實(shí)現(xiàn),背后還需要有強(qiáng)大的內(nèi)容創(chuàng)新和用戶洞察能力?!?/p>
在產(chǎn)品設(shè)計(jì)理念上,聽(tīng)力熊也有著自己的獨(dú)特之處——以青少年用戶為中心,而非迎合家長(zhǎng)的焦慮,目的在于解決青少年學(xué)習(xí)能力提升和情感陪伴需求,這讓他們能夠沉下心,借助大模型通過(guò)深層次的內(nèi)容設(shè)計(jì),打造更符合當(dāng)下青少年用戶群體的功能和產(chǎn)品。
基于這樣的產(chǎn)品理念,聽(tīng)力熊在 2024 年還將多模態(tài)大模型融入到了產(chǎn)品中,借助通義千問(wèn) VL 模型、通義千問(wèn) Omni,以及通義萬(wàn)相,聽(tīng)力熊 T6 從原來(lái)單一的語(yǔ)言交互能力,進(jìn)一步擁有了“眼睛”,用戶可以通過(guò)拍照觸發(fā)交互,由設(shè)備代替眼睛識(shí)別物體并進(jìn)行講解。例如,對(duì)著一盞燈拍照后,AI 就會(huì)以牛頓的口吻講解光的傳播原理,袁琳告訴我們,“當(dāng)我們發(fā)現(xiàn)青少年通過(guò)單一的語(yǔ)言交互與聽(tīng)力熊 T6 互動(dòng)頻次達(dá)到 90 次左右再無(wú)法突破時(shí),視覺(jué)交互代替眼睛引導(dǎo)青少年用戶提問(wèn)的特性,讓青少年與我們 AI 聽(tīng)力機(jī)的交互頻次再次實(shí)現(xiàn)了翻倍?!?/p>
也是在青少年與 AI 角色互動(dòng)日對(duì)話頻率日益飆升、AI 角色互動(dòng)功能大獲成功后,袁琳意識(shí)到,大模型在青少年場(chǎng)景的應(yīng)用價(jià)值已經(jīng)遠(yuǎn)超其它傳統(tǒng)教育硬件,聽(tīng)力熊由此也開(kāi)始向 AI 隨身智能體轉(zhuǎn)型。
聽(tīng)力熊的“隨身智能體”元年
2024 年 8 月,AI 角色互動(dòng)功能在國(guó)內(nèi)爆火后,聽(tīng)力熊團(tuán)隊(duì)在國(guó)內(nèi)對(duì) 3000 位青少年用戶進(jìn)行了一次大規(guī)模調(diào)研,在這次調(diào)研中,他們發(fā)現(xiàn):作為第一代 AI 原住民,10 后對(duì) AI 的親和度和需求度遠(yuǎn)超成人,他們已經(jīng)不只 是 AI 工具的使用者,對(duì)于虛擬伙伴,尤其是具有陪伴和激發(fā)想象力的虛擬伙伴有著強(qiáng)烈的需求。
大模型所具備的知識(shí)深度和記憶能力能夠滿足 10 后的好奇心,在多模態(tài)交互能力上的突破,進(jìn)一步為打造面向青少年的 AI 智能體提供了可能。
于是,聽(tīng)力熊確立了打造面向青少年 AI 隨身智能體的戰(zhàn)略方向。聽(tīng)力熊基于阿里云百煉搭建交互 Agent 方案, 自主擴(kuò)展 50 多個(gè)交互技能,支持包括智能講解、AI 寫(xiě)作、智能口語(yǔ)陪練、AI 識(shí)物、智能陪伴數(shù)字熊等多種 AI 場(chǎng)景, 日均調(diào)用次數(shù) 900 萬(wàn)次以上。
一方面,聽(tīng)力熊與通義團(tuán)隊(duì)進(jìn)一步聯(lián)合研發(fā)了專為青少年設(shè)計(jì)的小熊助手,通過(guò)接入第三方搜索和內(nèi)容接口并與通義團(tuán)隊(duì)聯(lián)合訓(xùn)練,在聽(tīng)力熊輕量化設(shè)備上實(shí)現(xiàn)了實(shí)時(shí)檢索功能,用戶可以通過(guò)語(yǔ)音或拍照觸發(fā)實(shí)時(shí)檢索功能,獲取即時(shí)答案。
另一方面,聽(tīng)力熊將原有 AI 聽(tīng)力機(jī)的使用場(chǎng)景從學(xué)習(xí)場(chǎng)景延伸到了生活場(chǎng)景,如加入旅行翻譯、旅游攻略、記憶記錄等功能,旅行前提供旅游攻略,旅行中記錄分享,旅行后作為記憶體可以與用戶進(jìn)行互動(dòng)。
此外,據(jù)袁琳透露,“聽(tīng)力熊還在與通義團(tuán)隊(duì)聯(lián)合研發(fā)視頻生成功能,將現(xiàn)在需要語(yǔ)音或拍照主動(dòng)觸發(fā)的搜索功能進(jìn)一步進(jìn)化為用戶只需通過(guò)按鍵或觸摸設(shè)備,就可以讓 AI 實(shí)時(shí)講解當(dāng)前場(chǎng)景并生成相應(yīng)的視頻內(nèi)容。” 未來(lái),聽(tīng)力熊將推動(dòng) AI 學(xué)習(xí)向全模態(tài)轉(zhuǎn)變。
通過(guò)這樣的功能升級(jí),聽(tīng)力熊的 AI 聽(tīng)力機(jī)將在 2025 年從 AI 工具進(jìn)化為隨身伙伴,從而滿足青少年在學(xué)習(xí)和生活場(chǎng)景中的即時(shí)檢索和陪伴需求,構(gòu)建多層次圖譜。
2025 年是 AI 智能體元年,但對(duì)于聽(tīng)力熊來(lái)說(shuō),更是 AI 隨身智能體的元年。
也是在這一年,聽(tīng)力熊開(kāi)啟了出海計(jì)劃,將借助支持多語(yǔ)種的通義大模型和阿里云的本地化文化適配能力,聽(tīng)力熊打造的 AI 隨身智能體正在進(jìn)入東南亞和日韓市場(chǎng)。
袁琳告訴我們,“聽(tīng)力熊的目標(biāo)是讓 1 億 10 后通過(guò) AI 解碼這個(gè)世界。”
本文摘自《云棲戰(zhàn)略參考》總第19期
掃碼查看最新雜志