彼时,不够成熟的语音识别技术难以给用户带来自然流畅的交互体验,号称「革命性产品」的锤子 TNT 便是前车之鉴。
现在,大语言模型的出现或许能解决掉一些「技术障碍」。
也许你已经在社交平台上刷到过人与 ChatGPT 手机端 app 语音聊天的视频。在这些视频里,对答如流的 ChatGPT不仅显示出其强大的思考和回答能力,还能模仿人类语气和口音的能力,几乎可以通过图灵测试,展现了语音助手真正的潜力。
ChatGPT 强大的理解能力给了人们进一步的想象空间。近期,北京交通大学和阿里巴巴的研究团队发表的论文《Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception》开始探讨使用 AI 实现手机操作的可能性。
他们基于 GPT-4V 设计了一个名为 Mobile-Agent 的多模态代理,能够通过自然语言指令自动执行像搜索视频、评论,甚至斗地主等操作。
Mobile-Agent 的操作依赖 GPT-4V 的视觉识别作定位,因此经常会有识别出错导致操作失败,如果把这个这个过程替换为自动化机制,成功率将大幅提升,而这正是苹果在研究的应用方向。
据 Mark Gurman 透露,苹果正在考虑将 Siri 与快捷方式结合,以提供更灵活的自动化操作。这表明苹果不仅想要打造一个更智能的语音助手,而且可能改变语音交互模式,为用户带来全新的交互体验。
如果以上爆料成真,那么 iOS 18 很可能就是苹果自 2018 年* Siri 团队以来一直在憋的大招。
用 AI 再次改变改变人机交互再来看看对手,AI 优等生 Google 已经在一年时间内完成了在 Android 上的 AI 布局。
自 Google 去年发布其自研大模型 Gemini 以来,他们就一直在想方设法把最新的 AI 技术应用到所有产品阵列上,手机自然也不例外。
首个用上 Gemini 大模型的产品是亲儿子 Pixel 8 系列,基于 Gemini Nano 模型,Google 带来了许多创新功能。