怎么看待 voice agent 这个交互形态
最近这一年的语音技术,包括 stt 和 tts 发展的都很快,市面上也出现了想 typeless 这类 voice 的 ai 产品形态,但是像是电影里面那种 jarvis 或者 samantha 形态的产品似乎还没怎么出现。想问问 尘友们是怎么看待语音交互这种形态的,类似的场景可能是如果有一封邮件进来,然后直接说一句话,ai 就能帮你处理好这样。但是语音这种低信息密度的形式,能够支撑这样的产品吗?我对这些还是挺疑惑的。 语音目前更适合低认知负担的场景,比如记录碎片想法、简单指令,而不是处理复杂任务。Jarvis 那种形态难点不在语音识别,而在 AI 真正理解上下文并自主执行多步操作。 信息密度太低 这让我想起来前几天 vide coding 时, 意识到文字不能很好的表达说话的语气.
例如反问语气 “怎么把我的.git 删了?", ai 认为我让它把.git 删除 做这个的门槛太低了,livekit 有整套的解决方案,但是能干啥呢?又一个 chatbot?
页:
[1]