b71166614 发表于 2026-5-31 15:24:04

怎么看待 voice agent 这个交互形态

最近这一年的语音技术,包括 stt 和 tts 发展的都很快,市面上也出现了想 typeless 这类 voice 的 ai 产品形态,但是像是电影里面那种 jarvis 或者 samantha 形态的产品似乎还没怎么出现。

想问问 尘友们是怎么看待语音交互这种形态的,类似的场景可能是如果有一封邮件进来,然后直接说一句话,ai 就能帮你处理好这样。但是语音这种低信息密度的形式,能够支撑这样的产品吗?我对这些还是挺疑惑的。

ly030513 发表于 2026-5-31 18:20:07

语音目前更适合低认知负担的场景,比如记录碎片想法、简单指令,而不是处理复杂任务。Jarvis 那种形态难点不在语音识别,而在 AI 真正理解上下文并自主执行多步操作。

742957987 发表于 2026-5-31 21:30:07

信息密度太低

Arrogants 发表于 2026-6-1 00:35:06

这让我想起来前几天 vide coding 时, 意识到文字不能很好的表达说话的语气.
例如反问语气 “怎么把我的.git 删了?", ai 认为我让它把.git 删除

a197751000 发表于 2026-6-1 11:55:06

做这个的门槛太低了,livekit 有整套的解决方案,但是能干啥呢?又一个 chatbot?
页: [1]
查看完整版本: 怎么看待 voice agent 这个交互形态