怎么看待 voice agent 这个交互形态

b71166614 发表于 2026-5-31 15:24:04

最近这一年的语音技术，包括 stt 和 tts 发展的都很快，市面上也出现了想 typeless 这类 voice 的 ai 产品形态，但是像是电影里面那种 jarvis 或者 samantha 形态的产品似乎还没怎么出现。

想问问尘友们是怎么看待语音交互这种形态的，类似的场景可能是如果有一封邮件进来，然后直接说一句话，ai 就能帮你处理好这样。但是语音这种低信息密度的形式，能够支撑这样的产品吗？我对这些还是挺疑惑的。

ly030513 发表于 2026-5-31 18:20:07

语音目前更适合低认知负担的场景，比如记录碎片想法、简单指令，而不是处理复杂任务。Jarvis 那种形态难点不在语音识别，而在 AI 真正理解上下文并自主执行多步操作。

742957987 发表于 2026-5-31 21:30:07

信息密度太低

Arrogants 发表于 2026-6-1 00:35:06

这让我想起来前几天 vide coding 时, 意识到文字不能很好的表达说话的语气.
例如反问语气 “怎么把我的.git 删了?", ai 认为我让它把.git 删除

a197751000 发表于 2026-6-1 11:55:06

做这个的门槛太低了，livekit 有整套的解决方案，但是能干啥呢？又一个 chatbot?

页: [1]

尘火论坛 | 精品资源分享社区's Archiver

怎么看待 voice agent 这个交互形态