有没有比 whisper large v3 更准更强的
我平时用来输出词级字幕,最近测试了 qwen 的 asr 感觉准确率和时间戳都不是很准啊。。 比large v3更准的是 medium. large 不管是中文还是日文,幻觉太多了 感觉 v3 不如 v2 ,尤其是处理日语方面 那太多了,中文的话豆包,多语言的话elevenlabs ,soniox 反正我是觉得 Whisper 已经过时了,而且过时好几年了。
sensevoice 这类比较新的非自回归的模型,可能效果都比它好。 qwen3-asr 不错的,对中文、方言支持比 whisper 好 是挺神奇的,有时候 base 也比 large 准
页:
[1]