做了一个本地音频处理 + 伪知识库应用，强依赖本地 ASR 模型，这种项目开源有意义吗？

不争发表于前天 12:48

大家好，最近做了一套本地音频处理 + 伪知识库的应用，想听听大家对开源价值的看法。

这个项目大概做的是：

导入音频 / 视频，通过 ASR 模型转录

对转录文本做切分、整理、结构化

生成一个偏“伪知识库”的索引

它更像是一套完整工作流，而不是单一工具。核心价值在于把音频资料转成可检索、可复用的个人知识资产。

现在纠结的点是：这个项目对本地部署要求比较高。因为强依赖 ASR 等模型，体验比较依赖 GPU 。如果走
API ，成本又不低，我这边估算大概 1 元 / 小时音频，长期用下来并不便宜。

所以我有点犹豫：

这种强依赖本地模型和 GPU 的项目，开源对大家还有意义吗？

如果很多人没有合适的显卡，项目会不会只能停留在“看起来不错，但跑不起来”？

如果我只把工作流、代码结构、模型适配层、数据处理逻辑开源，模型让用户自己选择，这样是否有价值？

是否应该同时支持本地模型和 API 模式，哪怕 API 成本较高？

对这种项目来说，大家更关心一键部署，还是更关心架构和实现思路？

我目前的想法是，如果开源，会尽量把边界写清楚：

本地部署需要一定 GPU

API 模式可以跑，但成本需要用户自己评估

项目重点是音频处理工作流和知识库构建逻辑

模型可以替换，不绑定某一个具体供应商

想问问大家：如果你们看到这样的项目，会觉得有参考价值吗？还是说部署门槛太高，开源意义有限？
也欢迎有类似需求的朋友聊聊你们的使用场景

HMM 发表于前天 13:55

平板上的会议记录 APP 现在挺成熟的，平时也用不到长音频的录制，感觉要推广挺难的。
主要是 AI 极大拉低了语音识别的门槛。

3425258784 发表于前天 14:12

我能想到的大量的场景在金融调研的会议纪要，有很多音视频

A1943699 发表于前天 15:50

都开源了，说明你并没有想着赚到钱。那只要满足你自己的心理价值就行了，没必要考虑多少人真要用。

对我来说的话，压根就不用急。比如苹果很早不就支持图片中文字识别了，现在 Safari 网页翻译都同时翻译图片。所以，只要将来硬件性能满足了，AI 本地转录音频会是操作系统自带功能。等等就是了

a837660069 发表于前天 16:10

好像有现成的，OpenWhispr

不争发表于前天 16:34

ASR 可以让用户自己去接 api 。

浪里个浪 发表于前天 16:50

你可以整理一下把本地 asr 和网上的 asr 都做成 api 形式接进去然后再开源, 这样就无所谓了吧. 乐意自己花钱的就自己花钱做. 真的想要保姆式手把手部署你就把部署本地 asr 的教程一块写进去.

苏格拉 发表于前天 17:03

音频处理工作流和知识库构建逻辑，这个有哪些高价值的应用场景可以分享下嘛～

慢热少年 发表于前天 17:10

我之前想弄一个音乐 lrc 字幕生成的，但是 ai 做出来的效果好差，好多错的，不知道有没有啥好方案。

稳拿第一刀 发表于前天 17:32

我们做的项目好像，比如上一个视频下载的项目。现在我也做一个类似这样的应用，在本地运行时以及模型都已经跑通了，不过侧重点不同，我更多是关注英语学习

页: [1] 2

尘火论坛 | 精品资源分享社区's Archiver

做了一个本地音频处理 + 伪知识库应用，强依赖本地 ASR 模型，这种项目开源有意义吗？