苹果新转录AI对决Whisper、Parakeet，谁更胜一筹？结果差距挺大

2025-07-12 14:20 83

最近苹果新出的转录API挺火，大家都说它比Whisper快不少。但转录这东西，光快可不行， accuracy（准确率）才是王道啊！它到底准不准呢？我专门做了个测试，拿它跟OpenAI的Whisper和英伟达的Parakeet好好比了比。

其实这个测试灵感是来自开发者Prakash Pax，他自己先做了一波测试。他录了15个英文音频样本，时长从15秒到2分钟不等，分别用苹果新转录API、OpenAI的Whisper Large v3 Turbo和Eleven Lab的scribe v1来测试。不过他也说了，自己不是英语母语者，结果可能会跟其他人有点出入。他这测试勾起了我的兴趣，我就想看看苹果和OpenAI的模型跟英伟达的Parakeet比起来咋样，毕竟Parakeet是目前速度最快的转录模型。

那我是咋测试的呢？我也不是英语母语者，所以选了一段最近的9to5Mac Daily播客，时长7分31秒。

测试工具方面，我用MacWhisper来运行OpenAI的Whisper Large V3 Turbo和英伟达的Parakeet v2，苹果的语音API则用了Finn Vorhees开发的Yap项目。测试设备是我的M2 Pro MacBook Pro，内存16GB。

至于字符错误率（CER）和词错误率（WER）的分析，这东西计算方法可多了，比如要不要统一空格、忽略大小写、忽略标点啥的。我找了Hugging Face上的两个工具：Metric: cer和Metric: wer。这俩工具都在各自页面说明了计算方法，我就不细说了。关键是所有模型都用同样的方法评估，这样就算计算方法稍有不同导致具体数字有差异，整体趋势还是靠谱的。

测试结果咋样呢？先看表格里的基础数据：

我还进一步让ChatGPT、Claude和Gemini也来计算字符错误率和词错误率，结果有点不一样，因为它们的文本标准化方法不同。

ChatGPT（o4-mini-high）是先把参考文本和每个模型的转录文本都标准化了，比如全转成小写、去掉所有标点、把连续的空格缩成一个空格。它算出来的结果是：Parakeet v2转录时间2秒，字符错误率6.0%，词错误率12.3%；Whisper Large V3 Turbo转录时间40秒，字符错误率0.4%，词错误率1.4%；苹果转录时间9秒，字符错误率2.1%，词错误率10.2%。

Claude（Sonnet 4）的文本标准化是把文本转成小写，把弯引号改成直引号，把长破折号改成连字符，多个空格换成一个空格，还去掉首尾空格。它给出的结果：Parakeet v2转录时间2秒，字符错误率8.4%，词错误率11.0%；Whisper Large V3 Turbo转录时间40秒，字符错误率0.1%，词错误率1.0%；苹果转录时间9秒，字符错误率3.5%，词错误率8.2%。

Gemini（2.5 Pro）则是把文本转成小写、去掉所有标点、把连字符换成空格。它算出来：Parakeet v2转录时间2秒，字符错误率7.6%，词错误率12.3%；Whisper Large V3 Turbo转录时间40秒，字符错误率0.3%，词错误率0.4%；苹果转录时间9秒，字符错误率3.4%，词错误率5.3%。

那到底哪个更好呢？这就得看情况了。

Whisper显然是三个里面最准的，但要是你做的是时间敏感的项目，转录的内容又比较长，那它的处理时间可能就成问题了。

Parakeet呢，要是速度比精度更重要，那它绝对是首选。比如你有个两小时的讲座录音，就想快速找到某个片段，这时候为了速度牺牲点精度可能就挺值。

苹果的模型处于中间位置，但这可不是说它不好。在速度上它更接近Parakeet，准确率却比Parakeet高，作为第一次推出的产品来说，已经很不错了。

#转录#当然，跟Whisper比起来还是有不小差距，特别是那些需要尽量少手动调整的高要求转录工作。但它能在本地运行，不依赖第三方API或者外部安装，这可是个大优势，尤其是随着开发者越来越多采用它，苹果也不断改进，未来可期啊。

想了解更多精彩内容，快来关注苹果范

苹果新转录AI对决Whisper、Parakeet，谁更胜一筹？结果差距挺大

产品展示

热点资讯

意昂体育介绍

产品展示

新闻动态