最近苹果新出的转录API挺火,大家都说它比Whisper快不少。但转录这东西,光快可不行, accuracy(准确率)才是王道啊!它到底准不准呢?我专门做了个测试,拿它跟OpenAI的Whisper和英伟达的Parakeet好好比了比。
其实这个测试灵感是来自开发者Prakash Pax,他自己先做了一波测试。他录了15个英文音频样本,时长从15秒到2分钟不等,分别用苹果新转录API、OpenAI的Whisper Large v3 Turbo和Eleven Lab的scribe v1来测试。不过他也说了,自己不是英语母语者,结果可能会跟其他人有点出入。他这测试勾起了我的兴趣,我就想看看苹果和OpenAI的模型跟英伟达的Parakeet比起来咋样,毕竟Parakeet是目前速度最快的转录模型。
那我是咋测试的呢?我也不是英语母语者,所以选了一段最近的9to5Mac Daily播客,时长7分31秒。
测试工具方面,我用MacWhisper来运行OpenAI的Whisper Large V3 Turbo和英伟达的Parakeet v2,苹果的语音API则用了Finn Vorhees开发的Yap项目。测试设备是我的M2 Pro MacBook Pro,内存16GB。
至于字符错误率(CER)和词错误率(WER)的分析,这东西计算方法可多了,比如要不要统一空格、忽略大小写、忽略标点啥的。我找了Hugging Face上的两个工具:Metric: cer和Metric: wer。这俩工具都在各自页面说明了计算方法,我就不细说了。关键是所有模型都用同样的方法评估,这样就算计算方法稍有不同导致具体数字有差异,整体趋势还是靠谱的。
测试结果咋样呢?先看表格里的基础数据:
我还进一步让ChatGPT、Claude和Gemini也来计算字符错误率和词错误率,结果有点不一样,因为它们的文本标准化方法不同。
ChatGPT(o4-mini-high)是先把参考文本和每个模型的转录文本都标准化了,比如全转成小写、去掉所有标点、把连续的空格缩成一个空格。它算出来的结果是:Parakeet v2转录时间2秒,字符错误率6.0%,词错误率12.3%;Whisper Large V3 Turbo转录时间40秒,字符错误率0.4%,词错误率1.4%;苹果转录时间9秒,字符错误率2.1%,词错误率10.2%。
Claude(Sonnet 4)的文本标准化是把文本转成小写,把弯引号改成直引号,把长破折号改成连字符,多个空格换成一个空格,还去掉首尾空格。它给出的结果:Parakeet v2转录时间2秒,字符错误率8.4%,词错误率11.0%;Whisper Large V3 Turbo转录时间40秒,字符错误率0.1%,词错误率1.0%;苹果转录时间9秒,字符错误率3.5%,词错误率8.2%。
Gemini(2.5 Pro)则是把文本转成小写、去掉所有标点、把连字符换成空格。它算出来:Parakeet v2转录时间2秒,字符错误率7.6%,词错误率12.3%;Whisper Large V3 Turbo转录时间40秒,字符错误率0.3%,词错误率0.4%;苹果转录时间9秒,字符错误率3.4%,词错误率5.3%。
那到底哪个更好呢?这就得看情况了。
Whisper显然是三个里面最准的,但要是你做的是时间敏感的项目,转录的内容又比较长,那它的处理时间可能就成问题了。
Parakeet呢,要是速度比精度更重要,那它绝对是首选。比如你有个两小时的讲座录音,就想快速找到某个片段,这时候为了速度牺牲点精度可能就挺值。
苹果的模型处于中间位置,但这可不是说它不好。在速度上它更接近Parakeet,准确率却比Parakeet高,作为第一次推出的产品来说,已经很不错了。
#转录#当然,跟Whisper比起来还是有不小差距,特别是那些需要尽量少手动调整的高要求转录工作。但它能在本地运行,不依赖第三方API或者外部安装,这可是个大优势,尤其是随着开发者越来越多采用它,苹果也不断改进,未来可期啊。
想了解更多精彩内容,快来关注苹果范