Whisper编辑

3个月前发布 44 0 0

Whisper是一个开源的自动语音识别系统，经过68万小时的多语言和多任务监督数据训练

所在地：

加拿大

收录时间：

2024-10-29

打开网站手机查看

Whisper

🌐 经济型：买域名、轻量云服务器、用途：游戏网站等《腾讯云》特点：特价机便宜适合初学者用点我优惠购买

🚀 拓展型：买域名、轻量云服务器、用途：游戏网站等《阿里云》特点：中档服务器便宜域名备案事多点我优惠购买

🛡️ 稳定型：买域名、轻量云服务器、用途：游戏网站等《西部数码》特点：比上两家略贵但是稳定性超好事也少点我优惠购买

Whisper是一个由OpenAl训练并开源的神经网络，它在英语语音识别上接近人类的鲁棒性和准确性。它是一个自动语音识别(ASR）系统，通过从网络收集的680,000小时的多语言和多任务监督数据进行训练。Whisper能够改善对口音、背景噪音和技术语言的鲁棒性，并且能够进行多种语言的转录以及将这些语言翻译成英语。
主要特点:
多语言和多任务监督数据: Whisper的训练数据集庞大且多样化，这有助于提高其在不同口音、背景噪音和技术术语上的鲁棒性。
端到端的Transformer架构:Whisper的架构简单，采用编码器-解码器Transformer模型，输入的音频被分割成30秒的片段，转换为对数Mel频谱图，然后传递给编码器。
特殊标记:解码器训练用于预测相应的文本字幕，其中包含特殊标记，指导单一模型执行语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。
主要功能:
语言识别:Whisper能够识别多种语言，并在需要时进行转录或翻译。
转录和翻译:除了转录原始语言的语音，Whisper还能够将非英语音频翻译成英语。
零样本学习: Whisper在没有针对特定数据集进行微调的情况下，能够在多个不同的数据集上展现出更好的零样本性能。使用示例:
假设你有一个包含不同语言的音频文件，你可以使用Whisper来:
将音频分割成30秒的片段。
将每个片段转换为对数Mel频谱图。
使用Whisper模型进行语音识别，得到文本转录。如果需要，还可以将文本从原始语言翻译成英语。总结:
Whisper是一个强大的多语言自动语音识别系统，它通过使用大规模和多样化的数据集，提高了在复杂环境下的语音识别能力。它的开源特性为开发者和研究人员提供了一个基础，可以在此基础上构建有用的应用程序或进行

数据统计

悟道·天鹰(Aquila)

腾讯 AI 开放平台

腾讯AI开放平台汇聚顶尖技术，专业人才和行业资源，依托腾讯AI Lab、腾讯云、优图实验室及合作伙伴强大的AI技术能力，升级锻造创业项目。通过腾讯品牌、创投和流量广告等资源，为AI技术及产品找到更多的应用场景，实现产品从打造到引爆的全过程。

Whisper编辑

数据统计

相关导航

AI 音视频处理AI play

DragGAN(GitHub)

讯飞同传

TextIn Tools 免费OCR工具

百度AI同传

TigerBot

悟道·天鹰(Aquila)

腾讯 AI 开放平台