Whisper是一个由OpenAl训练并开源的神经网络,它在英语语音识别上接近人类的鲁棒性和准确性。它是一个自动语音识别(ASR)系统,通过从网络收集的680,000小时的多语言和多任务监督数据进行训练。Whisper能够改善对口音、背景噪音和技术语言的鲁棒性,并且能够进行多种语言的转录以及将这些语言翻译成英语。
主要特点:
多语言和多任务监督数据: Whisper的训练数据集庞大且多样化,这有助于提高其在不同口音、背景噪音和技术术语上的鲁棒性。
端到端的Transformer架构:Whisper的架构简单,采用编码器-解码器Transformer模型,输入的音频被分割成30秒的片段,转换为对数Mel频谱图,然后传递给编码器。
特殊标记:解码器训练用于预测相应的文本字幕,其中包含特殊标记,指导单一模型执行语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。
主要功能:
语言识别:Whisper能够识别多种语言,并在需要时进行转录或翻译。
转录和翻译:除了转录原始语言的语音,Whisper还能够将非英语音频翻译成英语。
零样本学习: Whisper在没有针对特定数据集进行微调的情况下,能够在多个不同的数据集上展现出更好的零样本性能。使用示例:
假设你有一个包含不同语言的音频文件,你可以使用Whisper来:
将音频分割成30秒的片段。
将每个片段转换为对数Mel频谱图。
使用Whisper模型进行语音识别,得到文本转录。如果需要,还可以将文本从原始语言翻译成英语。总结:
Whisper是一个强大的多语言自动语音识别系统,它通过使用大规模和多样化的数据集,提高了在复杂环境下的语音识别能力。它的开源特性为开发者和研究人员提供了一个基础,可以在此基础上构建有用的应用程序或进行
Whisper
根据文本生成多种逼真的语音 AI Voice Generator with 600+ AI voices. Generate realistic Text to Speech voice over online with AI. Convert text to audio and download as MP3 & WAV files.
3DTopia 是一个由南洋理工大学、上海AI实验室等机构的研究人员共同开发的文本到3D生成模型。这个模型能够在短短五分钟内生成多样化、高精度的3D模型,特别适合需要快速生成3D物体...
Speech Studio
DragGAN是一个创新的AI图像编辑工具,它提供了一种新颖的交互方式,允许用户通过直观的点拖动操作来编辑图像。
onvideo快手云剪,提供强大免费的视频剪辑编辑软件、海量视频、图片、音频版权素材,帮助大型机构、企业、媒体机构、自媒体以及普通用户高效完成视频内容制作,提供在线视频编辑、视频编辑、视频封面制作、视频去抖、视频抠像、直播剪辑、云端素材库、智能语音转字幕、智能字幕转语音、团队协同、媒资管理、资源共享、团队内容审核、视频制作完成快速内容分发、一键发布到快手等功能。
GitHub is where over 100 million developers shape the future of software, together. Contribute to the open source community, manage your Git repositories, review code like a pro, track bugs and features, power your CI/CD and DevOps workflows, and secure code before you commit it.
制片帮悦音是制片帮旗下配音产品品牌,可以在线将文字转成语音的智能配音产品。悦音配音提供男声女声童声、普通话,方言,英文等多语种的真人声音,在您输入文字后直接生成音频。是一款ai智能在线配音语音合成工具软件。为广告宣传片,短视频实现快速配音需求。
GitHub is where over 100 million developers shape the future of software, together. Contribute to the open source community, manage your Git repositories, review code like a pro, track bugs and features, power your CI/CD and DevOps workflows, and secure code before you commit it.