Whisper是一个由OpenAl训练并开源的神经网络,它在英语语音识别上接近人类的鲁棒性和准确性。它是一个自动语音识别(ASR)系统,通过从网络收集的680,000小时的多语言和多任务监督数据进行训练。Whisper能够改善对口音、背景噪音和技术语言的鲁棒性,并且能够进行多种语言的转录以及将这些语言翻译成英语。
主要特点:
多语言和多任务监督数据: Whisper的训练数据集庞大且多样化,这有助于提高其在不同口音、背景噪音和技术术语上的鲁棒性。
端到端的Transformer架构:Whisper的架构简单,采用编码器-解码器Transformer模型,输入的音频被分割成30秒的片段,转换为对数Mel频谱图,然后传递给编码器。
特殊标记:解码器训练用于预测相应的文本字幕,其中包含特殊标记,指导单一模型执行语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。
主要功能:
语言识别:Whisper能够识别多种语言,并在需要时进行转录或翻译。
转录和翻译:除了转录原始语言的语音,Whisper还能够将非英语音频翻译成英语。
零样本学习: Whisper在没有针对特定数据集进行微调的情况下,能够在多个不同的数据集上展现出更好的零样本性能。使用示例:
假设你有一个包含不同语言的音频文件,你可以使用Whisper来:
将音频分割成30秒的片段。
将每个片段转换为对数Mel频谱图。
使用Whisper模型进行语音识别,得到文本转录。如果需要,还可以将文本从原始语言翻译成英语。总结:
Whisper是一个强大的多语言自动语音识别系统,它通过使用大规模和多样化的数据集,提高了在复杂环境下的语音识别能力。它的开源特性为开发者和研究人员提供了一个基础,可以在此基础上构建有用的应用程序或进行
Whisper
根据文本生成多种逼真的语音 AI Voice Generator with 600+ AI voices. Generate realistic Text to Speech voice over online with AI. Convert text to audio and download as MP3 & WAV files.
DragGAN是一个创新的AI图像编辑工具,它提供了一种新颖的交互方式,允许用户通过直观的点拖动操作来编辑图像。
讯飞同传,基于科大讯飞的智能语音和语言技术,提供多场景多语种实时转写翻译、同声传译、直播字幕上屏和会议记录分享等一体化同传服务。
免费OCR工具,文字识别,表格识别,文档解析、PDF转Word、PDF转Excel、PDF转PPT、PDF转JPG、Word转PDF、Excel转PDF、图片转PDF、Word转JPG、图像水印去除、图片扫描增强、照片文档歪曲矫正、去除屏幕纹、自动擦除手写文字、图像质量检测、AI篡改检测、OFD转图片、印章检测、票据识别
百度AI同传官网
GitHub is where over 100 million developers shape the future of software, together. Contribute to the open source community, manage your Git repositories, review code like a pro, track bugs and features, power your CI/CD and DevOps workflows, and secure code before you commit it.
GitHub is where over 100 million developers shape the future of software, together. Contribute to the open source community, manage your Git repositories, review code like a pro, track bugs and features, power your CI/CD and DevOps workflows, and secure code before you commit it.
腾讯AI开放平台汇聚顶尖技术,专业人才和行业资源,依托腾讯AI Lab、腾讯云、优图实验室及合作伙伴强大的AI技术能力,升级锻造创业项目。通过腾讯品牌、创投和流量广告等资源,为AI技术及产品找到更多的应用场景,实现产品从打造到引爆的全过程。