Whisper: Transcrição de Áudio com IA

Whisper: Transcrição de Áudio com IA Whisper: Transcrição de Áudio com IA

Aviso: Este post foi traduzido para o português usando um modelo de tradução automática. Por favor, me avise se encontrar algum erro.

Introduçãolink image 9

Whisper é um sistema de reconhecimento automático de voz (automatic speech recognition (ASR)) treinado em 680.000 horas de dados multilíngues e multitarefa supervisionados coletados da web. O uso de um conjunto de dados tão grande e diversificado leva a uma maior robustez em relação aos sotaques, ao ruído de fundo e à linguagem técnica. Além disso, permite a transcrição em vários idiomas, bem como a tradução desses idiomas para o inglês.

Website

Paper

GitHub

Modelo de cartão

Instalaçãolink image 10

Para poder instalar esta ferramenta o melhor é criar um novo ambiente do Anaconda

	
!conda create -n whisper
Copied

Entramos no ambiente

	
!conda activate whisper
Copied

Instalamos todos os pacotes necessários

	
!conda install pytorch torchvision torchaudio pytorch-cuda=11.6 -c pytorch -c nvidia
Copied

Por último instalamos whisper

	
!pip install git+https://github.com/openai/whisper.git
Copied

E atualizamos o ffmpeg

	
!sudo apt update && sudo apt install ffmpeg
Copied

Usolink image 11

Importamos whisper

	
import whisper
Copied

Selecionamos o modelo, quanto maior melhor ele performará

	
# model = "tiny"
# model = "base"
# model = "small"
# model = "medium"
model = "large"
model = whisper.load_model(model)
Copied

Carregamos o áudio deste anúncio antigo (de 1987) das Micro Machines

	
audio_path = "MicroMachines.mp3"
audio = whisper.load_audio(audio_path)
audio = whisper.pad_or_trim(audio)
Copied
	
mel = whisper.log_mel_spectrogram(audio).to(model.device)
Copied
	
_, probs = model.detect_language(mel)
print(f"Detected language: {max(probs, key=probs.get)}")
Copied
	
Detected language: en
	
options = whisper.DecodingOptions()
result = whisper.decode(model, mel, options)
Copied
	
result.text
Copied
	
"This is the Micro Machine Man presenting the most midget miniature motorcade of micro machines. Each one has dramatic details, terrific trim, precision paint jobs, plus incredible micro machine pocket play sets. There's a police station, fire station, restaurant, service station, and more. Perfect pocket portables to take any place. And there are many miniature play sets to play with and each one comes with its own special edition micro machine vehicle and fun fantastic features that miraculously move. Raise the boat lift at the airport, marina, man the gun turret at the army base, clean your car at the car wash, raise the toll bridge. And these play sets fit together to form a micro machine world. Micro machine pocket play sets so tremendously tiny, so perfectly precise, so dazzlingly detailed, you'll want to pocket them all. Micro machines and micro machine pocket play sets sold separately from Galoob. The smaller they are, the better they are."

Continuar lendo

MCP Durabilidade: Servidor e Cliente com Persistência para Tarefas de Longa Duração

MCP Durabilidade: Servidor e Cliente com Persistência para Tarefas de Longa Duração

Aprenda a construir servidor e cliente MCP com durabilidade para tarefas de longa duração. Tutorial completo do Model Context Protocol com persistência de dados usando SQLite, gerenciamento de tarefas em background e monitoramento em tempo real. Implemente migração de dados, processamento em lote e treinamento de modelos ML que sobrevivem a reinicializações do servidor. Código Python com FastMCP, recursos, ferramentas e padrões de durabilidade para aplicações enterprise.

Últimos posts -->

Você viu esses projetos?

Horeca chatbot

Horeca chatbot Horeca chatbot
Python
LangChain
PostgreSQL
PGVector
React
Kubernetes
Docker
GitHub Actions

Chatbot conversacional para cozinheiros de hotéis e restaurantes. Um cozinheiro, gerente de cozinha ou serviço de quarto de um hotel ou restaurante pode falar com o chatbot para obter informações sobre receitas e menus. Mas também implementa agentes, com os quais pode editar ou criar novas receitas ou menus

Naviground

Naviground Naviground

Subtify

Subtify Subtify
Python
Whisper
Spaces

Gerador de legendas para vídeos no idioma que você desejar. Além disso, coloca uma legenda de cor diferente para cada pessoa

Ver todos os projetos -->

Quer aplicar IA no seu projeto? Entre em contato!

Quer assistir alguma palestra?

Agentes do Amanhã: Descifrando os Mistérios da Planificação, UX e Memória

Agentes do Amanhã: Descifrando os Mistérios da Planificação, UX e Memória

Agentes de IA, impulsionados por LLMs, prometem transformar aplicações. Mas eles são meros executores hoje ou futuros colaboradores inteligentes? Para atingir seu verdadeiro potencial, precisamos superar barreiras críticas. Esta palestra investiga os três quebra-cabeças que definirão a próxima geração de agentes: 1. Planejamento Avançado (O Cérebro): Os agentes de hoje frequentemente tropeçam em tarefas complexas. Exploraremos como, além das chamadas de funções básicas, as arquiteturas cognitivas permitem planos robustos, antecipação de problemas e raciocínio profundo. Como fazê-los pensar vários passos à frente? 2. UX Revolucionária (A Alma): Interagir com um agente não pode ser uma fonte de frustração. Discutiremos como transcender o chat tradicional em direção a interfaces humanas em loop — UX colaborativa, generativa e acessível. Como Projetar Experiências Engajadoras? 3. Memória Persistente (O Legado): Um agente que esquece o que aprendeu está fadado à ineficiência. Analisaremos técnicas para capacitar agentes com uma memória significativa que vai além do seu histórico, permitindo que aprendam e tornando cada interação mais inteligente. Com exemplos práticos, não apenas entenderemos a magnitude desses desafios, mas também levaremos ideias concretas e uma visão clara para ajudar a construir os agentes do futuro: mais inteligentes, intuitivos e verdadeiramente capazes. Você se juntará a nós na jornada para desvendar o próximo capítulo dos agentes de IA?

Últimas palestras -->

Quer melhorar com essas dicas?

Últimos tips -->

Use isso localmente

Os espaços do Hugging Face nos permitem executar modelos com demos muito simples, mas e se a demo quebrar? Ou se o usuário a deletar? Por isso, criei contêineres docker com alguns espaços interessantes, para poder usá-los localmente, aconteça o que acontecer. Na verdade, se você clicar em qualquer botão de visualização de projeto, ele pode levá-lo a um espaço que não funciona.

Flow edit

Flow edit Flow edit

Edite imagens com este modelo de Flow. Baseado em SD3 ou FLUX, você pode editar qualquer imagem e gerar novas

FLUX.1-RealismLora

FLUX.1-RealismLora FLUX.1-RealismLora
Ver todos os contêineres -->

Quer aplicar IA no seu projeto? Entre em contato!

Você quer treinar seu modelo com esses datasets?

short-jokes-dataset

Dataset com piadas em inglês

opus100

Dataset com traduções de inglês para espanhol

netflix_titles

Dataset com filmes e séries da Netflix

Ver mais datasets -->