Whisper

19 de março de 2023

Aviso: Este post foi traduzido para o português usando um modelo de tradução automática. Por favor, me avise se encontrar algum erro.

Introdução

Whisper é um sistema de reconhecimento automático de voz (automatic speech recognition (ASR)) treinado em 680.000 horas de dados multilíngues e multitarefa supervisionados coletados da web. O uso de um conjunto de dados tão grande e diversificado leva a uma maior robustez em relação aos sotaques, ao ruído de fundo e à linguagem técnica. Além disso, permite a transcrição em vários idiomas, bem como a tradução desses idiomas para o inglês.

Instalação

Para poder instalar esta ferramenta o melhor é criar um novo ambiente do Anaconda

	
		!conda create -n whisper

Entramos no ambiente

	
		!conda activate whisper

Instalamos todos os pacotes necessários

	
		!conda install pytorch torchvision torchaudio pytorch-cuda=11.6 -c pytorch -c nvidia

Por último instalamos whisper

	
		!pip install git+https://github.com/openai/whisper.git

E atualizamos o ffmpeg

	
		!sudo apt update && sudo apt install ffmpeg

Uso

Importamos whisper

	
		import whisper

Selecionamos o modelo, quanto maior melhor ele performará

	
		# model = "tiny"
# model = "base"
# model = "small"
# model = "medium"
model = "large"
model = whisper.load_model(model)

Carregamos o áudio deste anúncio antigo (de 1987) das Micro Machines

	
		audio_path = "MicroMachines.mp3"
audio = whisper.load_audio(audio_path)
audio = whisper.pad_or_trim(audio)

	
		mel = whisper.log_mel_spectrogram(audio).to(model.device)

	
		_, probs = model.detect_language(mel)
print(f"Detected language: {max(probs, key=probs.get)}")

	
		Detected language: en

	
		options = whisper.DecodingOptions()
result = whisper.decode(model, mel, options)

	
		result.text

	
		"This is the Micro Machine Man presenting the most midget miniature motorcade of micro machines. Each one has dramatic details, terrific trim, precision paint jobs, plus incredible micro machine pocket play sets. There's a police station, fire station, restaurant, service station, and more. Perfect pocket portables to take any place. And there are many miniature play sets to play with and each one comes with its own special edition micro machine vehicle and fun fantastic features that miraculously move. Raise the boat lift at the airport, marina, man the gun turret at the army base, clean your car at the car wash, raise the toll bridge. And these play sets fit together to form a micro machine world. Micro machine pocket play sets so tremendously tiny, so perfectly precise, so dazzlingly detailed, you'll want to pocket them all. Micro machines and micro machine pocket play sets sold separately from Galoob. The smaller they are, the better they are."

Continuar lendo

Padrões de agentes

Seus agentes estão falhando? Eleve seus projetos de IA com padrões avançados: ReAct, planejamento, multi-agentes e mais. Guia prática com código!

LangGraph: Revolução em seus agentes de IA

🚀 ¡Revoluciona tus agentes de IA! 🧠 LangGraph não é apenas outra biblioteca, é o framework de orquestração que te dá o CONTROLE total para construir agentes complexos, com memória a longo prazo e até com intervenção humana! Se livre dos chatbots básicos, é hora de criar verdadeira inteligência. ¡Sumérgete em este post e descubra!

Criar ambientes virtuais com uv

Aprenda a criar ambientes virtuais com uv, um gerenciador de pacotes e ambientes para Python escrito em Rust, o que o torna muito rápido. Se você teve problemas com os tempos de espera usando conda, ou quer uma alternativa mais rápida e fácil para venv, entre e veja como usar uv.

Últimos posts -->

Você viu esses projetos?

Horeca chatbot

Naviground

Subtify

Ver todos os projetos -->

Quer aplicar IA no seu projeto? Entre em contato!

Quer melhorar com essas dicas?

Memory profiler

Ver o uso de memória de um script

DataLoader com pin_memory e num_workers

Aumentar o desempenho de DataLoader com pin_memory e num_workers

py-smi

Biblioteca Python para obter dados da GPU como `nvidia-smi`

Últimos tips -->

Use isso localmente

Os espaços do Hugging Face nos permitem executar modelos com demos muito simples, mas e se a demo quebrar? Ou se o usuário a deletar? Por isso, criei contêineres docker com alguns espaços interessantes, para poder usá-los localmente, aconteça o que acontecer. Na verdade, se você clicar em qualquer botão de visualização de projeto, ele pode levá-lo a um espaço que não funciona.