FireRedASR and FireRedASR2S

FireRedASR2S is a more comprehensive successor that integrates the ASR capabilities of FireRedASR with additional modules (VAD, LID, Punc) into a unified system, making them ecosystem siblings in a progression rather than true alternatives.

FireRedASR

Established

FireRedASR2S

Emerging

Maintenance 10/25

Adoption 10/25

Maturity 16/25

Community 19/25

Maintenance 10/25

Adoption 10/25

Maturity 11/25

Community 12/25

Stars: 1,796

Forks: 159

Downloads: —

Commits (30d): 0

Language: Python

License: Apache-2.0

Stars: 365

Forks: 20

Downloads: —

Commits (30d): 0

Language: Python

License: Apache-2.0

No Package No Dependents

About FireRedASR

FireRedTeam/FireRedASR

Open-source industrial-grade ASR models supporting Mandarin, Chinese dialects and English, achieving a new SOTA on public Mandarin ASR benchmarks, while also offering outstanding singing lyrics recognition capability.

This tool helps you accurately convert spoken audio into written text, handling Mandarin, Chinese dialects, and English. You input audio files, and it outputs precise text transcripts, even recognizing singing lyrics. It's designed for professionals in media, call centers, or content creation who need reliable transcription.

speech-to-text audio-transcription call-center-analytics media-production language-processing

About FireRedASR2S

FireRedTeam/FireRedASR2S

A SOTA Industrial-Grade All-in-One ASR system with ASR, VAD, LID, and Punc modules. FireRedASR2 supports Chinese (Mandarin, 20+ dialects/accents), English, code-switching, and both speech and singing ASR. FireRedVAD supports speech/singing/music in 100+ langs. FireRedLID supports 100+ langs and 20+ zh dialects. FireRedPunc supports zh and en.

This system helps professionals accurately transcribe spoken audio, including both speech and singing, into text. It takes audio files in various languages and Chinese dialects and outputs precise text transcriptions, often with punctuation, language identification, and speech/music segmentation. This is ideal for content creators, researchers, and anyone needing detailed, accurate text from audio recordings.

audio-transcription voice-to-text multilingual-audio content-localization call-center-analytics

Scores updated daily from GitHub, PyPI, and npm data. How scores work