[](https://pypi.org/project/anaouder/)
[](./LICENSE)
# Anaouder
[E brezhoneg](./README.md)
Reconnaissance vocale pour le breton avec Vosk.
Ce projet est développé bénévolement. Vous pouvez le soutenir par un don :
[](https://liberapay.com/gweltou/donate)
Une [version en ligne](https://translate.bzh/), développée par Philippe Argouarch, est également disponible.
## Présentation
Modèle de reconnaissance vocale (*speech-to-text*) entraîné avec le framework [Kaldi](https://www.kaldi-asr.org/), au format [Vosk](https://github.com/alphacep/vosk-api).\
Il est accompagné de scripts permettant la retranscription automatique de fichiers audio et video, l'alignement texte/son pour la création de sous-titres, ou encore l'inférence en temps réel à l'aide d'un microphone.
Principaux avantages :
* **Léger**. Les modèles Vosk pèsent moins de 100 Mo et peuvent tourner sur une large gamme d'appareils : ordinateurs **sans GPU**, RaspberryPi, smartphone Android...
* **Rapide**. L'inférence se fait en **temps réel**, même sur une machine un peu datée.
* **Local**. Fonctionne sans connexion internet. Vos données restent donc sur votre appareil.
* **Libre et gratuit**. La licence MIT vous permet de modifier le logiciel et de l'intégrer dans d'autres applications.
Le nombre d'heures d'enregistrement audio utilisé pour entraîner le modèle est relativement faible mais progresse peu à peu.
En dehors du projet [Common Voice](https://commonvoice.mozilla.org/br) de Mozilla, les enregistrements retranscrits [libres de droit](https://creativecommons.org/licenses/) sont rares pour le breton. Toute aide sur ce terrain sera la bienvenue !
## Installation
Les scripts nécessitent l'installation de [Python3](https://www.python.org/downloads/). L'installation du module de reconnaissance vocale se fera ensuite dans un terminal, en exécutant la commande suivante :
```bash
pip3 install anaouder
```
Une fois installé, et à mesure que de nouvelles versions du modèle de reconnaissance vocale seront proposées, vous pourrez mettre à jour le logiciel avec :
```bash
pip3 install --upgrade anaouder
```
## Retranscrire un fichier audio ou video
Une fois le module installé, la commande `adskrivan` permet de retranscrire un fichier audio ou video depuis le terminal. A la première exécution de la commande, il vous faudra patienter le temps de l'installation du module `static_ffmpeg` (programme de conversion pour les fichiers audio/video). Cette installation ne se fera qu'une seule fois.
```bash
adskrivan NOM_DU_FICHIER
```
Le résultat de la transcription s'affichera dans le terminal par défaut. Vous pouvez toutefois préciser le nom d'un fichier dans lequel écrire, avec l'option `-o`
```bash
adskrivan NOM_DU_FICHIER -o SORTIE.txt
```
## Utilisation avec un microphone
Depuis un terminal, invoquez la commande `mikro`.
Si aucun texte n'apparaît, vous pouvez afficher la liste des interfaces audio avec la commande :
```bash
mikro -l
```
Vous pourrez ensuite préciser, en argument, le numéro de l'interface à utiliser pour l'inférence :
```bash
mikro -d NUMERO_INTERFACE
```
## Alignement d'un texte d'après un audio
Il est possible d'aligner un texte d'après un fichier audio ou video à l'aide de la commande `linennan`. Vous obtiendrez un fichier contenant le texte original, accompagné de marqueurs temporels, au format `srt` (fichier de sous-titres Subrip).\
Le fichier texte doit être un texte brut (extension `.txt`) où chaque ligne correspondra à une ligne de sous-titre.
```bash
linennan FICHIER_SON_OU_VIDEO FICHIER_TEXTE -o sous-titres.srt
```
(export au format `eaf`, pour le logiciel ELAN, à venir...)
## Création automatique de sous-titres
Vous pouvez également laisser le modèle de reconnaissance vocale retranscrire les paroles pour la création de sous-titres, au format `srt` (Subrip).
```bash
istitlan FICHIER_SON_OU_VIDEO
```
## Utilisation du modèle avec d'autres logiciel
*L'utilisation du modèle brut dans d'autres logiciel est possible mais n'est pas conseillé, puisque qu'elle omettra le post-traitement proposé par le module `anaouder` : le replacement des tirets de liaison et la normalisation-inverse des nombres notamment.*
Le modèle brut est accessible sous le dossier `anaouder/models` ou par le lien [releases](https://github.com/gweltou/vosk-br/releases).
### Audapolis
Il est possible d'utiliser le modèle avec le logiciel [Audapolis](https://github.com/bugbakery/audapolis), qui offre également le confort d'une interface graphique.
### Kdenlive
Le logiciel de montage video [Kdenlive](https://kdenlive.org/) permet l'utilisation de modèles Vosk pour la retranscription automatique de sous-titres.\
Voir la [documentation](https://docs.kdenlive.org/en/effects_and_compositions/speech_to_text.html).
## Remerciements
Le développement de cet outil a été possible grâce aux logiciels libres sur lesquels il se base : Kaldi, Vosk et le correcteur automatique [Hunspell](https://github.com/Drouizig/hunspell-br) de An Drouizig.\
Le modèle de reconnaissance vocale n'aurait jamais pu être entraîne sans les voix et les textes de nombreux contributeurs, issus de : Mozilla Common Voice, Dizale, Brezhoweb, RKB, Kaouen.net, Ya!, Becedia, France3 et Dastum.\
Je remercie enfin Elen Cariou, Jean-Mari Ollivier, Karen Treguier, Mélanie Jouitteau et Pêr Morvan pour leur aide et leur soutien.
Raw data
{
"_id": null,
"home_page": "https://github.com/gweltou/vosk-br",
"name": "anaouder",
"maintainer": null,
"docs_url": null,
"requires_python": ">=3.6.0",
"maintainer_email": null,
"keywords": null,
"author": "Gweltaz Duval-Guennoc",
"author_email": "gweltou@hotmail.com",
"download_url": "https://files.pythonhosted.org/packages/28/e6/887bce2409a10186dfbbd6382e6f1b1f818e426240a271c05f344be8981e/anaouder-0.9.6.tar.gz",
"platform": null,
"description": "[](https://pypi.org/project/anaouder/)\n[](./LICENSE)\n\n# Anaouder\n\n[E brezhoneg](./README.md)\n\nReconnaissance vocale pour le breton avec Vosk.\n\nCe projet est d\u00e9velopp\u00e9 b\u00e9n\u00e9volement. Vous pouvez le soutenir par un don :\n[](https://liberapay.com/gweltou/donate)\n\nUne [version en ligne](https://translate.bzh/), d\u00e9velopp\u00e9e par Philippe Argouarch, est \u00e9galement disponible.\n\n## Pr\u00e9sentation\n\nMod\u00e8le de reconnaissance vocale (*speech-to-text*) entra\u00een\u00e9 avec le framework [Kaldi](https://www.kaldi-asr.org/), au format [Vosk](https://github.com/alphacep/vosk-api).\\\nIl est accompagn\u00e9 de scripts permettant la retranscription automatique de fichiers audio et video, l'alignement texte/son pour la cr\u00e9ation de sous-titres, ou encore l'inf\u00e9rence en temps r\u00e9el \u00e0 l'aide d'un microphone.\n\nPrincipaux avantages :\n\n* **L\u00e9ger**. Les mod\u00e8les Vosk p\u00e8sent moins de 100 Mo et peuvent tourner sur une large gamme d'appareils : ordinateurs **sans GPU**, RaspberryPi, smartphone Android...\n* **Rapide**. L'inf\u00e9rence se fait en **temps r\u00e9el**, m\u00eame sur une machine un peu dat\u00e9e.\n* **Local**. Fonctionne sans connexion internet. Vos donn\u00e9es restent donc sur votre appareil.\n* **Libre et gratuit**. La licence MIT vous permet de modifier le logiciel et de l'int\u00e9grer dans d'autres applications.\n\nLe nombre d'heures d'enregistrement audio utilis\u00e9 pour entra\u00eener le mod\u00e8le est relativement faible mais progresse peu \u00e0 peu.\nEn dehors du projet [Common Voice](https://commonvoice.mozilla.org/br) de Mozilla, les enregistrements retranscrits [libres de droit](https://creativecommons.org/licenses/) sont rares pour le breton. Toute aide sur ce terrain sera la bienvenue !\n\n## Installation\n\nLes scripts n\u00e9cessitent l'installation de [Python3](https://www.python.org/downloads/). L'installation du module de reconnaissance vocale se fera ensuite dans un terminal, en ex\u00e9cutant la commande suivante :\n\n```bash\npip3 install anaouder\n```\n\nUne fois install\u00e9, et \u00e0 mesure que de nouvelles versions du mod\u00e8le de reconnaissance vocale seront propos\u00e9es, vous pourrez mettre \u00e0 jour le logiciel avec :\n\n```bash\npip3 install --upgrade anaouder\n```\n\n\n## Retranscrire un fichier audio ou video\n\nUne fois le module install\u00e9, la commande `adskrivan` permet de retranscrire un fichier audio ou video depuis le terminal. A la premi\u00e8re ex\u00e9cution de la commande, il vous faudra patienter le temps de l'installation du module `static_ffmpeg` (programme de conversion pour les fichiers audio/video). Cette installation ne se fera qu'une seule fois.\n\n```bash\nadskrivan NOM_DU_FICHIER\n```\n\nLe r\u00e9sultat de la transcription s'affichera dans le terminal par d\u00e9faut. Vous pouvez toutefois pr\u00e9ciser le nom d'un fichier dans lequel \u00e9crire, avec l'option `-o`\n\n```bash\nadskrivan NOM_DU_FICHIER -o SORTIE.txt\n```\n\n## Utilisation avec un microphone\n\nDepuis un terminal, invoquez la commande `mikro`.\n\nSi aucun texte n'appara\u00eet, vous pouvez afficher la liste des interfaces audio avec la commande :\n\n```bash\nmikro -l\n```\n\nVous pourrez ensuite pr\u00e9ciser, en argument, le num\u00e9ro de l'interface \u00e0 utiliser pour l'inf\u00e9rence :\n\n```bash\nmikro -d NUMERO_INTERFACE\n```\n\n## Alignement d'un texte d'apr\u00e8s un audio\n\nIl est possible d'aligner un texte d'apr\u00e8s un fichier audio ou video \u00e0 l'aide de la commande `linennan`. Vous obtiendrez un fichier contenant le texte original, accompagn\u00e9 de marqueurs temporels, au format `srt` (fichier de sous-titres Subrip).\\\nLe fichier texte doit \u00eatre un texte brut (extension `.txt`) o\u00f9 chaque ligne correspondra \u00e0 une ligne de sous-titre.\n\n```bash\nlinennan FICHIER_SON_OU_VIDEO FICHIER_TEXTE -o sous-titres.srt\n```\n\n(export au format `eaf`, pour le logiciel ELAN, \u00e0 venir...)\n\n## Cr\u00e9ation automatique de sous-titres\n\nVous pouvez \u00e9galement laisser le mod\u00e8le de reconnaissance vocale retranscrire les paroles pour la cr\u00e9ation de sous-titres, au format `srt` (Subrip).\n\n```bash\nistitlan FICHIER_SON_OU_VIDEO\n```\n\n## Utilisation du mod\u00e8le avec d'autres logiciel \n\n*L'utilisation du mod\u00e8le brut dans d'autres logiciel est possible mais n'est pas conseill\u00e9, puisque qu'elle omettra le post-traitement propos\u00e9 par le module `anaouder` : le replacement des tirets de liaison et la normalisation-inverse des nombres notamment.*\n\nLe mod\u00e8le brut est accessible sous le dossier `anaouder/models` ou par le lien [releases](https://github.com/gweltou/vosk-br/releases).\n\n### Audapolis\n\nIl est possible d'utiliser le mod\u00e8le avec le logiciel [Audapolis](https://github.com/bugbakery/audapolis), qui offre \u00e9galement le confort d'une interface graphique.\n\n### Kdenlive\n\nLe logiciel de montage video [Kdenlive](https://kdenlive.org/) permet l'utilisation de mod\u00e8les Vosk pour la retranscription automatique de sous-titres.\\\nVoir la [documentation](https://docs.kdenlive.org/en/effects_and_compositions/speech_to_text.html).\n\n## Remerciements\n\nLe d\u00e9veloppement de cet outil a \u00e9t\u00e9 possible gr\u00e2ce aux logiciels libres sur lesquels il se base : Kaldi, Vosk et le correcteur automatique [Hunspell](https://github.com/Drouizig/hunspell-br) de An Drouizig.\\\nLe mod\u00e8le de reconnaissance vocale n'aurait jamais pu \u00eatre entra\u00eene sans les voix et les textes de nombreux contributeurs, issus de : Mozilla Common Voice, Dizale, Brezhoweb, RKB, Kaouen.net, Ya!, Becedia, France3 et Dastum.\\\nJe remercie enfin Elen Cariou, Jean-Mari Ollivier, Karen Treguier, M\u00e9lanie Jouitteau et P\u00ear Morvan pour leur aide et leur soutien.\n",
"bugtrack_url": null,
"license": "MIT",
"summary": "Breton language speech-to-text tools",
"version": "0.9.6",
"project_urls": {
"Homepage": "https://github.com/gweltou/vosk-br"
},
"split_keywords": [],
"urls": [
{
"comment_text": "",
"digests": {
"blake2b_256": "1ab1a7f6bab5cb96a65e7705fdb21b7243322d37c27eaa0f176d94cabb47a566",
"md5": "dc99d9bb7940a581fa21fd5faef1fe03",
"sha256": "3ee963bad282b8a8581105fa32c1daa311496e2653e9d91328eb499fd4ca2cda"
},
"downloads": -1,
"filename": "anaouder-0.9.6-py3-none-any.whl",
"has_sig": false,
"md5_digest": "dc99d9bb7940a581fa21fd5faef1fe03",
"packagetype": "bdist_wheel",
"python_version": "py3",
"requires_python": ">=3.6.0",
"size": 67035,
"upload_time": "2024-09-04T21:13:12",
"upload_time_iso_8601": "2024-09-04T21:13:12.125269Z",
"url": "https://files.pythonhosted.org/packages/1a/b1/a7f6bab5cb96a65e7705fdb21b7243322d37c27eaa0f176d94cabb47a566/anaouder-0.9.6-py3-none-any.whl",
"yanked": false,
"yanked_reason": null
},
{
"comment_text": "",
"digests": {
"blake2b_256": "28e6887bce2409a10186dfbbd6382e6f1b1f818e426240a271c05f344be8981e",
"md5": "7ec6de5e2e1f609269a7286670376617",
"sha256": "aeffe2fffd95de17fd6b717bbef9aa1effa4839d7bcda55d34175b068db399e5"
},
"downloads": -1,
"filename": "anaouder-0.9.6.tar.gz",
"has_sig": false,
"md5_digest": "7ec6de5e2e1f609269a7286670376617",
"packagetype": "sdist",
"python_version": "source",
"requires_python": ">=3.6.0",
"size": 61125,
"upload_time": "2024-09-04T21:13:14",
"upload_time_iso_8601": "2024-09-04T21:13:14.131886Z",
"url": "https://files.pythonhosted.org/packages/28/e6/887bce2409a10186dfbbd6382e6f1b1f818e426240a271c05f344be8981e/anaouder-0.9.6.tar.gz",
"yanked": false,
"yanked_reason": null
}
],
"upload_time": "2024-09-04 21:13:14",
"github": true,
"gitlab": false,
"bitbucket": false,
"codeberg": false,
"github_user": "gweltou",
"github_project": "vosk-br",
"travis_ci": false,
"coveralls": false,
"github_actions": false,
"lcname": "anaouder"
}