Name | pdfcor JSON |
Version |
0.2.0
JSON |
| download |
home_page | None |
Summary | None |
upload_time | 2024-10-13 06:15:40 |
maintainer | None |
docs_url | None |
author | infocornouaille |
requires_python | <4.0,>=3.9 |
license | None |
keywords |
|
VCS |
|
bugtrack_url |
|
requirements |
No requirements were recorded.
|
Travis-CI |
No Travis.
|
coveralls test coverage |
No coveralls.
|
# pdfcor
![PyPI version](https://img.shields.io/pypi/v/pdfcor.svg)
![Python versions](https://img.shields.io/pypi/pyversions/pdfcor.svg)
pdfcor est un package Python polyvalent pour travailler avec des fichiers PDF. Il permet d'extraire le contenu en format Markdown avec les images, de fusionner des PDF et d'extraire des pages individuelles.
## Installation
```
pip install pdfcor
```
## Dépendances
pdfcor dépend des bibliothèques suivantes :
- PyMuPDF (fitz) : pour l'extraction du contenu des PDF et la manipulation des fichiers PDF
- Pillow (PIL) : pour le traitement des images
Ces dépendances seront automatiquement installées lors de l'installation de pdfcor via pip.
## Utilisation
pdfcor peut être utilisé en ligne de commande avec diverses options :
### Extraction de contenu en Markdown
```
pdfcor --input-folder <dossier_entree> --output-folder <dossier_sortie> [--recursive] [--resize]
```
#### Options
- `--input-folder` : Spécifie le dossier d'entrée contenant les fichiers PDF à traiter. Par défaut, il utilise le dossier courant.
- `--output-folder` : Définit le dossier de sortie pour les fichiers Markdown et les images extraites. Si non spécifié, il utilise le même dossier que l'entrée.
- `--recursive` : Active le traitement récursif des sous-dossiers.
- `--resize` : Redimensionne les images extraites pour qu'elles tiennent sur une page A4.
### Fusion de PDF
```
pdfcor --fusion [--input-folder <dossier_entree>] [--output <nom_fichier_sortie>]
```
Cette commande fusionne tous les PDF d'un dossier sans aucune transformation.
#### Options
- `--input-folder` : Spécifie le dossier contenant les PDF à fusionner. Par défaut, utilise le dossier courant.
- `--output` : Spécifie le nom du fichier PDF fusionné. Par défaut, utilise le nom du dossier d'entrée.
### Extraction de pages
```
pdfcor --pages <fichier_pdf>
```
Cette commande extrait toutes les pages d'un PDF dans des fichiers séparés.
#### Options
- `<fichier_pdf>` : Le fichier PDF dont vous voulez extraire les pages.
## Exemples
1. Extraire le contenu de tous les PDF dans le dossier courant :
```
pdfcor
```
2. Fusionner tous les PDF d'un dossier :
```
pdfcor --fusion --input-folder /chemin/vers/pdfs
```
3. Extraire les pages d'un PDF spécifique :
```
pdfcor --pages example.pdf
```
## Utilisation comme module Python
Vous pouvez également utiliser pdfcor comme module dans vos scripts Python :
```python
from pdfcor import process_pdf, process_folder, merge_pdfs, extract_pages
# Traiter un seul fichier PDF
process_pdf("/chemin/vers/fichier.pdf", "/chemin/vers/sortie", resize=False)
# Traiter un dossier entier
process_folder("/chemin/vers/dossier", "/chemin/vers/sortie", recursive=True, resize=True)
# Fusionner des PDF
merge_pdfs("/chemin/vers/dossier", "fichier_fusionne.pdf")
# Extraire les pages d'un PDF
extract_pages("/chemin/vers/fichier.pdf")
```
## Fonctionnalités
- Extraction du contenu textuel des PDF en format Markdown
- Extraction et sauvegarde des images contenues dans les PDF
- Option de traitement récursif des sous-dossiers
- Redimensionnement optionnel des images pour une mise en page A4
- Fusion de plusieurs fichiers PDF en un seul document
- Extraction de pages individuelles d'un PDF
- Utilisable en ligne de commande ou comme module Python
## Fonctionnement
pdfcor offre plusieurs fonctionnalités principales :
1. Extraction de contenu en Markdown :
- Ouverture du fichier PDF avec PyMuPDF (fitz)
- Extraction du texte et des images page par page
- Conversion du texte extrait en format Markdown
- Sauvegarde des images extraites et insertion des références dans le Markdown
2. Fusion de PDF :
- Lecture de tous les fichiers PDF dans le dossier spécifié
- Combinaison de tous les PDF en un seul document
- Sauvegarde du document fusionné avec le nom du dossier par défaut
3. Extraction de pages :
- Ouverture du fichier PDF spécifié
- Création d'un nouveau PDF pour chaque page
- Sauvegarde des pages individuelles dans un dossier dédié
## Contribution
Les contributions sont les bienvenues ! N'hésitez pas à ouvrir une issue ou à soumettre une pull request sur notre dépôt GitHub.
## Licence
Ce projet est sous licence MIT. Voir le fichier `LICENSE` pour plus de détails.
Raw data
{
"_id": null,
"home_page": null,
"name": "pdfcor",
"maintainer": null,
"docs_url": null,
"requires_python": "<4.0,>=3.9",
"maintainer_email": null,
"keywords": null,
"author": "infocornouaille",
"author_email": "90894019+infocornouaille@users.noreply.github.com",
"download_url": "https://files.pythonhosted.org/packages/50/80/fd57c59cc51e57952f89d6dfc8d4f85bdcd4865467e58a1da56390b27c33/pdfcor-0.2.0.tar.gz",
"platform": null,
"description": "# pdfcor\n\n![PyPI version](https://img.shields.io/pypi/v/pdfcor.svg)\n![Python versions](https://img.shields.io/pypi/pyversions/pdfcor.svg)\n\npdfcor est un package Python polyvalent pour travailler avec des fichiers PDF. Il permet d'extraire le contenu en format Markdown avec les images, de fusionner des PDF et d'extraire des pages individuelles.\n\n## Installation\n\n```\npip install pdfcor\n```\n\n## D\u00e9pendances\n\npdfcor d\u00e9pend des biblioth\u00e8ques suivantes :\n\n- PyMuPDF (fitz) : pour l'extraction du contenu des PDF et la manipulation des fichiers PDF\n- Pillow (PIL) : pour le traitement des images\n\nCes d\u00e9pendances seront automatiquement install\u00e9es lors de l'installation de pdfcor via pip.\n\n## Utilisation\n\npdfcor peut \u00eatre utilis\u00e9 en ligne de commande avec diverses options :\n\n### Extraction de contenu en Markdown\n\n```\npdfcor --input-folder <dossier_entree> --output-folder <dossier_sortie> [--recursive] [--resize]\n```\n\n#### Options\n\n- `--input-folder` : Sp\u00e9cifie le dossier d'entr\u00e9e contenant les fichiers PDF \u00e0 traiter. Par d\u00e9faut, il utilise le dossier courant.\n- `--output-folder` : D\u00e9finit le dossier de sortie pour les fichiers Markdown et les images extraites. Si non sp\u00e9cifi\u00e9, il utilise le m\u00eame dossier que l'entr\u00e9e.\n- `--recursive` : Active le traitement r\u00e9cursif des sous-dossiers.\n- `--resize` : Redimensionne les images extraites pour qu'elles tiennent sur une page A4.\n\n### Fusion de PDF\n\n```\npdfcor --fusion [--input-folder <dossier_entree>] [--output <nom_fichier_sortie>]\n```\n\nCette commande fusionne tous les PDF d'un dossier sans aucune transformation.\n\n#### Options\n\n- `--input-folder` : Sp\u00e9cifie le dossier contenant les PDF \u00e0 fusionner. Par d\u00e9faut, utilise le dossier courant.\n- `--output` : Sp\u00e9cifie le nom du fichier PDF fusionn\u00e9. Par d\u00e9faut, utilise le nom du dossier d'entr\u00e9e.\n\n### Extraction de pages\n\n```\npdfcor --pages <fichier_pdf>\n```\n\nCette commande extrait toutes les pages d'un PDF dans des fichiers s\u00e9par\u00e9s.\n\n#### Options\n\n- `<fichier_pdf>` : Le fichier PDF dont vous voulez extraire les pages.\n\n## Exemples\n\n1. Extraire le contenu de tous les PDF dans le dossier courant :\n ```\n pdfcor\n ```\n\n2. Fusionner tous les PDF d'un dossier :\n ```\n pdfcor --fusion --input-folder /chemin/vers/pdfs\n ```\n\n3. Extraire les pages d'un PDF sp\u00e9cifique :\n ```\n pdfcor --pages example.pdf\n ```\n\n## Utilisation comme module Python\n\nVous pouvez \u00e9galement utiliser pdfcor comme module dans vos scripts Python :\n\n```python\nfrom pdfcor import process_pdf, process_folder, merge_pdfs, extract_pages\n\n# Traiter un seul fichier PDF\nprocess_pdf(\"/chemin/vers/fichier.pdf\", \"/chemin/vers/sortie\", resize=False)\n\n# Traiter un dossier entier\nprocess_folder(\"/chemin/vers/dossier\", \"/chemin/vers/sortie\", recursive=True, resize=True)\n\n# Fusionner des PDF\nmerge_pdfs(\"/chemin/vers/dossier\", \"fichier_fusionne.pdf\")\n\n# Extraire les pages d'un PDF\nextract_pages(\"/chemin/vers/fichier.pdf\")\n```\n\n## Fonctionnalit\u00e9s\n\n- Extraction du contenu textuel des PDF en format Markdown\n- Extraction et sauvegarde des images contenues dans les PDF\n- Option de traitement r\u00e9cursif des sous-dossiers\n- Redimensionnement optionnel des images pour une mise en page A4\n- Fusion de plusieurs fichiers PDF en un seul document\n- Extraction de pages individuelles d'un PDF\n- Utilisable en ligne de commande ou comme module Python\n\n## Fonctionnement\n\npdfcor offre plusieurs fonctionnalit\u00e9s principales :\n\n1. Extraction de contenu en Markdown :\n - Ouverture du fichier PDF avec PyMuPDF (fitz)\n - Extraction du texte et des images page par page\n - Conversion du texte extrait en format Markdown\n - Sauvegarde des images extraites et insertion des r\u00e9f\u00e9rences dans le Markdown\n\n2. Fusion de PDF :\n - Lecture de tous les fichiers PDF dans le dossier sp\u00e9cifi\u00e9\n - Combinaison de tous les PDF en un seul document\n - Sauvegarde du document fusionn\u00e9 avec le nom du dossier par d\u00e9faut\n\n3. Extraction de pages :\n - Ouverture du fichier PDF sp\u00e9cifi\u00e9\n - Cr\u00e9ation d'un nouveau PDF pour chaque page\n - Sauvegarde des pages individuelles dans un dossier d\u00e9di\u00e9\n\n## Contribution\n\nLes contributions sont les bienvenues ! N'h\u00e9sitez pas \u00e0 ouvrir une issue ou \u00e0 soumettre une pull request sur notre d\u00e9p\u00f4t GitHub.\n\n## Licence\n\nCe projet est sous licence MIT. Voir le fichier `LICENSE` pour plus de d\u00e9tails.",
"bugtrack_url": null,
"license": null,
"summary": null,
"version": "0.2.0",
"project_urls": null,
"split_keywords": [],
"urls": [
{
"comment_text": "",
"digests": {
"blake2b_256": "51ac98e05d60787b0d14f7650412ce57259ab06df3f312716cd3138462571a3e",
"md5": "a83b2bcf91ebec7a1e7305cb10acb573",
"sha256": "838299d054c8630ca724c42b57af1f28cd3830928e6cbf055121a17381895059"
},
"downloads": -1,
"filename": "pdfcor-0.2.0-py3-none-any.whl",
"has_sig": false,
"md5_digest": "a83b2bcf91ebec7a1e7305cb10acb573",
"packagetype": "bdist_wheel",
"python_version": "py3",
"requires_python": "<4.0,>=3.9",
"size": 6433,
"upload_time": "2024-10-13T06:15:38",
"upload_time_iso_8601": "2024-10-13T06:15:38.773453Z",
"url": "https://files.pythonhosted.org/packages/51/ac/98e05d60787b0d14f7650412ce57259ab06df3f312716cd3138462571a3e/pdfcor-0.2.0-py3-none-any.whl",
"yanked": false,
"yanked_reason": null
},
{
"comment_text": "",
"digests": {
"blake2b_256": "5080fd57c59cc51e57952f89d6dfc8d4f85bdcd4865467e58a1da56390b27c33",
"md5": "e61df9ae8dcb6d323364cf35c8bc5cfc",
"sha256": "73fd11e3681e8b28bfe2b71b129c730c854e4052b13a1d9516f2fe20bd951dcc"
},
"downloads": -1,
"filename": "pdfcor-0.2.0.tar.gz",
"has_sig": false,
"md5_digest": "e61df9ae8dcb6d323364cf35c8bc5cfc",
"packagetype": "sdist",
"python_version": "source",
"requires_python": "<4.0,>=3.9",
"size": 5162,
"upload_time": "2024-10-13T06:15:40",
"upload_time_iso_8601": "2024-10-13T06:15:40.409004Z",
"url": "https://files.pythonhosted.org/packages/50/80/fd57c59cc51e57952f89d6dfc8d4f85bdcd4865467e58a1da56390b27c33/pdfcor-0.2.0.tar.gz",
"yanked": false,
"yanked_reason": null
}
],
"upload_time": "2024-10-13 06:15:40",
"github": false,
"gitlab": false,
"bitbucket": false,
"codeberg": false,
"lcname": "pdfcor"
}