texto-transformer


Nametexto-transformer JSON
Version 0.0.12 PyPI version JSON
download
home_page
SummaryTexto Transformer: Framework para processamento de textos utilizando modelos de linguagem baseados baseados em Transformer
upload_time2023-10-12 21:37:42
maintainer
docs_urlNone
author
requires_python>=3.9.0
licenseMIT License Copyright (c) 2023 Osmar de Oliveira Braz Junior Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the "Software"), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions: The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software. THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.
keywords framework transformer embedding palavra sentença texto token
VCS
bugtrack_url
requirements No requirements were recorded.
Travis-CI No Travis.
coveralls test coverage No coveralls.
            <!--- BADGES: START --->
[![Github Actions Status for osmarbraz/texto-transformer](https://github.com/osmarbraz/texto-transformer/workflows/Integra%C3%A7%C3%A3o%20continua%20em%20Python/badge.svg)](https://github.com/osmarbraz/texto-transformer/actions) 
[![GitHub - License](https://img.shields.io/github/license/osmarbraz/texto-transformer?logo=github&style=flat&color=green)][#github-license]
[![PyPI - Python Version](https://img.shields.io/pypi/pyversions/texto-transformer?logo=pypi&style=flat&color=blue)][#pypi-package]
[![PyPI - Package Version](https://img.shields.io/pypi/v/texto-transformer?logo=pypi&style=flat&color=orange)][#pypi-package]

[#github-license]: https://github.com/osmarbraz/texto-transformer/blob/master/LICENSE
[#pypi-package]: https://pypi.org/project/texto-transformer/
<!--- BADGES: END --->

# Texto-Transformer: Framework para processamento de textos utilizando modelos de linguagem baseados em Transformer

Este framework realiza o processamento de textos utilizando modelos de linguagem baseados em transformer. Permite gerar embeddings de textos, sentenças, palavras e tokens utilizando modelos de linguagem baseados em Transformer. Utiliza modelos de linguagem como BERT/Albert/DistilBERT e etc. Os embeddings de textos, sentenças e palavras podem ser consolidados utilizando as estratégias de pooling média e máximo dos tokens.

## Instalação

Recomendamos **Python 3.6**, **[Transformers 4.26.1](https://huggingface.co/transformers)**, **[PyTorch 2.0.1](https://pytorch.org)**, **[spaCy 3.5.2](https://spacy.io)**, **[SciPy 1.10.1](https://scipy.org)**, **[NumPy 1.22.4](https://numpy.org)**, **[Sentence Piece 0.1.99](https://github.com/google/sentencepiece)** e **[Protocol Buffers 3.20.3](https://protobuf.dev/)**. 

**Instalação com pip**

Para instalar o pacote utilizando o **pip**, basta executar o comando abaixo:

<pre><code>$ pip install texto-transformer</code></pre>

**Instalação dos fontes**

Você também pode clonar a versão mais recente do [repositório](https://github.com/osmarbraz/texto-transformer.git) e instalá-la diretamente do código-fonte:

<pre><code>$ pip install -e .</code></pre>

O comando deve ser executado no diretório onde foi realizado o download do repositório.

## Exemplos 

### Uso simples

````python
# Importa a classe
from textotransformer import TextoTransformer

# Instância uma objeto e baixa o modelo de linguagem
modelo = TextoTransformer("neuralmind/bert-base-portuguese-cased")

# Alguns textos a serem codificados
textos = ["Bom Dia, professor.",
          "Qual o conteúdo da prova?",
          "Vai cair tudo na prova?",
          "Aguardo uma resposta, João."]

# Recupera os embeddings consolidados dos textos
embeddings_texto = modelo.getEmbeddingTexto(textos)      

# Mostra os textos e seus embeddings
for texto, embedding in zip(textos, embeddings_texto):
    print("Texto:", texto)
    print("Embedding:", embedding)

#Resultado
#Texto: Bom Dia, professor.
#Embedding: tensor([ 1.3736e-01,  6.1996e-02,  3.2554e-01, -3.1146e-02,  3.5892e-01,...
#Texto: Qual o conteúdo da prova?
#Embedding: tensor([ 8.3348e-02, -1.8269e-01,  5.9241e-01, -9.5235e-02,  5.0978e-01,...
#Texto: Vai cair tudo na prova?
#Embedding: tensor([ 1.3447e-01,  1.1854e-01,  6.0201e-02,  1.0271e-01,  2.6321e-01,...
#Texto: Aguardo uma resposta, João.
#Embedding: tensor([ 3.7160e-02, -7.3645e-02,  3.3942e-01,  8.0847e-02,  3.8259e-01,...
````

### Recuperando embeddings de diversas granularidades

````python
# Importa a classe
from textotransformer import TextoTransformer

# Instância uma objeto e baixa o modelo de linguagem
modelo = TextoTransformer("neuralmind/bert-base-portuguese-cased")

# Texto a ser codificado
texto = "Você gosta de sorvete de manga? Sim, adoro muito."

# Recupera os embeddings consolidados do texto
embeddings_texto = modelo.getEmbeddingTexto(texto)
print("Um texto de tamanho     :",len(embeddings_texto))

# Recupera os embeddings consolidados das sentenças do texto
embeddings_sentenca = modelo.getEmbeddingSentenca(texto)
print("Quantidade de sentenças  :",len(embeddings_sentenca))
print("Cada sentença de tamanho :",len(embeddings_sentenca[0]))

# Recupera os embeddings consolidados das palavras do texto
embeddings_palavra = modelo.getEmbeddingPalavra(texto)
print("Quantidade de palavras   :",len(embeddings_palavra))
print("Cada palavra de tamanho  :",len(embeddings_palavra[0]))

# Recupera os embeddings dos tokens do texto
embeddings_token = modelo.getEmbeddingToken(texto)
print("Quantidade de tokens     :",len(embeddings_token))
print("Cada token de tamanho    :",len(embeddings_token[0]))

#Resultado
#Um texto de tamanho      : 768
#Quantidade de sentenças  : 2
#Cada sentença de tamanho : 768
#Quantidade de palavras   : 12
#Cada palavra de tamanho  : 768
#Quantidade de tokens     : 15
#Cada token de tamanho    : 768
````

**Os exemplos podem ser executados através deste notebook no GoogleColab [ExemplosTextoTransformer.ipynb](https://github.com/osmarbraz/texto-transformer/blob/main/notebooks/ExemplosTextoTransformer.ipynb).**

## Classe principal

A classe principal **TextoTransformer** carrega e cria um objeto para manipular um modelo de linguagem baseado e transformer. Permite recuperar e manipular embeddings recuperados de tokens, palavras, sentenças e textos.
     
### Parâmetros inicialização

Aqui os parâmetros a serem especificados para instanciar a classe TextoTransformer.

- `pretrained_model_name_or_path` - Se for um caminho de arquivo no disco, carrega o modelo a partir desse caminho. Se não for um caminho, ele primeiro faz o download do repositório de modelos do Huggingface com esse nome. Valor default: `neuralmind/bert-base-portuguese-cased`.
- `modelo_spacy` - Nome do modelo spaCy a ser instalado e carregado pela ferramenta de pln spaCy. Valor default 'pt_core_news_lg'.
- `abordagem_extracao_embeddings_camadas` - Especifica a abordagem padrão para a extração dos embeddings das camadas do transformer. Valor default '2'. Valores possíveis: 0-Primeira/1-Penúltima/2-Ùltima/3-Soma 4 últimas/4-Concat 4 últimas/5-Todas.
- `device` - Dispositivo (como 'cuda' / 'cpu') que deve ser usado para o processamento. Se `None`, verifica se uma GPU pode ser usada. Se a GPU estiver disponível será usada no processamento. Valor default 'None'.
    
### Métodos principais

Aqui os métodos principais para recuperar embeddings de textos, sentenças, palavras e tokens. Os métodos para recuperar os embeddings de textos, sentenças e palavras consolidados podem utilizar as estratégias de pooling média (MEAN) e máximo (MAX) dos embeddings de seus tokens.

- `getEmbeddingTexto(texto: Union[str, List[str]], estrategia_pooling: int)`
    - Retorna uma lista dos embeddings consolidados dos textos.
    - Parâmetros:
        - `texto`: Um texto ou uma lista de textos para obter os embeddings.
        - `estrategia_pooling`: Especifica a estratégia de pooling dos tokens do texto. Valores possívels 0 - MEAN ou 1 - MAX. Valor default 0(MEAN).

- `getEmbeddingSentenca(texto: Union[str, List[str]], estrategia_pooling: int)` 
    - Retorna uma lista dos embeddings consolidados das sentenças dos textos.    
    - Parâmetros:
        - `texto`: Um texto ou uma lista de textos para obter os embeddings.
        - `estrategia_pooling`: Especifica a estratégia de pooling dos tokens do texto. Valores possívels 0 - MEAN ou 1 - MAX. Valor default 0(MEAN).

- `getEmbeddingPalavra(texto: Union[str, List[str]], estrategia_pooling: int)` 
    - Retorna uma lista dos embeddings consolidados das palavras dos textos.
    - Parâmetros:
        - `texto`: Um texto ou uma lista de textos para obter os embeddings.
        - `estrategia_pooling`: Especifica a estratégia de pooling dos tokens do texto. Valores possívels 0 - MEAN ou 1 - MAX. Valor default 0(MEAN).

- `getEmbeddingToken(texto: Union[str, List[str]])` 
    - Retorna uma lista dos embeddings dos tokens dos textos.
    - Parâmetros:
        - `texto`: Um texto ou uma lista de textos para obter os embeddings. 

### Mensuração

Permite realizar a mensuração entre embeddings de diversas granularidades utilizando funções de similaridade e distância. As funções de similaridade do cosseno, produto cartesiano, distância Euclidiana e distância de Manhattan estão no pacote `mensurador.medidas`.

## Modelos Pré-treinados

Testamos o framework com os modelos Albert, BERT, DistilBERT, GTPT2, OpenAIGPT, Roberta, XLMRoberta, XLMNet e T5.

A lista completa dos modelos de linguagem pré-treinados podem ser consultados no site da [Huggingface](https://huggingface.co/models).

A lista completa dos modelos da ferramenta de PLN spaCy podem ser consultados no [site](https://spacy.io/models).

## Dependências

- transformers==4.26.1
- spacy==3.5.2
- tqdm==4.65.0
- torch==2.0.1
- scipy==1.10.1
- numpy==1.22.4
- sentencepiece==0.1.99
- protobuf==3.20.3

## Licença

Esse projeto está sob a licença MIT. Veja o arquivo [LICENSE](LICENSE) para mais detalhes.
            

Raw data

            {
    "_id": null,
    "home_page": "",
    "name": "texto-transformer",
    "maintainer": "",
    "docs_url": null,
    "requires_python": ">=3.9.0",
    "maintainer_email": "",
    "keywords": "Framework,Transformer,embedding,palavra,senten\u00e7a,texto,token",
    "author": "",
    "author_email": "Osmar de Oliveira Braz Junior <osmar.braz@udesc.br>",
    "download_url": "https://files.pythonhosted.org/packages/22/e8/cfb1b7c6f3e8e178b629b9f1d1559d5ba244bd87c55e718bfb9afdace2fb/texto_transformer-0.0.12.tar.gz",
    "platform": null,
    "description": "<!--- BADGES: START --->\n[![Github Actions Status for osmarbraz/texto-transformer](https://github.com/osmarbraz/texto-transformer/workflows/Integra%C3%A7%C3%A3o%20continua%20em%20Python/badge.svg)](https://github.com/osmarbraz/texto-transformer/actions) \n[![GitHub - License](https://img.shields.io/github/license/osmarbraz/texto-transformer?logo=github&style=flat&color=green)][#github-license]\n[![PyPI - Python Version](https://img.shields.io/pypi/pyversions/texto-transformer?logo=pypi&style=flat&color=blue)][#pypi-package]\n[![PyPI - Package Version](https://img.shields.io/pypi/v/texto-transformer?logo=pypi&style=flat&color=orange)][#pypi-package]\n\n[#github-license]: https://github.com/osmarbraz/texto-transformer/blob/master/LICENSE\n[#pypi-package]: https://pypi.org/project/texto-transformer/\n<!--- BADGES: END --->\n\n# Texto-Transformer: Framework para processamento de textos utilizando modelos de linguagem baseados em Transformer\n\nEste framework realiza o processamento de textos utilizando modelos de linguagem baseados em transformer. Permite gerar embeddings de textos, senten\u00e7as, palavras e tokens utilizando modelos de linguagem baseados em Transformer. Utiliza modelos de linguagem como BERT/Albert/DistilBERT e etc. Os embeddings de textos, senten\u00e7as e palavras podem ser consolidados utilizando as estrat\u00e9gias de pooling m\u00e9dia e m\u00e1ximo dos tokens.\n\n## Instala\u00e7\u00e3o\n\nRecomendamos **Python 3.6**, **[Transformers 4.26.1](https://huggingface.co/transformers)**, **[PyTorch 2.0.1](https://pytorch.org)**, **[spaCy 3.5.2](https://spacy.io)**, **[SciPy 1.10.1](https://scipy.org)**, **[NumPy 1.22.4](https://numpy.org)**, **[Sentence Piece 0.1.99](https://github.com/google/sentencepiece)** e **[Protocol Buffers 3.20.3](https://protobuf.dev/)**. \n\n**Instala\u00e7\u00e3o com pip**\n\nPara instalar o pacote utilizando o **pip**, basta executar o comando abaixo:\n\n<pre><code>$ pip install texto-transformer</code></pre>\n\n**Instala\u00e7\u00e3o dos fontes**\n\nVoc\u00ea tamb\u00e9m pode clonar a vers\u00e3o mais recente do [reposit\u00f3rio](https://github.com/osmarbraz/texto-transformer.git) e instal\u00e1-la diretamente do c\u00f3digo-fonte:\n\n<pre><code>$ pip install -e .</code></pre>\n\nO comando deve ser executado no diret\u00f3rio onde foi realizado o download do reposit\u00f3rio.\n\n## Exemplos \n\n### Uso simples\n\n````python\n# Importa a classe\nfrom textotransformer import TextoTransformer\n\n# Inst\u00e2ncia uma objeto e baixa o modelo de linguagem\nmodelo = TextoTransformer(\"neuralmind/bert-base-portuguese-cased\")\n\n# Alguns textos a serem codificados\ntextos = [\"Bom Dia, professor.\",\n          \"Qual o conte\u00fado da prova?\",\n          \"Vai cair tudo na prova?\",\n          \"Aguardo uma resposta, Jo\u00e3o.\"]\n\n# Recupera os embeddings consolidados dos textos\nembeddings_texto = modelo.getEmbeddingTexto(textos)      \n\n# Mostra os textos e seus embeddings\nfor texto, embedding in zip(textos, embeddings_texto):\n    print(\"Texto:\", texto)\n    print(\"Embedding:\", embedding)\n\n#Resultado\n#Texto: Bom Dia, professor.\n#Embedding: tensor([ 1.3736e-01,  6.1996e-02,  3.2554e-01, -3.1146e-02,  3.5892e-01,...\n#Texto: Qual o conte\u00fado da prova?\n#Embedding: tensor([ 8.3348e-02, -1.8269e-01,  5.9241e-01, -9.5235e-02,  5.0978e-01,...\n#Texto: Vai cair tudo na prova?\n#Embedding: tensor([ 1.3447e-01,  1.1854e-01,  6.0201e-02,  1.0271e-01,  2.6321e-01,...\n#Texto: Aguardo uma resposta, Jo\u00e3o.\n#Embedding: tensor([ 3.7160e-02, -7.3645e-02,  3.3942e-01,  8.0847e-02,  3.8259e-01,...\n````\n\n### Recuperando embeddings de diversas granularidades\n\n````python\n# Importa a classe\nfrom textotransformer import TextoTransformer\n\n# Inst\u00e2ncia uma objeto e baixa o modelo de linguagem\nmodelo = TextoTransformer(\"neuralmind/bert-base-portuguese-cased\")\n\n# Texto a ser codificado\ntexto = \"Voc\u00ea gosta de sorvete de manga? Sim, adoro muito.\"\n\n# Recupera os embeddings consolidados do texto\nembeddings_texto = modelo.getEmbeddingTexto(texto)\nprint(\"Um texto de tamanho     :\",len(embeddings_texto))\n\n# Recupera os embeddings consolidados das senten\u00e7as do texto\nembeddings_sentenca = modelo.getEmbeddingSentenca(texto)\nprint(\"Quantidade de senten\u00e7as  :\",len(embeddings_sentenca))\nprint(\"Cada senten\u00e7a de tamanho :\",len(embeddings_sentenca[0]))\n\n# Recupera os embeddings consolidados das palavras do texto\nembeddings_palavra = modelo.getEmbeddingPalavra(texto)\nprint(\"Quantidade de palavras   :\",len(embeddings_palavra))\nprint(\"Cada palavra de tamanho  :\",len(embeddings_palavra[0]))\n\n# Recupera os embeddings dos tokens do texto\nembeddings_token = modelo.getEmbeddingToken(texto)\nprint(\"Quantidade de tokens     :\",len(embeddings_token))\nprint(\"Cada token de tamanho    :\",len(embeddings_token[0]))\n\n#Resultado\n#Um texto de tamanho      : 768\n#Quantidade de senten\u00e7as  : 2\n#Cada senten\u00e7a de tamanho : 768\n#Quantidade de palavras   : 12\n#Cada palavra de tamanho  : 768\n#Quantidade de tokens     : 15\n#Cada token de tamanho    : 768\n````\n\n**Os exemplos podem ser executados atrav\u00e9s deste notebook no GoogleColab [ExemplosTextoTransformer.ipynb](https://github.com/osmarbraz/texto-transformer/blob/main/notebooks/ExemplosTextoTransformer.ipynb).**\n\n## Classe principal\n\nA classe principal **TextoTransformer** carrega e cria um objeto para manipular um modelo de linguagem baseado e transformer. Permite recuperar e manipular embeddings recuperados de tokens, palavras, senten\u00e7as e textos.\n     \n### Par\u00e2metros inicializa\u00e7\u00e3o\n\nAqui os par\u00e2metros a serem especificados para instanciar a classe TextoTransformer.\n\n- `pretrained_model_name_or_path` - Se for um caminho de arquivo no disco, carrega o modelo a partir desse caminho. Se n\u00e3o for um caminho, ele primeiro faz o download do reposit\u00f3rio de modelos do Huggingface com esse nome. Valor default: `neuralmind/bert-base-portuguese-cased`.\n- `modelo_spacy` - Nome do modelo spaCy a ser instalado e carregado pela ferramenta de pln spaCy. Valor default 'pt_core_news_lg'.\n- `abordagem_extracao_embeddings_camadas` - Especifica a abordagem padr\u00e3o para a extra\u00e7\u00e3o dos embeddings das camadas do transformer. Valor default '2'. Valores poss\u00edveis: 0-Primeira/1-Pen\u00faltima/2-\u00d9ltima/3-Soma 4 \u00faltimas/4-Concat 4 \u00faltimas/5-Todas.\n- `device` - Dispositivo (como 'cuda' / 'cpu') que deve ser usado para o processamento. Se `None`, verifica se uma GPU pode ser usada. Se a GPU estiver dispon\u00edvel ser\u00e1 usada no processamento. Valor default 'None'.\n    \n### M\u00e9todos principais\n\nAqui os m\u00e9todos principais para recuperar embeddings de textos, senten\u00e7as, palavras e tokens. Os m\u00e9todos para recuperar os embeddings de textos, senten\u00e7as e palavras consolidados podem utilizar as estrat\u00e9gias de pooling m\u00e9dia (MEAN) e m\u00e1ximo (MAX) dos embeddings de seus tokens.\n\n- `getEmbeddingTexto(texto: Union[str, List[str]], estrategia_pooling: int)`\n    - Retorna uma lista dos embeddings consolidados dos textos.\n    - Par\u00e2metros:\n        - `texto`: Um texto ou uma lista de textos para obter os embeddings.\n        - `estrategia_pooling`: Especifica a estrat\u00e9gia de pooling dos tokens do texto. Valores poss\u00edvels 0 - MEAN ou 1 - MAX. Valor default 0(MEAN).\n\n- `getEmbeddingSentenca(texto: Union[str, List[str]], estrategia_pooling: int)` \n    - Retorna uma lista dos embeddings consolidados das senten\u00e7as dos textos.    \n    - Par\u00e2metros:\n        - `texto`: Um texto ou uma lista de textos para obter os embeddings.\n        - `estrategia_pooling`: Especifica a estrat\u00e9gia de pooling dos tokens do texto. Valores poss\u00edvels 0 - MEAN ou 1 - MAX. Valor default 0(MEAN).\n\n- `getEmbeddingPalavra(texto: Union[str, List[str]], estrategia_pooling: int)` \n    - Retorna uma lista dos embeddings consolidados das palavras dos textos.\n    - Par\u00e2metros:\n        - `texto`: Um texto ou uma lista de textos para obter os embeddings.\n        - `estrategia_pooling`: Especifica a estrat\u00e9gia de pooling dos tokens do texto. Valores poss\u00edvels 0 - MEAN ou 1 - MAX. Valor default 0(MEAN).\n\n- `getEmbeddingToken(texto: Union[str, List[str]])` \n    - Retorna uma lista dos embeddings dos tokens dos textos.\n    - Par\u00e2metros:\n        - `texto`: Um texto ou uma lista de textos para obter os embeddings. \n\n### Mensura\u00e7\u00e3o\n\nPermite realizar a mensura\u00e7\u00e3o entre embeddings de diversas granularidades utilizando fun\u00e7\u00f5es de similaridade e dist\u00e2ncia. As fun\u00e7\u00f5es de similaridade do cosseno, produto cartesiano, dist\u00e2ncia Euclidiana e dist\u00e2ncia de Manhattan est\u00e3o no pacote `mensurador.medidas`.\n\n## Modelos Pr\u00e9-treinados\n\nTestamos o framework com os modelos Albert, BERT, DistilBERT, GTPT2, OpenAIGPT, Roberta, XLMRoberta, XLMNet e T5.\n\nA lista completa dos modelos de linguagem pr\u00e9-treinados podem ser consultados no site da [Huggingface](https://huggingface.co/models).\n\nA lista completa dos modelos da ferramenta de PLN spaCy podem ser consultados no [site](https://spacy.io/models).\n\n## Depend\u00eancias\n\n- transformers==4.26.1\n- spacy==3.5.2\n- tqdm==4.65.0\n- torch==2.0.1\n- scipy==1.10.1\n- numpy==1.22.4\n- sentencepiece==0.1.99\n- protobuf==3.20.3\n\n## Licen\u00e7a\n\nEsse projeto est\u00e1 sob a licen\u00e7a MIT. Veja o arquivo [LICENSE](LICENSE) para mais detalhes.",
    "bugtrack_url": null,
    "license": "MIT License  Copyright (c) 2023 Osmar de Oliveira Braz Junior  Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the \"Software\"), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions:  The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software.  THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.",
    "summary": "Texto Transformer: Framework para processamento de textos utilizando modelos de linguagem baseados baseados em Transformer",
    "version": "0.0.12",
    "project_urls": {
        "repository": "https://github.com/osmarbraz/texto-transformer/"
    },
    "split_keywords": [
        "framework",
        "transformer",
        "embedding",
        "palavra",
        "senten\u00e7a",
        "texto",
        "token"
    ],
    "urls": [
        {
            "comment_text": "",
            "digests": {
                "blake2b_256": "d34f3750d50c47db6ad136ee6dde6f9ff95d5c04a314f8a29a6199879f33635b",
                "md5": "2b1ecff7b8253a51de3b9970016fc2e7",
                "sha256": "b45c4e517d30fd82fce6ff56cdf7f8279e7bd5a2f0955b2ee1fc268674f3fa68"
            },
            "downloads": -1,
            "filename": "texto_transformer-0.0.12-py3-none-any.whl",
            "has_sig": false,
            "md5_digest": "2b1ecff7b8253a51de3b9970016fc2e7",
            "packagetype": "bdist_wheel",
            "python_version": "py3",
            "requires_python": ">=3.9.0",
            "size": 83490,
            "upload_time": "2023-10-12T21:37:40",
            "upload_time_iso_8601": "2023-10-12T21:37:40.940637Z",
            "url": "https://files.pythonhosted.org/packages/d3/4f/3750d50c47db6ad136ee6dde6f9ff95d5c04a314f8a29a6199879f33635b/texto_transformer-0.0.12-py3-none-any.whl",
            "yanked": false,
            "yanked_reason": null
        },
        {
            "comment_text": "",
            "digests": {
                "blake2b_256": "22e8cfb1b7c6f3e8e178b629b9f1d1559d5ba244bd87c55e718bfb9afdace2fb",
                "md5": "ca673ac9e5f92e3849c8490379041fa1",
                "sha256": "f1512f349e503893075776e3016b39766b37c3de04ebc4ed3d97b43fef57155e"
            },
            "downloads": -1,
            "filename": "texto_transformer-0.0.12.tar.gz",
            "has_sig": false,
            "md5_digest": "ca673ac9e5f92e3849c8490379041fa1",
            "packagetype": "sdist",
            "python_version": "source",
            "requires_python": ">=3.9.0",
            "size": 629043,
            "upload_time": "2023-10-12T21:37:42",
            "upload_time_iso_8601": "2023-10-12T21:37:42.402695Z",
            "url": "https://files.pythonhosted.org/packages/22/e8/cfb1b7c6f3e8e178b629b9f1d1559d5ba244bd87c55e718bfb9afdace2fb/texto_transformer-0.0.12.tar.gz",
            "yanked": false,
            "yanked_reason": null
        }
    ],
    "upload_time": "2023-10-12 21:37:42",
    "github": true,
    "gitlab": false,
    "bitbucket": false,
    "codeberg": false,
    "github_user": "osmarbraz",
    "github_project": "texto-transformer",
    "travis_ci": false,
    "coveralls": false,
    "github_actions": true,
    "requirements": [],
    "lcname": "texto-transformer"
}
        
Elapsed time: 0.12123s