# 概要
文字列をひらがな、片仮名、漢字、数字、アルファベットごとに分割するツールです。
英日両文に適用可能ですが、ピリオドを含む一部の用語は適切に分割できない場合があります。
詳しくは、実行サンプルをご確認ください。
# セットアップ
```
pip install divide-char-type
```
# アンインストール
```
pip uninstall divide-char-type
```
# 使い方
```
from divide_char_type import divide_char_type
data = divide_char_type("今日の天気は晴れです。")
print(data[0])
```
# 戻り値
- 配列型
- 第0要素:字種分割した全体のリスト
- 第1要素:字種分割した全体の字種タイプリスト
- 第2要素:字種分割したひらがなのリスト
- 第3要素:字種分割したカタカナのリスト
- 第4要素:字種分割した漢字のリスト
- 第5要素:字種分割したアルファベットのリスト
- 第6要素:字種分割した数字のリスト
- 第7要素:字種分割したその他記号などのリスト
# 字種タイプリスト
- 0:平仮名
- 1:カタカナ
- 2:漢字
- 3:アルファベット
- 4:数字
- 5:その他記号など
# 実行サンプル
```
['1.0', ' ', 'is', ' ', 'number', '.']
['1', ',', '000', ' ', 'is', ' ', 'number', '.']
['u.s.a.', ' ', 'is', ' ', 'state', '.']
['u.k', '.', ' ', 'is', ' ', 'state', '.']
['e.g.', ',', ' ', 'th', ',', ' ', 'ch', ',', ' ', 'sh', ',', ' ', 'ph', ',', ' ', 'gh', ',', ' ', 'ng', ',', ' ', 'qu']
['state', ' ', 'include', ' ', 'u.s.', ' ', 'u.s.', ' ', 'is', ' ', 'state', '.']
['state', ' ', 'include', ' ', 'u.k', '.', ' ', 'u.k', '.', ' ', 'is', ' ', 'state', '.']
['u.s.', 'は', '国', 'です', '。']
['u.s', '.', 'は', '国', 'です', '。']
['あいうえおーかきくけこ']
['アイウエオーカキクケコ']
['今日', 'の', '天気', 'は', '晴', 'れです', '。\n', '明日', 'の', '天気', 'は', '曇', 'りです', '。\n']
['&&&', '1.0', '&&&']
```
# 実行速度

# 論文
赤木信也:字種分割ツールの開発と公開,
情報処理学会第85回全国大会講演論文集 2023 (1), 29-30, 2023-02-16
https://cir.nii.ac.jp/crid/1050579753470466176
# ライセンス
- divide_char_type
- Python Software Foundation License
- Copyright (C) 2023-2024 Shinya Akagi
Raw data
{
"_id": null,
"home_page": "https://github.com/ShinyaAkagiI/divide_character_type",
"name": "divide-char-type",
"maintainer": null,
"docs_url": null,
"requires_python": null,
"maintainer_email": null,
"keywords": null,
"author": "Shinya Akagi",
"author_email": null,
"download_url": "https://files.pythonhosted.org/packages/40/e6/4b3f771c30995cb1dbccddcfe0cf36fa8c8b49185d464a091b9140601674/divide-char-type-0.2.8.tar.gz",
"platform": null,
"description": "# \u6982\u8981\n\n\u6587\u5b57\u5217\u3092\u3072\u3089\u304c\u306a\u3001\u7247\u4eee\u540d\u3001\u6f22\u5b57\u3001\u6570\u5b57\u3001\u30a2\u30eb\u30d5\u30a1\u30d9\u30c3\u30c8\u3054\u3068\u306b\u5206\u5272\u3059\u308b\u30c4\u30fc\u30eb\u3067\u3059\u3002\n\u82f1\u65e5\u4e21\u6587\u306b\u9069\u7528\u53ef\u80fd\u3067\u3059\u304c\u3001\u30d4\u30ea\u30aa\u30c9\u3092\u542b\u3080\u4e00\u90e8\u306e\u7528\u8a9e\u306f\u9069\u5207\u306b\u5206\u5272\u3067\u304d\u306a\u3044\u5834\u5408\u304c\u3042\u308a\u307e\u3059\u3002\n\u8a73\u3057\u304f\u306f\u3001\u5b9f\u884c\u30b5\u30f3\u30d7\u30eb\u3092\u3054\u78ba\u8a8d\u304f\u3060\u3055\u3044\u3002\n\n\n# \u30bb\u30c3\u30c8\u30a2\u30c3\u30d7\n\n```\npip install divide-char-type\n```\n\n\n# \u30a2\u30f3\u30a4\u30f3\u30b9\u30c8\u30fc\u30eb\n\n```\npip uninstall divide-char-type\n```\n\n# \u4f7f\u3044\u65b9\n\n```\nfrom divide_char_type import divide_char_type\n\ndata = divide_char_type(\"\u4eca\u65e5\u306e\u5929\u6c17\u306f\u6674\u308c\u3067\u3059\u3002\")\n\nprint(data[0])\n```\n\n\n# \u623b\u308a\u5024\n\n- \u914d\u5217\u578b\n\t- \u7b2c0\u8981\u7d20\uff1a\u5b57\u7a2e\u5206\u5272\u3057\u305f\u5168\u4f53\u306e\u30ea\u30b9\u30c8\n\t- \u7b2c1\u8981\u7d20\uff1a\u5b57\u7a2e\u5206\u5272\u3057\u305f\u5168\u4f53\u306e\u5b57\u7a2e\u30bf\u30a4\u30d7\u30ea\u30b9\u30c8\n\t- \u7b2c2\u8981\u7d20\uff1a\u5b57\u7a2e\u5206\u5272\u3057\u305f\u3072\u3089\u304c\u306a\u306e\u30ea\u30b9\u30c8\n\t- \u7b2c3\u8981\u7d20\uff1a\u5b57\u7a2e\u5206\u5272\u3057\u305f\u30ab\u30bf\u30ab\u30ca\u306e\u30ea\u30b9\u30c8\n\t- \u7b2c4\u8981\u7d20\uff1a\u5b57\u7a2e\u5206\u5272\u3057\u305f\u6f22\u5b57\u306e\u30ea\u30b9\u30c8\n\t- \u7b2c5\u8981\u7d20\uff1a\u5b57\u7a2e\u5206\u5272\u3057\u305f\u30a2\u30eb\u30d5\u30a1\u30d9\u30c3\u30c8\u306e\u30ea\u30b9\u30c8\n\t- \u7b2c6\u8981\u7d20\uff1a\u5b57\u7a2e\u5206\u5272\u3057\u305f\u6570\u5b57\u306e\u30ea\u30b9\u30c8\n\t- \u7b2c7\u8981\u7d20\uff1a\u5b57\u7a2e\u5206\u5272\u3057\u305f\u305d\u306e\u4ed6\u8a18\u53f7\u306a\u3069\u306e\u30ea\u30b9\u30c8\n\n# \u5b57\u7a2e\u30bf\u30a4\u30d7\u30ea\u30b9\u30c8 \n\n- \uff10\uff1a\u5e73\u4eee\u540d\n- \uff11\uff1a\u30ab\u30bf\u30ab\u30ca\n- \uff12\uff1a\u6f22\u5b57\n- \uff13\uff1a\u30a2\u30eb\u30d5\u30a1\u30d9\u30c3\u30c8\n- \uff14\uff1a\u6570\u5b57\n- \uff15\uff1a\u305d\u306e\u4ed6\u8a18\u53f7\u306a\u3069\n\n\n# \u5b9f\u884c\u30b5\u30f3\u30d7\u30eb\n\n```\n['1.0', ' ', 'is', ' ', 'number', '.']\n['1', ',', '000', ' ', 'is', ' ', 'number', '.']\n['u.s.a.', ' ', 'is', ' ', 'state', '.']\n['u.k', '.', ' ', 'is', ' ', 'state', '.']\n['e.g.', ',', ' ', 'th', ',', ' ', 'ch', ',', ' ', 'sh', ',', ' ', 'ph', ',', ' ', 'gh', ',', ' ', 'ng', ',', ' ', 'qu']\n['state', ' ', 'include', ' ', 'u.s.', ' ', 'u.s.', ' ', 'is', ' ', 'state', '.']\n['state', ' ', 'include', ' ', 'u.k', '.', ' ', 'u.k', '.', ' ', 'is', ' ', 'state', '.']\n['u.s.', '\u306f', '\u56fd', '\u3067\u3059', '\u3002']\n['u.s', '.', '\u306f', '\u56fd', '\u3067\u3059', '\u3002']\n['\u3042\u3044\u3046\u3048\u304a\u30fc\u304b\u304d\u304f\u3051\u3053']\n['\u30a2\u30a4\u30a6\u30a8\u30aa\u30fc\u30ab\u30ad\u30af\u30b1\u30b3']\n['\u4eca\u65e5', '\u306e', '\u5929\u6c17', '\u306f', '\u6674', '\u308c\u3067\u3059', '\u3002\\n', '\u660e\u65e5', '\u306e', '\u5929\u6c17', '\u306f', '\u66c7', '\u308a\u3067\u3059', '\u3002\\n']\n['&&&', '1.0', '&&&']\n```\n\n# \u5b9f\u884c\u901f\u5ea6\n\n\n\n\n# \u8ad6\u6587\n\n\u8d64\u6728\u4fe1\u4e5f\uff1a\u5b57\u7a2e\u5206\u5272\u30c4\u30fc\u30eb\u306e\u958b\u767a\u3068\u516c\u958b, \n\u60c5\u5831\u51e6\u7406\u5b66\u4f1a\u7b2c85\u56de\u5168\u56fd\u5927\u4f1a\u8b1b\u6f14\u8ad6\u6587\u96c6 2023 (1), 29-30, 2023-02-16 \nhttps://cir.nii.ac.jp/crid/1050579753470466176 \n\n# \u30e9\u30a4\u30bb\u30f3\u30b9\n\n- divide_char_type\n\t- Python Software Foundation License \n\t- Copyright (C) 2023-2024 Shinya Akagi\n\n\n\n",
"bugtrack_url": null,
"license": "PSF",
"summary": "Divide documents by character type",
"version": "0.2.8",
"project_urls": {
"Homepage": "https://github.com/ShinyaAkagiI/divide_character_type"
},
"split_keywords": [],
"urls": [
{
"comment_text": "",
"digests": {
"blake2b_256": "402d929bae824bc2f2dde083cf5e31200bfc3a2f5065a150ce874c815b431aa8",
"md5": "424a6647762004215d5db131a6aa0703",
"sha256": "054622897d2b4afb6c7f263f97b895609ebcba4be53ff3f9b69039f00d3cdf34"
},
"downloads": -1,
"filename": "divide_char_type-0.2.8-py2-none-any.whl",
"has_sig": false,
"md5_digest": "424a6647762004215d5db131a6aa0703",
"packagetype": "bdist_wheel",
"python_version": "py2",
"requires_python": null,
"size": 4730,
"upload_time": "2024-08-19T05:51:03",
"upload_time_iso_8601": "2024-08-19T05:51:03.571939Z",
"url": "https://files.pythonhosted.org/packages/40/2d/929bae824bc2f2dde083cf5e31200bfc3a2f5065a150ce874c815b431aa8/divide_char_type-0.2.8-py2-none-any.whl",
"yanked": false,
"yanked_reason": null
},
{
"comment_text": "",
"digests": {
"blake2b_256": "40e64b3f771c30995cb1dbccddcfe0cf36fa8c8b49185d464a091b9140601674",
"md5": "15204e6ff65ed35db056bd4eb6255031",
"sha256": "9afa1588a32cef63760fe76bcc3a82916c819c7968af630100f04f65bce60cd7"
},
"downloads": -1,
"filename": "divide-char-type-0.2.8.tar.gz",
"has_sig": false,
"md5_digest": "15204e6ff65ed35db056bd4eb6255031",
"packagetype": "sdist",
"python_version": "source",
"requires_python": null,
"size": 4769,
"upload_time": "2024-08-19T05:51:05",
"upload_time_iso_8601": "2024-08-19T05:51:05.565321Z",
"url": "https://files.pythonhosted.org/packages/40/e6/4b3f771c30995cb1dbccddcfe0cf36fa8c8b49185d464a091b9140601674/divide-char-type-0.2.8.tar.gz",
"yanked": false,
"yanked_reason": null
}
],
"upload_time": "2024-08-19 05:51:05",
"github": true,
"gitlab": false,
"bitbucket": false,
"codeberg": false,
"github_user": "ShinyaAkagiI",
"github_project": "divide_character_type",
"travis_ci": false,
"coveralls": false,
"github_actions": false,
"lcname": "divide-char-type"
}