jionlp


Namejionlp JSON
Version 1.5.27 PyPI version JSON
download
home_pagehttps://github.com/dongrixinyu/JioNLP
SummaryChinese NLP Preprocessing & Parsing
upload_time2025-10-30 12:37:08
maintainerNone
docs_urlNone
authordongrixinyu
requires_pythonNone
licenseApache License 2.0
keywords
VCS
bugtrack_url
requirements numpy jiojio requests zipfile36
Travis-CI No Travis.
coveralls test coverage No coveralls.
            <p align="center">

    <a alt="jionlp logo">

        <img src="../../blob/master/image/jionlp_logo.jpg" style="width:300px;height:100px">

    </a>

</p>

<p align="center">

    <a alt="License">

        <img src="https://img.shields.io/github/license/dongrixinyu/JioNLP?color=crimson" /></a>

    <a alt="Size">

        <img src="https://img.shields.io/badge/size-15.6m-orange" /></a>

    <a alt="Downloads">

        <img src="https://pepy.tech/badge/jionlp/month" /></a>

    <a alt="Version">

        <img src="https://img.shields.io/badge/version-1.5.27-green" /></a>

    <a href="https://github.com/dongrixinyu/JioNLP/pulse" alt="Activity">

        <img src="https://img.shields.io/github/commit-activity/m/dongrixinyu/JioNLP?color=blue" /></a>

</p>



#### &emsp;&emsp; JioNLP:中文 NLP 预处理、解析工具包 A Python Lib for Chinese NLP Preprocessing & Parsing

#### &emsp;&emsp; 安装:```pip install jionlp```

- JioNLP 是一个面向 **NLP 开发者**的工具包,提供 NLP 任务预处理、解析功能,准确、高效、零使用门槛。请下拉本网页,查阅具体功能信息,并按 **Ctrl+F** 进行搜索。[**JioNLP在线版**](https://www.jionlp.com/jionlp_online) 可快速试用部分功能。关注同名**微信公众号 JioNLP** 可获取最新的 AI 资讯,数据资源。



  - [**AI发展方向——从pipeline到end2end**](https://mp.weixin.qq.com/s/ZpEn_vZGjY2dqpE_62721w)

  - [**你为什么不相信 LLM 模型评测:深入评测 LLM 接口**](https://mp.weixin.qq.com/s/8PoFz6mUD1AzKthGyO4cyA)

  - [**AI似乎在向着奇怪的方向飞奔**](https://mp.weixin.qq.com/s/cXktu3BDUee-s2L8Z0wXYA)

  - [**ChatGPT这么强,会影响NLPer的就业环境吗?**](https://zhuanlan.zhihu.com/p/605673596)

  - [**一文读懂ChatGPT模型原理**](https://zhuanlan.zhihu.com/p/589621442)

  - [**花了三周,我又更新了一版开源软件 ffio**](https://zhuanlan.zhihu.com/p/678141936) => [**FFIO链接**](https://github.com/dongrixinyu/ffio)



### 时间语义解析是目前较多开发者使用的功能,如果您考虑定制化效果更好的版本,可以与我联系,微信号 shanzhuiyancheng



### 2025-02-22 更新[大语言模型 LLM 评测数据集](https://github.com/dongrixinyu/JioNLP/wiki/LLM%E8%AF%84%E6%B5%8B%E6%95%B0%E6%8D%AE%E9%9B%86)

- JioNLP 提供了一套 LLM 的测试数据集,并应用 MELLM 算法完成了自动评测。

- **评测结果**可关注**公众号JioNLP**,查阅具体各家评测截图 pdf。

```

>>> import jionlp as jio

>>> llm_test = jio.llm_test_dataset_loader(version='1.2')

>>> print(llm_test[15])

>>> llm_test = jio.llm_test_dataset_loader(field='math')

>>> print(llm_test[5])

```





### 2025-04-01 更新函数,删除了一部分词典内容



- `jio.chinese_idiom_loader`

该函数是成语加载函数,**目前**返回成语的 释义、出处、示例、整个中文语料中的出现频率。



由于该函数占据了 2.9M 硬盘空间,且使用人数应该非常少,所以会对该词典进行精简,**计划**仅保留成语以及其文本频率,删除释义、出处、示例。

这样做会压缩 jionlp 工具包大小。





### 2023-12-12 Add [MELLM](https://zhuanlan.zhihu.com/p/666001842)



- **MELLM**, short for **Mutual Evaluation of Large Language Models**, is an automatic evaluation algorithm of LLMs without human supervision. MELLM has been tested effectively on several LLMs and datasets [test results and analysis](https://zhuanlan.zhihu.com/p/671636095). You can use the example code below to take a try. 

- before running this code, you should download `norm_score.json` and `max_score.json` from [test data](https://pan.baidu.com/s/18Ufx51v05gyVkBoCo8fupw) with password `jmbo`.

- If you encounter any error, read the [test_mellm.py](https://github.com/dongrixinyu/JioNLP/blob/master/test/test_mellm.py) to download `*.json` file.

```

$ git clone https://github.com/dongrixinyu/JioNLP

$ cd JioNLP/test/

$ python test_mellm.py

```





## 安装 Installation



- python>=3.6 **github 版本略领先于 pip**

```

$ git clone https://github.com/dongrixinyu/JioNLP

$ cd ./JioNLP

$ pip install .

```

- pip 安装

```

$ pip install jionlp

```





## 使用 Features



- 导入工具包,查看工具包的主要功能与函数注释

```

>>> import jionlp as jio

>>> print(jio.__version__)  # 查看 jionlp 的版本

>>> dir(jio)

>>> print(jio.extract_parentheses.__doc__)

```





- **星级⭐**代表优质特色功能

### 1.小工具集 Gadgets



| 功能   | 函数   |描述   |星级   |

|--------|-------|-------|-------|

|[**查找帮助**](../../wiki/Gadget-说明文档#user-content-查找帮助) |help|若不知道 JioNLP 有哪些功能,可根据命令行提示键入若干关键词做搜索 | |

|[**车牌号**解析](../../wiki/Gadget-说明文档#user-content-解析车牌号) |parse_motor_vehicle_licence_plate|给定一个车牌号,对其进行解析 |⭐|

|[**时间语义解析**](../../wiki/时间语义解析-说明文档#user-content-时间语义解析) |parse_time|给定时间文本,解析其时间语义(时间戳、时长)等 |⭐|

|[**关键短语抽取**](../../wiki/Gadget-说明文档#user-content-关键短语抽取) |extract_keyphrase|给定一篇文本,抽取其对应关键短语 |⭐|

|[抽取式**文本摘要**](../../wiki/Gadget-说明文档#user-content-抽取式文本摘要) |extract_summary|给定一篇文本,抽取其对应文摘 | |

|[**停用词过滤**](../../wiki/Gadget-说明文档#user-content-去除停用词) |remove_stopwords|给定一个文本被分词后的词 list,去除其中的停用词 |⭐|

|[**分句**](../../wiki/Gadget-说明文档#user-content-文本分句) |split_sentence|对文本按标点分句 |⭐|

|[**地址解析**](../../wiki/Gadget-说明文档#user-content-地址解析) |parse_location|给定一个包含国内地址字符串,识别其中的**省、市、县区、乡镇街道、村社**等信息 |⭐|

|[电话号码**归属地**、<br>**运营商**解析](../../wiki/Gadget-说明文档#user-content-电话号码归属地运营商解析) |phone_location<br>cell_phone_location<br>landline_phone_location |给定一个电话号码(手机号、座机号)字符串,识别其中的**省、市、运营商** ||

|[新闻**地名识别**](../../wiki/Gadget-说明文档#user-content-新闻地名识别) |recognize_location|给定新闻文本,识别其中的**国内省、市、县,国外国家、城市**等信息 |⭐|

|[**公历农历**日期互转](../../wiki/Gadget-说明文档#user-content-公历农历日期互转)|lunar2solar<br>solar2lunar |给定某公(农)历日期,将其转换为农(公)历 ||

|[**身份证号**解析](../../wiki/Gadget-说明文档#user-content-身份证号码解析) |parse_id_card|给定一个身份证号,识别对应的**省、市、县、出生年月、**<br>**性别、校验码**等信息 |⭐|

|[**成语接龙**](../../wiki/Gadget-说明文档#user-content-成语接龙) |idiom_solitaire|成语接龙,即前一成语的尾字和后一成语的首字(读音)相同 ||

|[**色情**数据过滤](../../wiki/一些说明#user-content-色情数据过滤) |- |- |

|[**反动**数据过滤](../../wiki/一些说明#user-content-反动数据过滤) |- |- |

|[**繁**体转**简**体](../../wiki/Gadget-说明文档#user-content-繁体转简体字) |tra2sim|繁体转简体,支持**逐字转**与**最大匹配**两种模式 | |

|[**简**体转**繁**体](../../wiki/Gadget-说明文档#user-content-简体转繁体字) |sim2tra|简体转繁体,支持**逐字转**与**最大匹配**两种模式 | |

|[汉字转**拼音**](../../wiki/Gadget-说明文档#user-content-汉字转拼音) |pinyin| 找出中文文本对应的汉语拼音,并可返回**声母**、**韵母**、**声调** |⭐ |

|[汉字转**偏旁与字形**](../../wiki/Gadget-说明文档#user-content-汉字转偏旁与字形) |char_radical| 找出中文文本对应的汉字字形结构信息,<br>包括**偏旁部首**(“河”氵)、**字形结构**(“河”左右结构)、<br>**四角编码**(“河”31120)、**汉字拆解**(“河”水可)、<br>**五笔编码**(“河”ISKG) |⭐ |

|[金额**数字转汉字**](../../wiki/正则抽取与解析-说明文档#user-content-金额数字转汉字)|money_num2char| 给定一条数字金额,返回其**汉字**大写结果 | |

|[**新词发现**](../../wiki/Gadget-说明文档#user-content-新词发现)|new_word_discovery| 给定一语料文本文件,统计其中高可能成词 | |





### 2.数据增强



- [**文本数据增强各方法说明**](../../wiki/数据增强-说明文档#user-content-数据增强方法对比)



| 功能   | 函数   |描述   |星级  |

|--------|--------|-------|------|

|[**回译**](../../wiki/数据增强-说明文档#user-content-回译数据增强) |BackTranslation|给定一篇文本,采用各大厂云平台的机器翻译接口,<br>实现数据增强 |⭐ |

|[**邻近汉字换位**](../../wiki/数据增强-说明文档#user-content-邻近汉字换位) |swap_char_position|随机交换相近字符的位置,实现数据增强 | |

|[**同音词替换**](../../wiki/数据增强-说明文档#user-content-同音词替换) |homophone_substitution|相同读音词汇替换,实现数据增强 |⭐ |

|[随机**增删字符**](../../wiki/数据增强-说明文档#user-content-随机增删字符) |random_add_delete|随机在文本中增加、删除某个字符,对语义不造成影响 | |

|[NER**实体替换**](../../wiki/数据增强-说明文档#user-content-ner实体替换) |replace_entity|根据实体词典,随机在文本中替换某个实体,对语义不<br>造成影响,也广泛适用于序列标注、文本分类 |⭐ |





### 3.正则抽取与解析



| 功能   | 函数   |描述   |星级    |

|--------|--------|-------|-------|

|[**清洗文本**](../../wiki/正则抽取与解析-说明文档#user-content-清洗文本) |clean_text|去除文本中的**异常字符、冗余字符、HTML标签、括号信息、**<br>**URL、E-mail、电话号码,全角字母数字转换为半角** |⭐ |

|[抽取 **E-mail**](../../wiki/正则抽取与解析-说明文档#user-content-抽取-e-mail) |extract_email|抽取文本中的 E-mail,返回**位置**与**域名** | |

|[解析 **货币金额**](../../wiki/正则抽取与解析-说明文档#user-content-货币金额解析) |extract_money|解析货币金额字符串 |⭐ |

|[抽取**微信号**](../../wiki/正则抽取与解析-说明文档#user-content-抽取-微信号) |extract_wechat_id| 抽取微信号,返回**位置** | |

|[抽取**电话号码**](../../wiki/正则抽取与解析-说明文档#user-content-抽取电话号码) |extract_phone_number| 抽取电话号码(含**手机号**、**座机号**),返回**域名**、**类型**与**位置** | |

|[抽取中国**身份证** ID](../../wiki/正则抽取与解析-说明文档#user-content-抽取身份证号) |extract_id_card|抽取身份证 ID,配合 **jio.parse_id_card** 返回身份证的<br>详细信息(**省市县**、**出生日期**、**性别**、**校验码**)| |

|[抽取 **QQ** 号](../../wiki/正则抽取与解析-说明文档#user-content-抽取-qq) |extract_qq|抽取 QQ 号,分为严格规则和宽松规则 | |

|[抽取 **URL**](../../wiki/正则抽取与解析-说明文档#user-content-抽取-url-超链接) |extract_url|抽取 URL 超链接 | |

|[抽取 **IP**地址](../../wiki/正则抽取与解析-说明文档#user-content-抽取-ip-地址) |extract_ip_address|抽取 IP 地址| |

|[抽取**括号**中的内容](../../wiki/正则抽取与解析-说明文档#user-content-抽取文本括号信息) |extract_parentheses|抽取括号内容,包括 **{}「」[]【】()()<>《》** |⭐ |

|[抽取**车牌号**](../../wiki/正则抽取与解析-说明文档#user-content-抽取车牌号) |extract_motor_vehicle_licence_plate|抽取大陆车牌号信息 | |

|[删除 **E-mail**](../../wiki/正则抽取与解析-说明文档#user-content-删除文本中的-e-mail) |remove_email|删除文本中的 E-mail 信息 | |

|[删除 **URL**](../../wiki/正则抽取与解析-说明文档#user-content-删除文本中的-url) |remove_url |删除文本中的 URL 信息| |

|[删除 **电话号码**](../../wiki/正则抽取与解析-说明文档#user-content-删除电话号码) |remove_phone_number|删除文本中的电话号码 | |

|[删除 **IP地址**](../../wiki/正则抽取与解析-说明文档#user-content-删除文本中的-ip-地址)|remove_ip_address|删除文本中的 IP 地址 | |

|[删除 **身份证号**](../../wiki/正则抽取与解析-说明文档#user-content-删除文本中的身份证号) |remove_id_card|删除文本中的身份证信息 | |

|[删除 **QQ**](../../wiki/正则抽取与解析-说明文档#user-content-删除文本中的-qq-号) |remove_qq|删除文本中的 qq 号| |

|[删除 **HTML**标签](../../wiki/正则抽取与解析-说明文档#user-content-删除文本中的-html-标签) |remove_html_tag|删除文本中残留的 HTML 标签 | |

|[删除**括号**中的内容](../../wiki/正则抽取与解析-说明文档#user-content-删除文本括号信息) |remove_parentheses|删除括号内容,包括 **{}「」[]【】()()<>《》** | |

|[删除**异常**字符](../../wiki/正则抽取与解析-说明文档#user-content-删除文本中的异常字符) |remove_exception_char|删除文本中异常字符,主要保留汉字、常用的标点,<br>单位计算符号,字母数字等 | |

|[删除**冗余**字符](../../wiki/正则抽取与解析-说明文档#user-content-删除文本中的冗余字符) |remove_redundant_char|删除文本中冗余重复字符 | |

|[归一化 **E-mail**](../../wiki/正则抽取与解析-说明文档#user-content-归一化文本中的-e-mail) |replace_email|归一化文本中的 E-mail 信息为\<email\> | |

|[归一化 **URL**](../../wiki/正则抽取与解析-说明文档#user-content-归一化文本中的-url) |replace_url |归一化文本中的 URL 信息为\<url\> | |

|[归一化 **电话号码**](../../wiki/正则抽取与解析-说明文档#user-content-归一化电话号码) |replace_phone_number|归一化文本中的电话号码为\<tel\> | |

|[归一化 **IP地址**](../../wiki/正则抽取与解析-说明文档#user-content-归一化文本中的-ip-地址)|replace_ip_address|归一化文本中的 IP 地址为\<ip\> | |

|[归一化 **身份证号**](../../wiki/正则抽取与解析-说明文档#user-content-归一化文本中的身份证号) |replace_id_card|归一化文本中的身份证信息为\<id\> | |

|[归一化 **QQ**](../../wiki/正则抽取与解析-说明文档#user-content-归一化文本中的-qq-号) |replace_qq|归一化文本中的 qq 号为\<qq\> | |

|[判断文本是否**包含**中文字符](../../wiki/正则判断类说明文档#user-content-判断字符串中是否包含中文字符) | check_any_chinese_char | 检查文本中是否包含中文字符,若至少包含一个,则返回 True | |

|[判断文本是否**全部是**中文字符](../../wiki/正则判断类说明文档#user-content-判断字符串中是否全部为中文字符) | check_all_chinese_char | 检查文本中是否全部是中文字符,若全部都是,则返回 True | |

|[判断文本是否**包含**阿拉伯数字](../../wiki/正则判断类说明文档#user-content-判断字符串中是否包含阿拉伯数字) | check_any_arabic_num | 检查文本中是否包含阿拉伯数字,若至少包含一个,则返回 True | |

|[判断文本是否**全部是**阿拉伯数字](../../wiki/正则判断类说明文档#user-content-判断字符串中是否全部为阿拉伯数字) | check_all_arabic_num | 检查文本中是否全部是阿拉伯数字,若全部都是,则返回 True | |



### 4.文件读写工具



| 功能   | 函数   |描述   |星级   |

|--------|--------|-------|-------|

|[**按行读取文件**](../../wiki/文件读写-说明文档#user-content-文件读取iter) |read_file_by_iter |以迭代器形式方便按行读取文件,节省内存,<br>支持指定**行数**,**跳过空行** ||

|[**按行读取文件**](../../wiki/文件读写-说明文档#user-content-文件读取list) |read_file_by_line |按行读取文件,支持指定**行数**,**跳过空行** |⭐ |

|[将 list 中元素按行写入文件](../../wiki/文件读写-说明文档#user-content-文件写入) |write_file_by_line| 将 list 中元素按行写入文件 |⭐ |

|[计时工具](../../wiki/文件读写-说明文档#user-content-计时器) |TimeIt | 统计某一代码段的耗时 | |

|[日志工具](../../wiki/文件读写-说明文档#user-content-日志处理设置函数) |set_logger |调整工具包日志输出形式 | |



### 5.词典加载与使用



| 功能 | 函数 | 描述 |星级  |

|-----|-----|------|------|

|[大语言模型 LLM 评测数据集](https://github.com/dongrixinyu/JioNLP/wiki/LLM%E8%AF%84%E6%B5%8B%E6%95%B0%E6%8D%AE%E9%9B%86)|jio.llm_test_dataset_loader | LLM 评测数据集 |⭐|

|[**Byte-level BPE**](../../wiki/BPE算法说明文档) | jio.bpe.byte_level_bpe |Byte-level-BPE 算法|⭐|

|**停用词词典** | jio.stopwords_loader() | 综合了百度、jieba、讯飞等的停用词词典 |  |

|[**成语**词典](../../wiki/词典加载-说明文档#user-content-加载成语词典) |chinese_idiom_loader|加载成语词典 |⭐|

|[**歇后语**词典](../../wiki/词典加载-说明文档#user-content-加载歇后语词典) |xiehouyu_loader|加载歇后语词典 |⭐|

|[**中国地名**词典](../../wiki/词典加载-说明文档#user-content-加载中国省市县地名词典) |china_location_loader|加载中国**省、市、县**三级词典 |⭐|

|[**中国区划调整**词典](../../wiki/词典加载-说明文档#user-content-加载中国区划调整词典) |china_location_change_loader|加载 2018 年以来中国**县级**以上区划调整更名记录 |⭐|

|[**世界地名**词典](../../wiki/词典加载-说明文档#user-content-加载世界国家城市地名词典) |world_location_loader|加载世界**大洲、国家、城市**词典 | |

|[新华**字**典](../../wiki/词典加载-说明文档#user-content-加载新华字典) |chinese_char_dictionary_loader|加载新华字典 | |

|[新华**词**典](../../wiki/词典加载-说明文档#user-content-加载新华词典) |chinese_word_dictionary_loader|加载新华词典 | |



### 6.实体识别(NER)算法辅助工具集



- [工具包 NER 数据规定说明](../../wiki/NER-说明文档#user-content-前言)



| 功能   | 函数   |描述   |星级   |

|--------|--------|-------|-------|

|[抽取**货币金额实体**](../../wiki/NER-说明文档#user-content-货币金额实体抽取) |extract_money |从文本中抽取出货币金额实体 |⭐ |

|[抽取**时间实体**](../../wiki/NER-说明文档#user-content-时间实体抽取) |extract_time |从文本中抽取出时间实体 |⭐ |

|[基于**词典NER**](../../wiki/NER-说明文档#user-content-基于词典-ner) |LexiconNER|依据指定的实体词典,前向最大匹配实体 |⭐ |

|[**entity 转 tag**](../../wiki/NER-说明文档#user-content-entity-转-tag) |entity2tag|将 json 格式实体转换为模型处理的 tag 序列 | |

|[**tag 转 entity**](../../wiki/NER-说明文档#user-content-tag-转-entity) |tag2entity|将模型处理的 tag 序列转换为 json 格式实体 | |

|[**字** token 转**词** token](../../wiki/NER-说明文档#user-content-字-token-转词-token) |char2word|将字符级别 token 转换为词汇级别 token | |

|[**词** token 转**字** token](../../wiki/NER-说明文档#user-content-词-token-转字-token) |word2char|将词汇级别 token 转换为字符级别 token | |

|[比较标注与模型预测的**实体差异**](../../wiki/NER-说明文档#user-content-比较-ner-标注实体与模型预测实体之间的差异) |entity_compare|针对人工标注的实体,与模型预测出的实体结果<br>,做差异比对 |⭐ |

|[NER模型**预测加速**](../../wiki/NER-说明文档#user-content-ner-模型预测加速) |TokenSplitSentence<br>TokenBreakLongSentence<br>TokenBatchBucket|对 NER 模型预测并行加速的方法  |⭐ |

|[**分割数据集**](../../wiki/NER-说明文档#user-content-分割数据集) |analyse_dataset|对 NER 标注语料,分为训练集、验证集、测试集,并给出各个子集的实体类型分布统计 |⭐ |

|[实体**收集**](../../wiki/NER-说明文档#user-content-实体收集) |collect_dataset_entities|将标注语料中的实体收集起来,形成词典 | |





### 7.文本分类



| 功能   | 函数   |描述   |星级   |

|--------|--------|-------|------|

|[朴素贝叶斯**分析类别词汇**](../../wiki/文本分类-说明文档#user-content-朴素贝叶斯分析类别词汇) |analyse_freq_words|对文本分类的标注语料,做朴素贝叶斯词频分析,返回各类<br>文本的高条件概率词汇 |⭐ |

|[**分割数据集**](../../wiki/文本分类-说明文档#user-content-分割数据集) |analyse_dataset|对文本分类的标注语料,切分为训练集、验证集、测试集,<br>并给出各个子集的分类分布统计 |⭐ |





### 8.情感分析



| 功能   | 函数   |描述   |星级   |

|--------|--------|-------|-------|

|[基于**词典情感分析**](../../wiki/情感分析-说明文档#user-content-基于词典的情感分析) |LexiconSentiment|依据人工构建的情感词典,计算文本的情感值,介于0~1之间 | |



### 9.分词

| 功能   | 函数   |描述   |星级   |

|--------|--------|-------|-------|

|[**word 转 tag**](../../wiki/分词-说明文档#user-content-word-转-tag) |cws.word2tag|将 json 格式分词序列转换为模型处理的 tag 序列 | |

|[**tag 转 word**](../../wiki/分词-说明文档#user-content-tag-转-word) |cws.tag2word|将模型处理的 tag 序列转换为 json 格式分词 | |

|[**统计F1值**](../../wiki/分词-说明文档#user-content-统计-f1-值) |cws.f1|比对分词标注标签于模型预测标签的F1值 | |

|[**分词数据矫正-标准词典**](../../wiki/分词-说明文档#user-content-分词数据矫正-标准词典) |cws.CWSDCWithStandardWords |使用标准词典对分词标注数据进行矫正和修复 | |



### 文献引用



- 若论文需要进行引用,可复制以下引用:



> Chengyu Cui, JioNLP, (2020), GitHub repository, https://github.com/dongrixinyu/JioNLP



### 初衷



- NLP 预处理与解析至关重要,且非常耗时。本 lib 能快速辅助完成各种琐碎的预处理、解析操作,加速开发进度,把有限的精力用在思考而非 code 上。

- 如有功能建议、bug,可通过 issue 按模板提出。

- 非常欢迎各位 NLP 开发者和研究者 **合作完善本工具包,添加新功能** 。



### 如本工具对您有帮助,请点一下右上角 star ⭐

### 或者扫码请作者喝杯咖啡 (●'◡'●),开源项目完全用爱发电,谢谢啦!推荐优先使用【支付宝】 ~~

- 感谢[致谢](../../wiki/致谢篇)名单中赞助的小伙伴们,你们的打赏让我更有动力



<p align="center">

    <a alt="jionlp logo">

        <img src="../../blob/master/image/payment_code.jpg" style="width:500px;height:380px">

    </a>

</p>



### 做 NLP不易,欢迎加入自然语言处理 Wechat 交流群

### 请扫以下码,或wx搜索公众号JioNLP”,关注并回复【进群】

<p align="center">

    <a alt="jionlp logo">

        <img src="../../blob/master/image/qrcode_for_gh.jpg" style="width:200px;height:200px">

    </a>

</p>





            

Raw data

            {
    "_id": null,
    "home_page": "https://github.com/dongrixinyu/JioNLP",
    "name": "jionlp",
    "maintainer": null,
    "docs_url": null,
    "requires_python": null,
    "maintainer_email": null,
    "keywords": null,
    "author": "dongrixinyu",
    "author_email": "dongrixinyu.89@163.com",
    "download_url": null,
    "platform": null,
    "description": "<p align=\"center\">\n\n    <a alt=\"jionlp logo\">\n\n        <img src=\"../../blob/master/image/jionlp_logo.jpg\" style=\"width:300px;height:100px\">\n\n    </a>\n\n</p>\n\n<p align=\"center\">\n\n    <a alt=\"License\">\n\n        <img src=\"https://img.shields.io/github/license/dongrixinyu/JioNLP?color=crimson\" /></a>\n\n    <a alt=\"Size\">\n\n        <img src=\"https://img.shields.io/badge/size-15.6m-orange\" /></a>\n\n    <a alt=\"Downloads\">\n\n        <img src=\"https://pepy.tech/badge/jionlp/month\" /></a>\n\n    <a alt=\"Version\">\n\n        <img src=\"https://img.shields.io/badge/version-1.5.27-green\" /></a>\n\n    <a href=\"https://github.com/dongrixinyu/JioNLP/pulse\" alt=\"Activity\">\n\n        <img src=\"https://img.shields.io/github/commit-activity/m/dongrixinyu/JioNLP?color=blue\" /></a>\n\n</p>\n\n\n\n#### &emsp;&emsp; JioNLP\uff1a\u4e2d\u6587 NLP \u9884\u5904\u7406\u3001\u89e3\u6790\u5de5\u5177\u5305 A Python Lib for Chinese NLP Preprocessing & Parsing\n\n#### &emsp;&emsp; \u5b89\u88c5\uff1a```pip install jionlp```\n\n- JioNLP \u662f\u4e00\u4e2a\u9762\u5411 **NLP \u5f00\u53d1\u8005**\u7684\u5de5\u5177\u5305\uff0c\u63d0\u4f9b NLP \u4efb\u52a1\u9884\u5904\u7406\u3001\u89e3\u6790\u529f\u80fd\uff0c\u51c6\u786e\u3001\u9ad8\u6548\u3001\u96f6\u4f7f\u7528\u95e8\u69db\u3002\u8bf7\u4e0b\u62c9\u672c\u7f51\u9875\uff0c\u67e5\u9605\u5177\u4f53\u529f\u80fd\u4fe1\u606f\uff0c\u5e76\u6309 **Ctrl+F** \u8fdb\u884c\u641c\u7d22\u3002[**JioNLP\u5728\u7ebf\u7248**](https://www.jionlp.com/jionlp_online) \u53ef\u5feb\u901f\u8bd5\u7528\u90e8\u5206\u529f\u80fd\u3002\u5173\u6ce8\u540c\u540d**\u5fae\u4fe1\u516c\u4f17\u53f7 JioNLP** \u53ef\u83b7\u53d6\u6700\u65b0\u7684 AI \u8d44\u8baf\uff0c\u6570\u636e\u8d44\u6e90\u3002\n\n\n\n  - [**AI\u53d1\u5c55\u65b9\u5411\u2014\u2014\u4ecepipeline\u5230end2end**](https://mp.weixin.qq.com/s/ZpEn_vZGjY2dqpE_62721w)\n\n  - [**\u4f60\u4e3a\u4ec0\u4e48\u4e0d\u76f8\u4fe1 LLM \u6a21\u578b\u8bc4\u6d4b\uff1a\u6df1\u5165\u8bc4\u6d4b LLM \u63a5\u53e3**](https://mp.weixin.qq.com/s/8PoFz6mUD1AzKthGyO4cyA)\n\n  - [**AI\u4f3c\u4e4e\u5728\u5411\u7740\u5947\u602a\u7684\u65b9\u5411\u98de\u5954**](https://mp.weixin.qq.com/s/cXktu3BDUee-s2L8Z0wXYA)\n\n  - [**ChatGPT\u8fd9\u4e48\u5f3a\uff0c\u4f1a\u5f71\u54cdNLPer\u7684\u5c31\u4e1a\u73af\u5883\u5417\uff1f**](https://zhuanlan.zhihu.com/p/605673596)\n\n  - [**\u4e00\u6587\u8bfb\u61c2ChatGPT\u6a21\u578b\u539f\u7406**](https://zhuanlan.zhihu.com/p/589621442)\n\n  - [**\u82b1\u4e86\u4e09\u5468\uff0c\u6211\u53c8\u66f4\u65b0\u4e86\u4e00\u7248\u5f00\u6e90\u8f6f\u4ef6 ffio**](https://zhuanlan.zhihu.com/p/678141936) => [**FFIO\u94fe\u63a5**](https://github.com/dongrixinyu/ffio)\n\n\n\n### \u65f6\u95f4\u8bed\u4e49\u89e3\u6790\u662f\u76ee\u524d\u8f83\u591a\u5f00\u53d1\u8005\u4f7f\u7528\u7684\u529f\u80fd\uff0c\u5982\u679c\u60a8\u8003\u8651\u5b9a\u5236\u5316\u6548\u679c\u66f4\u597d\u7684\u7248\u672c\uff0c\u53ef\u4ee5\u4e0e\u6211\u8054\u7cfb\uff0c\u5fae\u4fe1\u53f7 shanzhuiyancheng\n\n\n\n### 2025-02-22 \u66f4\u65b0[\u5927\u8bed\u8a00\u6a21\u578b LLM \u8bc4\u6d4b\u6570\u636e\u96c6](https://github.com/dongrixinyu/JioNLP/wiki/LLM%E8%AF%84%E6%B5%8B%E6%95%B0%E6%8D%AE%E9%9B%86)\n\n- JioNLP \u63d0\u4f9b\u4e86\u4e00\u5957 LLM \u7684\u6d4b\u8bd5\u6570\u636e\u96c6\uff0c\u5e76\u5e94\u7528 MELLM \u7b97\u6cd5\u5b8c\u6210\u4e86\u81ea\u52a8\u8bc4\u6d4b\u3002\n\n- **\u8bc4\u6d4b\u7ed3\u679c**\u53ef\u5173\u6ce8**\u516c\u4f17\u53f7JioNLP**\uff0c\u67e5\u9605\u5177\u4f53\u5404\u5bb6\u8bc4\u6d4b\u622a\u56fe pdf\u3002\n\n```\n\n>>> import jionlp as jio\n\n>>> llm_test = jio.llm_test_dataset_loader(version='1.2')\n\n>>> print(llm_test[15])\n\n>>> llm_test = jio.llm_test_dataset_loader(field='math')\n\n>>> print(llm_test[5])\n\n```\n\n\n\n\n\n### 2025-04-01 \u66f4\u65b0\u51fd\u6570\uff0c\u5220\u9664\u4e86\u4e00\u90e8\u5206\u8bcd\u5178\u5185\u5bb9\n\n\n\n- `jio.chinese_idiom_loader`\n\n\u8be5\u51fd\u6570\u662f\u6210\u8bed\u52a0\u8f7d\u51fd\u6570\uff0c**\u76ee\u524d**\u8fd4\u56de\u6210\u8bed\u7684 \u91ca\u4e49\u3001\u51fa\u5904\u3001\u793a\u4f8b\u3001\u6574\u4e2a\u4e2d\u6587\u8bed\u6599\u4e2d\u7684\u51fa\u73b0\u9891\u7387\u3002\n\n\n\n\u7531\u4e8e\u8be5\u51fd\u6570\u5360\u636e\u4e86 2.9M \u786c\u76d8\u7a7a\u95f4\uff0c\u4e14\u4f7f\u7528\u4eba\u6570\u5e94\u8be5\u975e\u5e38\u5c11\uff0c\u6240\u4ee5\u4f1a\u5bf9\u8be5\u8bcd\u5178\u8fdb\u884c\u7cbe\u7b80\uff0c**\u8ba1\u5212**\u4ec5\u4fdd\u7559\u6210\u8bed\u4ee5\u53ca\u5176\u6587\u672c\u9891\u7387\uff0c\u5220\u9664\u91ca\u4e49\u3001\u51fa\u5904\u3001\u793a\u4f8b\u3002\n\n\u8fd9\u6837\u505a\u4f1a\u538b\u7f29 jionlp \u5de5\u5177\u5305\u5927\u5c0f\u3002\n\n\n\n\n\n### 2023-12-12 Add [MELLM](https://zhuanlan.zhihu.com/p/666001842)\n\n\n\n- **MELLM**, short for **Mutual Evaluation of Large Language Models**, is an automatic evaluation algorithm of LLMs without human supervision. MELLM has been tested effectively on several LLMs and datasets [test results and analysis](https://zhuanlan.zhihu.com/p/671636095). You can use the example code below to take a try. \n\n- before running this code, you should download `norm_score.json` and `max_score.json` from [test data](https://pan.baidu.com/s/18Ufx51v05gyVkBoCo8fupw) with password `jmbo`.\n\n- If you encounter any error, read the [test_mellm.py](https://github.com/dongrixinyu/JioNLP/blob/master/test/test_mellm.py) to download `*.json` file.\n\n```\n\n$ git clone https://github.com/dongrixinyu/JioNLP\n\n$ cd JioNLP/test/\n\n$ python test_mellm.py\n\n```\n\n\n\n\n\n## \u5b89\u88c5 Installation\n\n\n\n- python>=3.6 **github \u7248\u672c\u7565\u9886\u5148\u4e8e pip**\n\n```\n\n$ git clone https://github.com/dongrixinyu/JioNLP\n\n$ cd ./JioNLP\n\n$ pip install .\n\n```\n\n- pip \u5b89\u88c5\n\n```\n\n$ pip install jionlp\n\n```\n\n\n\n\n\n## \u4f7f\u7528 Features\n\n\n\n- \u5bfc\u5165\u5de5\u5177\u5305\uff0c\u67e5\u770b\u5de5\u5177\u5305\u7684\u4e3b\u8981\u529f\u80fd\u4e0e\u51fd\u6570\u6ce8\u91ca\n\n```\n\n>>> import jionlp as jio\n\n>>> print(jio.__version__)  # \u67e5\u770b jionlp \u7684\u7248\u672c\n\n>>> dir(jio)\n\n>>> print(jio.extract_parentheses.__doc__)\n\n```\n\n\n\n\n\n- **\u661f\u7ea7\u2b50**\u4ee3\u8868\u4f18\u8d28\u7279\u8272\u529f\u80fd\n\n### 1.\u5c0f\u5de5\u5177\u96c6 Gadgets\n\n\n\n| \u529f\u80fd   | \u51fd\u6570   |\u63cf\u8ff0   |\u661f\u7ea7   |\n\n|--------|-------|-------|-------|\n\n|[**\u67e5\u627e\u5e2e\u52a9**](../../wiki/Gadget-\u8bf4\u660e\u6587\u6863#user-content-\u67e5\u627e\u5e2e\u52a9) |help|\u82e5\u4e0d\u77e5\u9053 JioNLP \u6709\u54ea\u4e9b\u529f\u80fd\uff0c\u53ef\u6839\u636e\u547d\u4ee4\u884c\u63d0\u793a\u952e\u5165\u82e5\u5e72\u5173\u952e\u8bcd\u505a\u641c\u7d22 | |\n\n|[**\u8f66\u724c\u53f7**\u89e3\u6790](../../wiki/Gadget-\u8bf4\u660e\u6587\u6863#user-content-\u89e3\u6790\u8f66\u724c\u53f7) |parse_motor_vehicle_licence_plate|\u7ed9\u5b9a\u4e00\u4e2a\u8f66\u724c\u53f7\uff0c\u5bf9\u5176\u8fdb\u884c\u89e3\u6790 |\u2b50|\n\n|[**\u65f6\u95f4\u8bed\u4e49\u89e3\u6790**](../../wiki/\u65f6\u95f4\u8bed\u4e49\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u65f6\u95f4\u8bed\u4e49\u89e3\u6790) |parse_time|\u7ed9\u5b9a\u65f6\u95f4\u6587\u672c\uff0c\u89e3\u6790\u5176\u65f6\u95f4\u8bed\u4e49\uff08\u65f6\u95f4\u6233\u3001\u65f6\u957f\uff09\u7b49 |\u2b50|\n\n|[**\u5173\u952e\u77ed\u8bed\u62bd\u53d6**](../../wiki/Gadget-\u8bf4\u660e\u6587\u6863#user-content-\u5173\u952e\u77ed\u8bed\u62bd\u53d6) |extract_keyphrase|\u7ed9\u5b9a\u4e00\u7bc7\u6587\u672c\uff0c\u62bd\u53d6\u5176\u5bf9\u5e94\u5173\u952e\u77ed\u8bed |\u2b50|\n\n|[\u62bd\u53d6\u5f0f**\u6587\u672c\u6458\u8981**](../../wiki/Gadget-\u8bf4\u660e\u6587\u6863#user-content-\u62bd\u53d6\u5f0f\u6587\u672c\u6458\u8981) |extract_summary|\u7ed9\u5b9a\u4e00\u7bc7\u6587\u672c\uff0c\u62bd\u53d6\u5176\u5bf9\u5e94\u6587\u6458 | |\n\n|[**\u505c\u7528\u8bcd\u8fc7\u6ee4**](../../wiki/Gadget-\u8bf4\u660e\u6587\u6863#user-content-\u53bb\u9664\u505c\u7528\u8bcd) |remove_stopwords|\u7ed9\u5b9a\u4e00\u4e2a\u6587\u672c\u88ab\u5206\u8bcd\u540e\u7684\u8bcd list\uff0c\u53bb\u9664\u5176\u4e2d\u7684\u505c\u7528\u8bcd |\u2b50|\n\n|[**\u5206\u53e5**](../../wiki/Gadget-\u8bf4\u660e\u6587\u6863#user-content-\u6587\u672c\u5206\u53e5) |split_sentence|\u5bf9\u6587\u672c\u6309\u6807\u70b9\u5206\u53e5 |\u2b50|\n\n|[**\u5730\u5740\u89e3\u6790**](../../wiki/Gadget-\u8bf4\u660e\u6587\u6863#user-content-\u5730\u5740\u89e3\u6790) |parse_location|\u7ed9\u5b9a\u4e00\u4e2a\u5305\u542b\u56fd\u5185\u5730\u5740\u5b57\u7b26\u4e32\uff0c\u8bc6\u522b\u5176\u4e2d\u7684**\u7701\u3001\u5e02\u3001\u53bf\u533a\u3001\u4e61\u9547\u8857\u9053\u3001\u6751\u793e**\u7b49\u4fe1\u606f |\u2b50|\n\n|[\u7535\u8bdd\u53f7\u7801**\u5f52\u5c5e\u5730**\u3001<br>**\u8fd0\u8425\u5546**\u89e3\u6790](../../wiki/Gadget-\u8bf4\u660e\u6587\u6863#user-content-\u7535\u8bdd\u53f7\u7801\u5f52\u5c5e\u5730\u8fd0\u8425\u5546\u89e3\u6790) |phone_location<br>cell_phone_location<br>landline_phone_location |\u7ed9\u5b9a\u4e00\u4e2a\u7535\u8bdd\u53f7\u7801\uff08\u624b\u673a\u53f7\u3001\u5ea7\u673a\u53f7\uff09\u5b57\u7b26\u4e32\uff0c\u8bc6\u522b\u5176\u4e2d\u7684**\u7701\u3001\u5e02\u3001\u8fd0\u8425\u5546** ||\n\n|[\u65b0\u95fb**\u5730\u540d\u8bc6\u522b**](../../wiki/Gadget-\u8bf4\u660e\u6587\u6863#user-content-\u65b0\u95fb\u5730\u540d\u8bc6\u522b) |recognize_location|\u7ed9\u5b9a\u65b0\u95fb\u6587\u672c\uff0c\u8bc6\u522b\u5176\u4e2d\u7684**\u56fd\u5185\u7701\u3001\u5e02\u3001\u53bf\uff0c\u56fd\u5916\u56fd\u5bb6\u3001\u57ce\u5e02**\u7b49\u4fe1\u606f |\u2b50|\n\n|[**\u516c\u5386\u519c\u5386**\u65e5\u671f\u4e92\u8f6c](../../wiki/Gadget-\u8bf4\u660e\u6587\u6863#user-content-\u516c\u5386\u519c\u5386\u65e5\u671f\u4e92\u8f6c)|lunar2solar<br>solar2lunar |\u7ed9\u5b9a\u67d0\u516c\uff08\u519c\uff09\u5386\u65e5\u671f\uff0c\u5c06\u5176\u8f6c\u6362\u4e3a\u519c\uff08\u516c\uff09\u5386 ||\n\n|[**\u8eab\u4efd\u8bc1\u53f7**\u89e3\u6790](../../wiki/Gadget-\u8bf4\u660e\u6587\u6863#user-content-\u8eab\u4efd\u8bc1\u53f7\u7801\u89e3\u6790) |parse_id_card|\u7ed9\u5b9a\u4e00\u4e2a\u8eab\u4efd\u8bc1\u53f7\uff0c\u8bc6\u522b\u5bf9\u5e94\u7684**\u7701\u3001\u5e02\u3001\u53bf\u3001\u51fa\u751f\u5e74\u6708\u3001**<br>**\u6027\u522b\u3001\u6821\u9a8c\u7801**\u7b49\u4fe1\u606f |\u2b50|\n\n|[**\u6210\u8bed\u63a5\u9f99**](../../wiki/Gadget-\u8bf4\u660e\u6587\u6863#user-content-\u6210\u8bed\u63a5\u9f99) |idiom_solitaire|\u6210\u8bed\u63a5\u9f99\uff0c\u5373\u524d\u4e00\u6210\u8bed\u7684\u5c3e\u5b57\u548c\u540e\u4e00\u6210\u8bed\u7684\u9996\u5b57\uff08\u8bfb\u97f3\uff09\u76f8\u540c ||\n\n|[**\u8272\u60c5**\u6570\u636e\u8fc7\u6ee4](../../wiki/\u4e00\u4e9b\u8bf4\u660e#user-content-\u8272\u60c5\u6570\u636e\u8fc7\u6ee4) |- |- |\n\n|[**\u53cd\u52a8**\u6570\u636e\u8fc7\u6ee4](../../wiki/\u4e00\u4e9b\u8bf4\u660e#user-content-\u53cd\u52a8\u6570\u636e\u8fc7\u6ee4) |- |- |\n\n|[**\u7e41**\u4f53\u8f6c**\u7b80**\u4f53](../../wiki/Gadget-\u8bf4\u660e\u6587\u6863#user-content-\u7e41\u4f53\u8f6c\u7b80\u4f53\u5b57) |tra2sim|\u7e41\u4f53\u8f6c\u7b80\u4f53\uff0c\u652f\u6301**\u9010\u5b57\u8f6c**\u4e0e**\u6700\u5927\u5339\u914d**\u4e24\u79cd\u6a21\u5f0f | |\n\n|[**\u7b80**\u4f53\u8f6c**\u7e41**\u4f53](../../wiki/Gadget-\u8bf4\u660e\u6587\u6863#user-content-\u7b80\u4f53\u8f6c\u7e41\u4f53\u5b57) |sim2tra|\u7b80\u4f53\u8f6c\u7e41\u4f53\uff0c\u652f\u6301**\u9010\u5b57\u8f6c**\u4e0e**\u6700\u5927\u5339\u914d**\u4e24\u79cd\u6a21\u5f0f | |\n\n|[\u6c49\u5b57\u8f6c**\u62fc\u97f3**](../../wiki/Gadget-\u8bf4\u660e\u6587\u6863#user-content-\u6c49\u5b57\u8f6c\u62fc\u97f3) |pinyin| \u627e\u51fa\u4e2d\u6587\u6587\u672c\u5bf9\u5e94\u7684\u6c49\u8bed\u62fc\u97f3\uff0c\u5e76\u53ef\u8fd4\u56de**\u58f0\u6bcd**\u3001**\u97f5\u6bcd**\u3001**\u58f0\u8c03** |\u2b50 |\n\n|[\u6c49\u5b57\u8f6c**\u504f\u65c1\u4e0e\u5b57\u5f62**](../../wiki/Gadget-\u8bf4\u660e\u6587\u6863#user-content-\u6c49\u5b57\u8f6c\u504f\u65c1\u4e0e\u5b57\u5f62) |char_radical| \u627e\u51fa\u4e2d\u6587\u6587\u672c\u5bf9\u5e94\u7684\u6c49\u5b57\u5b57\u5f62\u7ed3\u6784\u4fe1\u606f\uff0c<br>\u5305\u62ec**\u504f\u65c1\u90e8\u9996**(\u201c\u6cb3\u201d\u6c35)\u3001**\u5b57\u5f62\u7ed3\u6784**(\u201c\u6cb3\u201d\u5de6\u53f3\u7ed3\u6784)\u3001<br>**\u56db\u89d2\u7f16\u7801**(\u201c\u6cb3\u201d31120)\u3001**\u6c49\u5b57\u62c6\u89e3**(\u201c\u6cb3\u201d\u6c34\u53ef)\u3001<br>**\u4e94\u7b14\u7f16\u7801**(\u201c\u6cb3\u201dISKG) |\u2b50 |\n\n|[\u91d1\u989d**\u6570\u5b57\u8f6c\u6c49\u5b57**](../../wiki/\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u91d1\u989d\u6570\u5b57\u8f6c\u6c49\u5b57)|money_num2char| \u7ed9\u5b9a\u4e00\u6761\u6570\u5b57\u91d1\u989d\uff0c\u8fd4\u56de\u5176**\u6c49\u5b57**\u5927\u5199\u7ed3\u679c | |\n\n|[**\u65b0\u8bcd\u53d1\u73b0**](../../wiki/Gadget-\u8bf4\u660e\u6587\u6863#user-content-\u65b0\u8bcd\u53d1\u73b0)|new_word_discovery| \u7ed9\u5b9a\u4e00\u8bed\u6599\u6587\u672c\u6587\u4ef6\uff0c\u7edf\u8ba1\u5176\u4e2d\u9ad8\u53ef\u80fd\u6210\u8bcd | |\n\n\n\n\n\n### 2.\u6570\u636e\u589e\u5f3a\n\n\n\n- [**\u6587\u672c\u6570\u636e\u589e\u5f3a\u5404\u65b9\u6cd5\u8bf4\u660e**](../../wiki/\u6570\u636e\u589e\u5f3a-\u8bf4\u660e\u6587\u6863#user-content-\u6570\u636e\u589e\u5f3a\u65b9\u6cd5\u5bf9\u6bd4)\n\n\n\n| \u529f\u80fd   | \u51fd\u6570   |\u63cf\u8ff0   |\u661f\u7ea7  |\n\n|--------|--------|-------|------|\n\n|[**\u56de\u8bd1**](../../wiki/\u6570\u636e\u589e\u5f3a-\u8bf4\u660e\u6587\u6863#user-content-\u56de\u8bd1\u6570\u636e\u589e\u5f3a) |BackTranslation|\u7ed9\u5b9a\u4e00\u7bc7\u6587\u672c\uff0c\u91c7\u7528\u5404\u5927\u5382\u4e91\u5e73\u53f0\u7684\u673a\u5668\u7ffb\u8bd1\u63a5\u53e3\uff0c<br>\u5b9e\u73b0\u6570\u636e\u589e\u5f3a |\u2b50 |\n\n|[**\u90bb\u8fd1\u6c49\u5b57\u6362\u4f4d**](../../wiki/\u6570\u636e\u589e\u5f3a-\u8bf4\u660e\u6587\u6863#user-content-\u90bb\u8fd1\u6c49\u5b57\u6362\u4f4d) |swap_char_position|\u968f\u673a\u4ea4\u6362\u76f8\u8fd1\u5b57\u7b26\u7684\u4f4d\u7f6e\uff0c\u5b9e\u73b0\u6570\u636e\u589e\u5f3a | |\n\n|[**\u540c\u97f3\u8bcd\u66ff\u6362**](../../wiki/\u6570\u636e\u589e\u5f3a-\u8bf4\u660e\u6587\u6863#user-content-\u540c\u97f3\u8bcd\u66ff\u6362) |homophone_substitution|\u76f8\u540c\u8bfb\u97f3\u8bcd\u6c47\u66ff\u6362\uff0c\u5b9e\u73b0\u6570\u636e\u589e\u5f3a |\u2b50 |\n\n|[\u968f\u673a**\u589e\u5220\u5b57\u7b26**](../../wiki/\u6570\u636e\u589e\u5f3a-\u8bf4\u660e\u6587\u6863#user-content-\u968f\u673a\u589e\u5220\u5b57\u7b26) |random_add_delete|\u968f\u673a\u5728\u6587\u672c\u4e2d\u589e\u52a0\u3001\u5220\u9664\u67d0\u4e2a\u5b57\u7b26\uff0c\u5bf9\u8bed\u4e49\u4e0d\u9020\u6210\u5f71\u54cd | |\n\n|[NER**\u5b9e\u4f53\u66ff\u6362**](../../wiki/\u6570\u636e\u589e\u5f3a-\u8bf4\u660e\u6587\u6863#user-content-ner\u5b9e\u4f53\u66ff\u6362) |replace_entity|\u6839\u636e\u5b9e\u4f53\u8bcd\u5178\uff0c\u968f\u673a\u5728\u6587\u672c\u4e2d\u66ff\u6362\u67d0\u4e2a\u5b9e\u4f53\uff0c\u5bf9\u8bed\u4e49\u4e0d<br>\u9020\u6210\u5f71\u54cd\uff0c\u4e5f\u5e7f\u6cdb\u9002\u7528\u4e8e\u5e8f\u5217\u6807\u6ce8\u3001\u6587\u672c\u5206\u7c7b |\u2b50 |\n\n\n\n\n\n### 3.\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790\n\n\n\n| \u529f\u80fd   | \u51fd\u6570   |\u63cf\u8ff0   |\u661f\u7ea7    |\n\n|--------|--------|-------|-------|\n\n|[**\u6e05\u6d17\u6587\u672c**](../../wiki/\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u6e05\u6d17\u6587\u672c) |clean_text|\u53bb\u9664\u6587\u672c\u4e2d\u7684**\u5f02\u5e38\u5b57\u7b26\u3001\u5197\u4f59\u5b57\u7b26\u3001HTML\u6807\u7b7e\u3001\u62ec\u53f7\u4fe1\u606f\u3001**<br>**URL\u3001E-mail\u3001\u7535\u8bdd\u53f7\u7801\uff0c\u5168\u89d2\u5b57\u6bcd\u6570\u5b57\u8f6c\u6362\u4e3a\u534a\u89d2** |\u2b50 |\n\n|[\u62bd\u53d6 **E-mail**](../../wiki/\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u62bd\u53d6-e-mail) |extract_email|\u62bd\u53d6\u6587\u672c\u4e2d\u7684 E-mail\uff0c\u8fd4\u56de**\u4f4d\u7f6e**\u4e0e**\u57df\u540d** | |\n\n|[\u89e3\u6790 **\u8d27\u5e01\u91d1\u989d**](../../wiki/\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u8d27\u5e01\u91d1\u989d\u89e3\u6790) |extract_money|\u89e3\u6790\u8d27\u5e01\u91d1\u989d\u5b57\u7b26\u4e32 |\u2b50 |\n\n|[\u62bd\u53d6**\u5fae\u4fe1\u53f7**](../../wiki/\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u62bd\u53d6-\u5fae\u4fe1\u53f7) |extract_wechat_id| \u62bd\u53d6\u5fae\u4fe1\u53f7\uff0c\u8fd4\u56de**\u4f4d\u7f6e** | |\n\n|[\u62bd\u53d6**\u7535\u8bdd\u53f7\u7801**](../../wiki/\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u62bd\u53d6\u7535\u8bdd\u53f7\u7801) |extract_phone_number| \u62bd\u53d6\u7535\u8bdd\u53f7\u7801(\u542b**\u624b\u673a\u53f7**\u3001**\u5ea7\u673a\u53f7**)\uff0c\u8fd4\u56de**\u57df\u540d**\u3001**\u7c7b\u578b**\u4e0e**\u4f4d\u7f6e** | |\n\n|[\u62bd\u53d6\u4e2d\u56fd**\u8eab\u4efd\u8bc1** ID](../../wiki/\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u62bd\u53d6\u8eab\u4efd\u8bc1\u53f7) |extract_id_card|\u62bd\u53d6\u8eab\u4efd\u8bc1 ID\uff0c\u914d\u5408 **jio.parse_id_card** \u8fd4\u56de\u8eab\u4efd\u8bc1\u7684<br>\u8be6\u7ec6\u4fe1\u606f(**\u7701\u5e02\u53bf**\u3001**\u51fa\u751f\u65e5\u671f**\u3001**\u6027\u522b**\u3001**\u6821\u9a8c\u7801**)| |\n\n|[\u62bd\u53d6 **QQ** \u53f7](../../wiki/\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u62bd\u53d6-qq) |extract_qq|\u62bd\u53d6 QQ \u53f7\uff0c\u5206\u4e3a\u4e25\u683c\u89c4\u5219\u548c\u5bbd\u677e\u89c4\u5219 | |\n\n|[\u62bd\u53d6 **URL**](../../wiki/\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u62bd\u53d6-url-\u8d85\u94fe\u63a5) |extract_url|\u62bd\u53d6 URL \u8d85\u94fe\u63a5 | |\n\n|[\u62bd\u53d6 **IP**\u5730\u5740](../../wiki/\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u62bd\u53d6-ip-\u5730\u5740) |extract_ip_address|\u62bd\u53d6 IP \u5730\u5740| |\n\n|[\u62bd\u53d6**\u62ec\u53f7**\u4e2d\u7684\u5185\u5bb9](../../wiki/\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u62bd\u53d6\u6587\u672c\u62ec\u53f7\u4fe1\u606f) |extract_parentheses|\u62bd\u53d6\u62ec\u53f7\u5185\u5bb9\uff0c\u5305\u62ec **{}\u300c\u300d[]\u3010\u3011()\uff08\uff09<>\u300a\u300b** |\u2b50 |\n\n|[\u62bd\u53d6**\u8f66\u724c\u53f7**](../../wiki/\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u62bd\u53d6\u8f66\u724c\u53f7) |extract_motor_vehicle_licence_plate|\u62bd\u53d6\u5927\u9646\u8f66\u724c\u53f7\u4fe1\u606f | |\n\n|[\u5220\u9664 **E-mail**](../../wiki/\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u5220\u9664\u6587\u672c\u4e2d\u7684-e-mail) |remove_email|\u5220\u9664\u6587\u672c\u4e2d\u7684 E-mail \u4fe1\u606f | |\n\n|[\u5220\u9664 **URL**](../../wiki/\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u5220\u9664\u6587\u672c\u4e2d\u7684-url) |remove_url |\u5220\u9664\u6587\u672c\u4e2d\u7684 URL \u4fe1\u606f| |\n\n|[\u5220\u9664 **\u7535\u8bdd\u53f7\u7801**](../../wiki/\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u5220\u9664\u7535\u8bdd\u53f7\u7801) |remove_phone_number|\u5220\u9664\u6587\u672c\u4e2d\u7684\u7535\u8bdd\u53f7\u7801 | |\n\n|[\u5220\u9664 **IP\u5730\u5740**](../../wiki/\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u5220\u9664\u6587\u672c\u4e2d\u7684-ip-\u5730\u5740)|remove_ip_address|\u5220\u9664\u6587\u672c\u4e2d\u7684 IP \u5730\u5740 | |\n\n|[\u5220\u9664 **\u8eab\u4efd\u8bc1\u53f7**](../../wiki/\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u5220\u9664\u6587\u672c\u4e2d\u7684\u8eab\u4efd\u8bc1\u53f7) |remove_id_card|\u5220\u9664\u6587\u672c\u4e2d\u7684\u8eab\u4efd\u8bc1\u4fe1\u606f | |\n\n|[\u5220\u9664 **QQ**](../../wiki/\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u5220\u9664\u6587\u672c\u4e2d\u7684-qq-\u53f7) |remove_qq|\u5220\u9664\u6587\u672c\u4e2d\u7684 qq \u53f7| |\n\n|[\u5220\u9664 **HTML**\u6807\u7b7e](../../wiki/\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u5220\u9664\u6587\u672c\u4e2d\u7684-html-\u6807\u7b7e) |remove_html_tag|\u5220\u9664\u6587\u672c\u4e2d\u6b8b\u7559\u7684 HTML \u6807\u7b7e | |\n\n|[\u5220\u9664**\u62ec\u53f7**\u4e2d\u7684\u5185\u5bb9](../../wiki/\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u5220\u9664\u6587\u672c\u62ec\u53f7\u4fe1\u606f) |remove_parentheses|\u5220\u9664\u62ec\u53f7\u5185\u5bb9\uff0c\u5305\u62ec **{}\u300c\u300d[]\u3010\u3011()\uff08\uff09<>\u300a\u300b** | |\n\n|[\u5220\u9664**\u5f02\u5e38**\u5b57\u7b26](../../wiki/\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u5220\u9664\u6587\u672c\u4e2d\u7684\u5f02\u5e38\u5b57\u7b26) |remove_exception_char|\u5220\u9664\u6587\u672c\u4e2d\u5f02\u5e38\u5b57\u7b26\uff0c\u4e3b\u8981\u4fdd\u7559\u6c49\u5b57\u3001\u5e38\u7528\u7684\u6807\u70b9\uff0c<br>\u5355\u4f4d\u8ba1\u7b97\u7b26\u53f7\uff0c\u5b57\u6bcd\u6570\u5b57\u7b49 | |\n\n|[\u5220\u9664**\u5197\u4f59**\u5b57\u7b26](../../wiki/\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u5220\u9664\u6587\u672c\u4e2d\u7684\u5197\u4f59\u5b57\u7b26) |remove_redundant_char|\u5220\u9664\u6587\u672c\u4e2d\u5197\u4f59\u91cd\u590d\u5b57\u7b26 | |\n\n|[\u5f52\u4e00\u5316 **E-mail**](../../wiki/\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u5f52\u4e00\u5316\u6587\u672c\u4e2d\u7684-e-mail) |replace_email|\u5f52\u4e00\u5316\u6587\u672c\u4e2d\u7684 E-mail \u4fe1\u606f\u4e3a\\<email\\> | |\n\n|[\u5f52\u4e00\u5316 **URL**](../../wiki/\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u5f52\u4e00\u5316\u6587\u672c\u4e2d\u7684-url) |replace_url |\u5f52\u4e00\u5316\u6587\u672c\u4e2d\u7684 URL \u4fe1\u606f\u4e3a\\<url\\> | |\n\n|[\u5f52\u4e00\u5316 **\u7535\u8bdd\u53f7\u7801**](../../wiki/\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u5f52\u4e00\u5316\u7535\u8bdd\u53f7\u7801) |replace_phone_number|\u5f52\u4e00\u5316\u6587\u672c\u4e2d\u7684\u7535\u8bdd\u53f7\u7801\u4e3a\\<tel\\> | |\n\n|[\u5f52\u4e00\u5316 **IP\u5730\u5740**](../../wiki/\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u5f52\u4e00\u5316\u6587\u672c\u4e2d\u7684-ip-\u5730\u5740)|replace_ip_address|\u5f52\u4e00\u5316\u6587\u672c\u4e2d\u7684 IP \u5730\u5740\u4e3a\\<ip\\> | |\n\n|[\u5f52\u4e00\u5316 **\u8eab\u4efd\u8bc1\u53f7**](../../wiki/\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u5f52\u4e00\u5316\u6587\u672c\u4e2d\u7684\u8eab\u4efd\u8bc1\u53f7) |replace_id_card|\u5f52\u4e00\u5316\u6587\u672c\u4e2d\u7684\u8eab\u4efd\u8bc1\u4fe1\u606f\u4e3a\\<id\\> | |\n\n|[\u5f52\u4e00\u5316 **QQ**](../../wiki/\u6b63\u5219\u62bd\u53d6\u4e0e\u89e3\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u5f52\u4e00\u5316\u6587\u672c\u4e2d\u7684-qq-\u53f7) |replace_qq|\u5f52\u4e00\u5316\u6587\u672c\u4e2d\u7684 qq \u53f7\u4e3a\\<qq\\> | |\n\n|[\u5224\u65ad\u6587\u672c\u662f\u5426**\u5305\u542b**\u4e2d\u6587\u5b57\u7b26](../../wiki/\u6b63\u5219\u5224\u65ad\u7c7b\u8bf4\u660e\u6587\u6863#user-content-\u5224\u65ad\u5b57\u7b26\u4e32\u4e2d\u662f\u5426\u5305\u542b\u4e2d\u6587\u5b57\u7b26) | check_any_chinese_char | \u68c0\u67e5\u6587\u672c\u4e2d\u662f\u5426\u5305\u542b\u4e2d\u6587\u5b57\u7b26\uff0c\u82e5\u81f3\u5c11\u5305\u542b\u4e00\u4e2a\uff0c\u5219\u8fd4\u56de True | |\n\n|[\u5224\u65ad\u6587\u672c\u662f\u5426**\u5168\u90e8\u662f**\u4e2d\u6587\u5b57\u7b26](../../wiki/\u6b63\u5219\u5224\u65ad\u7c7b\u8bf4\u660e\u6587\u6863#user-content-\u5224\u65ad\u5b57\u7b26\u4e32\u4e2d\u662f\u5426\u5168\u90e8\u4e3a\u4e2d\u6587\u5b57\u7b26) | check_all_chinese_char | \u68c0\u67e5\u6587\u672c\u4e2d\u662f\u5426\u5168\u90e8\u662f\u4e2d\u6587\u5b57\u7b26\uff0c\u82e5\u5168\u90e8\u90fd\u662f\uff0c\u5219\u8fd4\u56de True | |\n\n|[\u5224\u65ad\u6587\u672c\u662f\u5426**\u5305\u542b**\u963f\u62c9\u4f2f\u6570\u5b57](../../wiki/\u6b63\u5219\u5224\u65ad\u7c7b\u8bf4\u660e\u6587\u6863#user-content-\u5224\u65ad\u5b57\u7b26\u4e32\u4e2d\u662f\u5426\u5305\u542b\u963f\u62c9\u4f2f\u6570\u5b57) | check_any_arabic_num | \u68c0\u67e5\u6587\u672c\u4e2d\u662f\u5426\u5305\u542b\u963f\u62c9\u4f2f\u6570\u5b57\uff0c\u82e5\u81f3\u5c11\u5305\u542b\u4e00\u4e2a\uff0c\u5219\u8fd4\u56de True | |\n\n|[\u5224\u65ad\u6587\u672c\u662f\u5426**\u5168\u90e8\u662f**\u963f\u62c9\u4f2f\u6570\u5b57](../../wiki/\u6b63\u5219\u5224\u65ad\u7c7b\u8bf4\u660e\u6587\u6863#user-content-\u5224\u65ad\u5b57\u7b26\u4e32\u4e2d\u662f\u5426\u5168\u90e8\u4e3a\u963f\u62c9\u4f2f\u6570\u5b57) | check_all_arabic_num | \u68c0\u67e5\u6587\u672c\u4e2d\u662f\u5426\u5168\u90e8\u662f\u963f\u62c9\u4f2f\u6570\u5b57\uff0c\u82e5\u5168\u90e8\u90fd\u662f\uff0c\u5219\u8fd4\u56de True | |\n\n\n\n### 4.\u6587\u4ef6\u8bfb\u5199\u5de5\u5177\n\n\n\n| \u529f\u80fd   | \u51fd\u6570   |\u63cf\u8ff0   |\u661f\u7ea7   |\n\n|--------|--------|-------|-------|\n\n|[**\u6309\u884c\u8bfb\u53d6\u6587\u4ef6**](../../wiki/\u6587\u4ef6\u8bfb\u5199-\u8bf4\u660e\u6587\u6863#user-content-\u6587\u4ef6\u8bfb\u53d6iter) |read_file_by_iter |\u4ee5\u8fed\u4ee3\u5668\u5f62\u5f0f\u65b9\u4fbf\u6309\u884c\u8bfb\u53d6\u6587\u4ef6\uff0c\u8282\u7701\u5185\u5b58\uff0c<br>\u652f\u6301\u6307\u5b9a**\u884c\u6570**\uff0c**\u8df3\u8fc7\u7a7a\u884c** ||\n\n|[**\u6309\u884c\u8bfb\u53d6\u6587\u4ef6**](../../wiki/\u6587\u4ef6\u8bfb\u5199-\u8bf4\u660e\u6587\u6863#user-content-\u6587\u4ef6\u8bfb\u53d6list) |read_file_by_line |\u6309\u884c\u8bfb\u53d6\u6587\u4ef6\uff0c\u652f\u6301\u6307\u5b9a**\u884c\u6570**\uff0c**\u8df3\u8fc7\u7a7a\u884c** |\u2b50 |\n\n|[\u5c06 list \u4e2d\u5143\u7d20\u6309\u884c\u5199\u5165\u6587\u4ef6](../../wiki/\u6587\u4ef6\u8bfb\u5199-\u8bf4\u660e\u6587\u6863#user-content-\u6587\u4ef6\u5199\u5165) |write_file_by_line| \u5c06 list \u4e2d\u5143\u7d20\u6309\u884c\u5199\u5165\u6587\u4ef6 |\u2b50 |\n\n|[\u8ba1\u65f6\u5de5\u5177](../../wiki/\u6587\u4ef6\u8bfb\u5199-\u8bf4\u660e\u6587\u6863#user-content-\u8ba1\u65f6\u5668) |TimeIt | \u7edf\u8ba1\u67d0\u4e00\u4ee3\u7801\u6bb5\u7684\u8017\u65f6 | |\n\n|[\u65e5\u5fd7\u5de5\u5177](../../wiki/\u6587\u4ef6\u8bfb\u5199-\u8bf4\u660e\u6587\u6863#user-content-\u65e5\u5fd7\u5904\u7406\u8bbe\u7f6e\u51fd\u6570) |set_logger |\u8c03\u6574\u5de5\u5177\u5305\u65e5\u5fd7\u8f93\u51fa\u5f62\u5f0f | |\n\n\n\n### 5.\u8bcd\u5178\u52a0\u8f7d\u4e0e\u4f7f\u7528\n\n\n\n| \u529f\u80fd | \u51fd\u6570 | \u63cf\u8ff0 |\u661f\u7ea7  |\n\n|-----|-----|------|------|\n\n|[\u5927\u8bed\u8a00\u6a21\u578b LLM \u8bc4\u6d4b\u6570\u636e\u96c6](https://github.com/dongrixinyu/JioNLP/wiki/LLM%E8%AF%84%E6%B5%8B%E6%95%B0%E6%8D%AE%E9%9B%86)|jio.llm_test_dataset_loader | LLM \u8bc4\u6d4b\u6570\u636e\u96c6 |\u2b50|\n\n|[**Byte-level BPE**](../../wiki/BPE\u7b97\u6cd5\u8bf4\u660e\u6587\u6863) | jio.bpe.byte_level_bpe |Byte-level-BPE \u7b97\u6cd5|\u2b50|\n\n|**\u505c\u7528\u8bcd\u8bcd\u5178** | jio.stopwords_loader() | \u7efc\u5408\u4e86\u767e\u5ea6\u3001jieba\u3001\u8baf\u98de\u7b49\u7684\u505c\u7528\u8bcd\u8bcd\u5178 |  |\n\n|[**\u6210\u8bed**\u8bcd\u5178](../../wiki/\u8bcd\u5178\u52a0\u8f7d-\u8bf4\u660e\u6587\u6863#user-content-\u52a0\u8f7d\u6210\u8bed\u8bcd\u5178) |chinese_idiom_loader|\u52a0\u8f7d\u6210\u8bed\u8bcd\u5178 |\u2b50|\n\n|[**\u6b47\u540e\u8bed**\u8bcd\u5178](../../wiki/\u8bcd\u5178\u52a0\u8f7d-\u8bf4\u660e\u6587\u6863#user-content-\u52a0\u8f7d\u6b47\u540e\u8bed\u8bcd\u5178) |xiehouyu_loader|\u52a0\u8f7d\u6b47\u540e\u8bed\u8bcd\u5178 |\u2b50|\n\n|[**\u4e2d\u56fd\u5730\u540d**\u8bcd\u5178](../../wiki/\u8bcd\u5178\u52a0\u8f7d-\u8bf4\u660e\u6587\u6863#user-content-\u52a0\u8f7d\u4e2d\u56fd\u7701\u5e02\u53bf\u5730\u540d\u8bcd\u5178) |china_location_loader|\u52a0\u8f7d\u4e2d\u56fd**\u7701\u3001\u5e02\u3001\u53bf**\u4e09\u7ea7\u8bcd\u5178 |\u2b50|\n\n|[**\u4e2d\u56fd\u533a\u5212\u8c03\u6574**\u8bcd\u5178](../../wiki/\u8bcd\u5178\u52a0\u8f7d-\u8bf4\u660e\u6587\u6863#user-content-\u52a0\u8f7d\u4e2d\u56fd\u533a\u5212\u8c03\u6574\u8bcd\u5178) |china_location_change_loader|\u52a0\u8f7d 2018 \u5e74\u4ee5\u6765\u4e2d\u56fd**\u53bf\u7ea7**\u4ee5\u4e0a\u533a\u5212\u8c03\u6574\u66f4\u540d\u8bb0\u5f55 |\u2b50|\n\n|[**\u4e16\u754c\u5730\u540d**\u8bcd\u5178](../../wiki/\u8bcd\u5178\u52a0\u8f7d-\u8bf4\u660e\u6587\u6863#user-content-\u52a0\u8f7d\u4e16\u754c\u56fd\u5bb6\u57ce\u5e02\u5730\u540d\u8bcd\u5178) |world_location_loader|\u52a0\u8f7d\u4e16\u754c**\u5927\u6d32\u3001\u56fd\u5bb6\u3001\u57ce\u5e02**\u8bcd\u5178 | |\n\n|[\u65b0\u534e**\u5b57**\u5178](../../wiki/\u8bcd\u5178\u52a0\u8f7d-\u8bf4\u660e\u6587\u6863#user-content-\u52a0\u8f7d\u65b0\u534e\u5b57\u5178) |chinese_char_dictionary_loader|\u52a0\u8f7d\u65b0\u534e\u5b57\u5178 | |\n\n|[\u65b0\u534e**\u8bcd**\u5178](../../wiki/\u8bcd\u5178\u52a0\u8f7d-\u8bf4\u660e\u6587\u6863#user-content-\u52a0\u8f7d\u65b0\u534e\u8bcd\u5178) |chinese_word_dictionary_loader|\u52a0\u8f7d\u65b0\u534e\u8bcd\u5178 | |\n\n\n\n### 6.\u5b9e\u4f53\u8bc6\u522b(NER)\u7b97\u6cd5\u8f85\u52a9\u5de5\u5177\u96c6\n\n\n\n- [\u5de5\u5177\u5305 NER \u6570\u636e\u89c4\u5b9a\u8bf4\u660e](../../wiki/NER-\u8bf4\u660e\u6587\u6863#user-content-\u524d\u8a00)\n\n\n\n| \u529f\u80fd   | \u51fd\u6570   |\u63cf\u8ff0   |\u661f\u7ea7   |\n\n|--------|--------|-------|-------|\n\n|[\u62bd\u53d6**\u8d27\u5e01\u91d1\u989d\u5b9e\u4f53**](../../wiki/NER-\u8bf4\u660e\u6587\u6863#user-content-\u8d27\u5e01\u91d1\u989d\u5b9e\u4f53\u62bd\u53d6) |extract_money |\u4ece\u6587\u672c\u4e2d\u62bd\u53d6\u51fa\u8d27\u5e01\u91d1\u989d\u5b9e\u4f53 |\u2b50 |\n\n|[\u62bd\u53d6**\u65f6\u95f4\u5b9e\u4f53**](../../wiki/NER-\u8bf4\u660e\u6587\u6863#user-content-\u65f6\u95f4\u5b9e\u4f53\u62bd\u53d6) |extract_time |\u4ece\u6587\u672c\u4e2d\u62bd\u53d6\u51fa\u65f6\u95f4\u5b9e\u4f53 |\u2b50 |\n\n|[\u57fa\u4e8e**\u8bcd\u5178NER**](../../wiki/NER-\u8bf4\u660e\u6587\u6863#user-content-\u57fa\u4e8e\u8bcd\u5178-ner) |LexiconNER|\u4f9d\u636e\u6307\u5b9a\u7684\u5b9e\u4f53\u8bcd\u5178\uff0c\u524d\u5411\u6700\u5927\u5339\u914d\u5b9e\u4f53 |\u2b50 |\n\n|[**entity \u8f6c tag**](../../wiki/NER-\u8bf4\u660e\u6587\u6863#user-content-entity-\u8f6c-tag) |entity2tag|\u5c06 json \u683c\u5f0f\u5b9e\u4f53\u8f6c\u6362\u4e3a\u6a21\u578b\u5904\u7406\u7684 tag \u5e8f\u5217 | |\n\n|[**tag \u8f6c entity**](../../wiki/NER-\u8bf4\u660e\u6587\u6863#user-content-tag-\u8f6c-entity) |tag2entity|\u5c06\u6a21\u578b\u5904\u7406\u7684 tag \u5e8f\u5217\u8f6c\u6362\u4e3a json \u683c\u5f0f\u5b9e\u4f53 | |\n\n|[**\u5b57** token \u8f6c**\u8bcd** token](../../wiki/NER-\u8bf4\u660e\u6587\u6863#user-content-\u5b57-token-\u8f6c\u8bcd-token) |char2word|\u5c06\u5b57\u7b26\u7ea7\u522b token \u8f6c\u6362\u4e3a\u8bcd\u6c47\u7ea7\u522b token | |\n\n|[**\u8bcd** token \u8f6c**\u5b57** token](../../wiki/NER-\u8bf4\u660e\u6587\u6863#user-content-\u8bcd-token-\u8f6c\u5b57-token) |word2char|\u5c06\u8bcd\u6c47\u7ea7\u522b token \u8f6c\u6362\u4e3a\u5b57\u7b26\u7ea7\u522b token | |\n\n|[\u6bd4\u8f83\u6807\u6ce8\u4e0e\u6a21\u578b\u9884\u6d4b\u7684**\u5b9e\u4f53\u5dee\u5f02**](../../wiki/NER-\u8bf4\u660e\u6587\u6863#user-content-\u6bd4\u8f83-ner-\u6807\u6ce8\u5b9e\u4f53\u4e0e\u6a21\u578b\u9884\u6d4b\u5b9e\u4f53\u4e4b\u95f4\u7684\u5dee\u5f02) |entity_compare|\u9488\u5bf9\u4eba\u5de5\u6807\u6ce8\u7684\u5b9e\u4f53\uff0c\u4e0e\u6a21\u578b\u9884\u6d4b\u51fa\u7684\u5b9e\u4f53\u7ed3\u679c<br>\uff0c\u505a\u5dee\u5f02\u6bd4\u5bf9 |\u2b50 |\n\n|[NER\u6a21\u578b**\u9884\u6d4b\u52a0\u901f**](../../wiki/NER-\u8bf4\u660e\u6587\u6863#user-content-ner-\u6a21\u578b\u9884\u6d4b\u52a0\u901f) |TokenSplitSentence<br>TokenBreakLongSentence<br>TokenBatchBucket|\u5bf9 NER \u6a21\u578b\u9884\u6d4b\u5e76\u884c\u52a0\u901f\u7684\u65b9\u6cd5  |\u2b50 |\n\n|[**\u5206\u5272\u6570\u636e\u96c6**](../../wiki/NER-\u8bf4\u660e\u6587\u6863#user-content-\u5206\u5272\u6570\u636e\u96c6) |analyse_dataset|\u5bf9 NER \u6807\u6ce8\u8bed\u6599\uff0c\u5206\u4e3a\u8bad\u7ec3\u96c6\u3001\u9a8c\u8bc1\u96c6\u3001\u6d4b\u8bd5\u96c6\uff0c\u5e76\u7ed9\u51fa\u5404\u4e2a\u5b50\u96c6\u7684\u5b9e\u4f53\u7c7b\u578b\u5206\u5e03\u7edf\u8ba1 |\u2b50 |\n\n|[\u5b9e\u4f53**\u6536\u96c6**](../../wiki/NER-\u8bf4\u660e\u6587\u6863#user-content-\u5b9e\u4f53\u6536\u96c6) |collect_dataset_entities|\u5c06\u6807\u6ce8\u8bed\u6599\u4e2d\u7684\u5b9e\u4f53\u6536\u96c6\u8d77\u6765\uff0c\u5f62\u6210\u8bcd\u5178 | |\n\n\n\n\n\n### 7.\u6587\u672c\u5206\u7c7b\n\n\n\n| \u529f\u80fd   | \u51fd\u6570   |\u63cf\u8ff0   |\u661f\u7ea7   |\n\n|--------|--------|-------|------|\n\n|[\u6734\u7d20\u8d1d\u53f6\u65af**\u5206\u6790\u7c7b\u522b\u8bcd\u6c47**](../../wiki/\u6587\u672c\u5206\u7c7b-\u8bf4\u660e\u6587\u6863#user-content-\u6734\u7d20\u8d1d\u53f6\u65af\u5206\u6790\u7c7b\u522b\u8bcd\u6c47) |analyse_freq_words|\u5bf9\u6587\u672c\u5206\u7c7b\u7684\u6807\u6ce8\u8bed\u6599\uff0c\u505a\u6734\u7d20\u8d1d\u53f6\u65af\u8bcd\u9891\u5206\u6790\uff0c\u8fd4\u56de\u5404\u7c7b<br>\u6587\u672c\u7684\u9ad8\u6761\u4ef6\u6982\u7387\u8bcd\u6c47 |\u2b50 |\n\n|[**\u5206\u5272\u6570\u636e\u96c6**](../../wiki/\u6587\u672c\u5206\u7c7b-\u8bf4\u660e\u6587\u6863#user-content-\u5206\u5272\u6570\u636e\u96c6) |analyse_dataset|\u5bf9\u6587\u672c\u5206\u7c7b\u7684\u6807\u6ce8\u8bed\u6599\uff0c\u5207\u5206\u4e3a\u8bad\u7ec3\u96c6\u3001\u9a8c\u8bc1\u96c6\u3001\u6d4b\u8bd5\u96c6\uff0c<br>\u5e76\u7ed9\u51fa\u5404\u4e2a\u5b50\u96c6\u7684\u5206\u7c7b\u5206\u5e03\u7edf\u8ba1 |\u2b50 |\n\n\n\n\n\n### 8.\u60c5\u611f\u5206\u6790\n\n\n\n| \u529f\u80fd   | \u51fd\u6570   |\u63cf\u8ff0   |\u661f\u7ea7   |\n\n|--------|--------|-------|-------|\n\n|[\u57fa\u4e8e**\u8bcd\u5178\u60c5\u611f\u5206\u6790**](../../wiki/\u60c5\u611f\u5206\u6790-\u8bf4\u660e\u6587\u6863#user-content-\u57fa\u4e8e\u8bcd\u5178\u7684\u60c5\u611f\u5206\u6790) |LexiconSentiment|\u4f9d\u636e\u4eba\u5de5\u6784\u5efa\u7684\u60c5\u611f\u8bcd\u5178\uff0c\u8ba1\u7b97\u6587\u672c\u7684\u60c5\u611f\u503c\uff0c\u4ecb\u4e8e0~1\u4e4b\u95f4 | |\n\n\n\n### 9.\u5206\u8bcd\n\n| \u529f\u80fd   | \u51fd\u6570   |\u63cf\u8ff0   |\u661f\u7ea7   |\n\n|--------|--------|-------|-------|\n\n|[**word \u8f6c tag**](../../wiki/\u5206\u8bcd-\u8bf4\u660e\u6587\u6863#user-content-word-\u8f6c-tag) |cws.word2tag|\u5c06 json \u683c\u5f0f\u5206\u8bcd\u5e8f\u5217\u8f6c\u6362\u4e3a\u6a21\u578b\u5904\u7406\u7684 tag \u5e8f\u5217 | |\n\n|[**tag \u8f6c word**](../../wiki/\u5206\u8bcd-\u8bf4\u660e\u6587\u6863#user-content-tag-\u8f6c-word) |cws.tag2word|\u5c06\u6a21\u578b\u5904\u7406\u7684 tag \u5e8f\u5217\u8f6c\u6362\u4e3a json \u683c\u5f0f\u5206\u8bcd | |\n\n|[**\u7edf\u8ba1F1\u503c**](../../wiki/\u5206\u8bcd-\u8bf4\u660e\u6587\u6863#user-content-\u7edf\u8ba1-f1-\u503c) |cws.f1|\u6bd4\u5bf9\u5206\u8bcd\u6807\u6ce8\u6807\u7b7e\u4e8e\u6a21\u578b\u9884\u6d4b\u6807\u7b7e\u7684F1\u503c | |\n\n|[**\u5206\u8bcd\u6570\u636e\u77eb\u6b63-\u6807\u51c6\u8bcd\u5178**](../../wiki/\u5206\u8bcd-\u8bf4\u660e\u6587\u6863#user-content-\u5206\u8bcd\u6570\u636e\u77eb\u6b63-\u6807\u51c6\u8bcd\u5178) |cws.CWSDCWithStandardWords |\u4f7f\u7528\u6807\u51c6\u8bcd\u5178\u5bf9\u5206\u8bcd\u6807\u6ce8\u6570\u636e\u8fdb\u884c\u77eb\u6b63\u548c\u4fee\u590d | |\n\n\n\n### \u6587\u732e\u5f15\u7528\n\n\n\n- \u82e5\u8bba\u6587\u9700\u8981\u8fdb\u884c\u5f15\u7528\uff0c\u53ef\u590d\u5236\u4ee5\u4e0b\u5f15\u7528\uff1a\n\n\n\n> Chengyu Cui, JioNLP, (2020), GitHub repository, https://github.com/dongrixinyu/JioNLP\n\n\n\n### \u521d\u8877\n\n\n\n- NLP \u9884\u5904\u7406\u4e0e\u89e3\u6790\u81f3\u5173\u91cd\u8981\uff0c\u4e14\u975e\u5e38\u8017\u65f6\u3002\u672c lib \u80fd\u5feb\u901f\u8f85\u52a9\u5b8c\u6210\u5404\u79cd\u7410\u788e\u7684\u9884\u5904\u7406\u3001\u89e3\u6790\u64cd\u4f5c\uff0c\u52a0\u901f\u5f00\u53d1\u8fdb\u5ea6\uff0c\u628a\u6709\u9650\u7684\u7cbe\u529b\u7528\u5728\u601d\u8003\u800c\u975e code \u4e0a\u3002\n\n- \u5982\u6709\u529f\u80fd\u5efa\u8bae\u3001bug\uff0c\u53ef\u901a\u8fc7 issue \u6309\u6a21\u677f\u63d0\u51fa\u3002\n\n- \u975e\u5e38\u6b22\u8fce\u5404\u4f4d NLP \u5f00\u53d1\u8005\u548c\u7814\u7a76\u8005 **\u5408\u4f5c\u5b8c\u5584\u672c\u5de5\u5177\u5305\uff0c\u6dfb\u52a0\u65b0\u529f\u80fd** \u3002\n\n\n\n### \u5982\u672c\u5de5\u5177\u5bf9\u60a8\u6709\u5e2e\u52a9\uff0c\u8bf7\u70b9\u4e00\u4e0b\u53f3\u4e0a\u89d2 star \u2b50\n\n### \u6216\u8005\u626b\u7801\u8bf7\u4f5c\u8005\u559d\u676f\u5496\u5561 (\u25cf'\u25e1'\u25cf)\uff0c\u5f00\u6e90\u9879\u76ee\u5b8c\u5168\u7528\u7231\u53d1\u7535\uff0c\u8c22\u8c22\u5566\uff01\u63a8\u8350\u4f18\u5148\u4f7f\u7528\u3010\u652f\u4ed8\u5b9d\u3011 ~~\n\n- \u611f\u8c22[\u81f4\u8c22](../../wiki/\u81f4\u8c22\u7bc7)\u540d\u5355\u4e2d\u8d5e\u52a9\u7684\u5c0f\u4f19\u4f34\u4eec\uff0c\u4f60\u4eec\u7684\u6253\u8d4f\u8ba9\u6211\u66f4\u6709\u52a8\u529b\n\n\n\n<p align=\"center\">\n\n    <a alt=\"jionlp logo\">\n\n        <img src=\"../../blob/master/image/payment_code.jpg\" style=\"width:500px;height:380px\">\n\n    </a>\n\n</p>\n\n\n\n### \u505a NLP\u4e0d\u6613\uff0c\u6b22\u8fce\u52a0\u5165\u81ea\u7136\u8bed\u8a00\u5904\u7406 Wechat \u4ea4\u6d41\u7fa4\n\n### \u8bf7\u626b\u4ee5\u4e0b\u7801\uff0c\u6216wx\u641c\u7d22\u516c\u4f17\u53f7JioNLP\u201d\uff0c\u5173\u6ce8\u5e76\u56de\u590d\u3010\u8fdb\u7fa4\u3011\n\n<p align=\"center\">\n\n    <a alt=\"jionlp logo\">\n\n        <img src=\"../../blob/master/image/qrcode_for_gh.jpg\" style=\"width:200px;height:200px\">\n\n    </a>\n\n</p>\n\n\n\n\n",
    "bugtrack_url": null,
    "license": "Apache License 2.0",
    "summary": "Chinese NLP Preprocessing & Parsing",
    "version": "1.5.27",
    "project_urls": {
        "Homepage": "https://github.com/dongrixinyu/JioNLP"
    },
    "split_keywords": [],
    "urls": [
        {
            "comment_text": "",
            "digests": {
                "blake2b_256": "e289155232138e74cdce58742d574e962fffb8dabb8c020330048be723645b83",
                "md5": "1c333356ae3337f6b9fe338c2f5db78e",
                "sha256": "3fc1d5108cbda4e62b7cd234712a0a6e82e4d6ed5db927fff4b0be3bed378aec"
            },
            "downloads": -1,
            "filename": "jionlp-1.5.27-py2.py3-none-any.whl",
            "has_sig": false,
            "md5_digest": "1c333356ae3337f6b9fe338c2f5db78e",
            "packagetype": "bdist_wheel",
            "python_version": "py2.py3",
            "requires_python": null,
            "size": 16324628,
            "upload_time": "2025-10-30T12:37:08",
            "upload_time_iso_8601": "2025-10-30T12:37:08.861356Z",
            "url": "https://files.pythonhosted.org/packages/e2/89/155232138e74cdce58742d574e962fffb8dabb8c020330048be723645b83/jionlp-1.5.27-py2.py3-none-any.whl",
            "yanked": false,
            "yanked_reason": null
        }
    ],
    "upload_time": "2025-10-30 12:37:08",
    "github": true,
    "gitlab": false,
    "bitbucket": false,
    "codeberg": false,
    "github_user": "dongrixinyu",
    "github_project": "JioNLP",
    "travis_ci": false,
    "coveralls": false,
    "github_actions": false,
    "requirements": [
        {
            "name": "numpy",
            "specs": []
        },
        {
            "name": "jiojio",
            "specs": []
        },
        {
            "name": "requests",
            "specs": []
        },
        {
            "name": "zipfile36",
            "specs": []
        }
    ],
    "lcname": "jionlp"
}
        
Elapsed time: 2.88006s