cnki-html2json


Namecnki-html2json JSON
Version 0.1.10 PyPI version JSON
download
home_page
SummaryA package for converting cnki journal papers' html to json
upload_time2023-06-27 04:56:52
maintainer
docs_urlNone
author
requires_python>=3.8
licenseMIT
keywords cnki text structure crawler
VCS
bugtrack_url
requirements No requirements were recorded.
Travis-CI No Travis.
coveralls test coverage No coveralls.
            # 从知网HTML格式的文献中提取结构化文本

本仓库是一个从知网HTML格式的期刊论文中提取结构化文本,然后导出JSON文件的工具,方便对中文期刊论文进行全文分析。

最近更新:  
- `v0.1.8` 优化爬虫策略,适当提高了爬取速度;
- `v0.1.5` 对解析论文HTML字符串的方法进行重构,提高了解析的准确率;

核心功能:
- 从期刊论文的HTML字符串中解析出包含两级子章节的结构化文本;
- 实现一个Selenium爬虫,可以批量获取所需文献的结构化文本;
- 提供三种模式,既可以导出结构化文本,也可以导出非结构化的纯文本;
  - `structure` 导出结构化文本,包含两级子章节对应的正文和参考文献索引;
  - `raw` 与 `structure` 模式相似,但是会在正文中保留参考文献标签,如[1,2],以及换行符等;
  - `plain` 导出纯文本,不含章节结构;
  - 以上三种模式都包含参考文献,可以参考 [examples](examples) 文件夹中给出的样例;

使用限制:
- 确保所在的网络环境能正常使用知网;
- 仅能提取期刊论文,其他文献类型未做测试;
- 无法提取文献中的图片、表格等,因此提取的内容可能不完整;
- 本工具已经尽力覆盖大多数情况,但不能保证每一篇文献都能正常提取;

## 快速开始
本工具使用 Python 开发,请确保电脑上安装了 Python3.8 或以上版本。如果使用爬虫,需要提前配置好对应浏览器的驱动,例如Chrome的驱动为 [ChromeDriver](https://chromedriver.chromium.org/downloads)

```console
$ pip install cnki_html2json
```

## 使用方法
1、函数调用,解析单篇文献的HTML字符串

```python
from cnki_html2json.html2json import ExtractContent
with open('paper.html', 'r', encoding='utf-8') as f:
    raw_html = f.read()
print(ExtractContent(raw_html).extract(mode='raw',export_path=None))
```
`extract` 函数参数说明:

| 参数 | 说明 |
| --- | --- |
| `mode` | 可选值为 `structure`, `plain`, `raw`,默认为 `raw` |
| `export_path` | 保存结果的路径,默认为 `None` ,则不保存文件 |

> 函数返回值说明:参考 [examples](examples) 文件夹中给出的样例,调用该函数得到的结果仅包含正文内容和参考文献,不包括文献元数据。

2、使用命令行工具,启动Selenium爬虫,在弹出的浏览器窗口(默认为Chrome)中完成检索,默认120秒后开始爬取

```console
$ 无需设置任何参数,在终端中输入以下指令即可启动爬虫
$ cnki-crawler
```
```console
$ 设置论文提取的起始索引和终止索引,模式设置为structure,记录日志
$ cnki-crawler -s 1 -e 100 -m structure -l
$ 或者是
$ cnki-crawler --start_paper_index 1 --end_paper_index 100 -mode structure --log
```

命令行工具参数说明:
|  | 参数 | 说明 |
| --- | --- | --- |
| -s | --start_paper_index | 论文提取的起始索引,默认为 `1`,从第一篇开始下载 |
| -e | --end_paper_index | 论文提取的终止索引,默认为 `None`,爬取到最后 |
| -m | --mode | 模式,可选值为 `raw(default)`、`structure`、`plain`|
| -b | --browser | 浏览器类型,可选值为 `Chrome(default)`、`Edge`、`Firefox`|
| -save | --save_path | 下载文件的保存路径,默认为当前目录的 `dataset` 文件夹 |
| -wait | --wait_time | 为检索预留的等待时间,默认 `120` 秒 |
| -l | --log | 是否记录日志,指定该参数则保存日志,无需传值,</br>日志将保存在 `save_path` 下的 `log` 文件夹中 |

> 如果未指定保存路径,将下载结果默认保存在当前目录的 `dataset` 文件夹中;  
由于提取的是文献全文,1分钟大概能下载4篇文献,可以放到夜间运行 (自动过滑块验证);

## JSON文件字段说明
| 一级字段 | 二级字段 | 三级字段 | 说明 |
| --- | --- | --- | --- |
| metadata | title |  | 论文标题 |
|  | authors |  | 论文作者 |
|  | orgs |  | 作者所属机构 |
|  | abstract |  | 论文摘要 |
|  | keywords |  | 论文关键词 |
|  | funds |  | 基金资助 |
|  | class_num |  | 分类号 |
|  | source |  | 来源期刊 |
|  | issue |  | 期 |
| body_text | 1.xxx(一级章节标题) | 1.1xxx(二级章节标题) | reference_index对应本章节的参考文献索引;text对应本章节的文本 |
|  | 2.xxx | 2.1xxx |  |
|  | ...| ... |  |
| other | 作者贡献声明 |  |  |
|  | 利益冲突声明 |  |  |
|  | 参考文献 |  |  |

## 开源协议
本项目使用 [MIT](LICENSE) 协议,具体可查看 [LICENSE](LICENSE) 文件。

            

Raw data

            {
    "_id": null,
    "home_page": "",
    "name": "cnki-html2json",
    "maintainer": "",
    "docs_url": null,
    "requires_python": ">=3.8",
    "maintainer_email": "",
    "keywords": "cnki,text structure,crawler",
    "author": "",
    "author_email": "WangK2 <kw221225@gmail.com>",
    "download_url": "https://files.pythonhosted.org/packages/b1/c3/8afc2e17337ee0ac36a8b26bc41c1ffd9ade5c81d10d7b21c8b6b4f445f2/cnki-html2json-0.1.10.tar.gz",
    "platform": null,
    "description": "# \u4ece\u77e5\u7f51HTML\u683c\u5f0f\u7684\u6587\u732e\u4e2d\u63d0\u53d6\u7ed3\u6784\u5316\u6587\u672c\n\n\u672c\u4ed3\u5e93\u662f\u4e00\u4e2a\u4ece\u77e5\u7f51HTML\u683c\u5f0f\u7684\u671f\u520a\u8bba\u6587\u4e2d\u63d0\u53d6\u7ed3\u6784\u5316\u6587\u672c\uff0c\u7136\u540e\u5bfc\u51faJSON\u6587\u4ef6\u7684\u5de5\u5177\uff0c\u65b9\u4fbf\u5bf9\u4e2d\u6587\u671f\u520a\u8bba\u6587\u8fdb\u884c\u5168\u6587\u5206\u6790\u3002\n\n\u6700\u8fd1\u66f4\u65b0\uff1a  \n- `v0.1.8` \u4f18\u5316\u722c\u866b\u7b56\u7565\uff0c\u9002\u5f53\u63d0\u9ad8\u4e86\u722c\u53d6\u901f\u5ea6\uff1b\n- `v0.1.5` \u5bf9\u89e3\u6790\u8bba\u6587HTML\u5b57\u7b26\u4e32\u7684\u65b9\u6cd5\u8fdb\u884c\u91cd\u6784\uff0c\u63d0\u9ad8\u4e86\u89e3\u6790\u7684\u51c6\u786e\u7387\uff1b\n\n\u6838\u5fc3\u529f\u80fd\uff1a\n- \u4ece\u671f\u520a\u8bba\u6587\u7684HTML\u5b57\u7b26\u4e32\u4e2d\u89e3\u6790\u51fa\u5305\u542b\u4e24\u7ea7\u5b50\u7ae0\u8282\u7684\u7ed3\u6784\u5316\u6587\u672c\uff1b\n- \u5b9e\u73b0\u4e00\u4e2aSelenium\u722c\u866b\uff0c\u53ef\u4ee5\u6279\u91cf\u83b7\u53d6\u6240\u9700\u6587\u732e\u7684\u7ed3\u6784\u5316\u6587\u672c\uff1b\n- \u63d0\u4f9b\u4e09\u79cd\u6a21\u5f0f\uff0c\u65e2\u53ef\u4ee5\u5bfc\u51fa\u7ed3\u6784\u5316\u6587\u672c\uff0c\u4e5f\u53ef\u4ee5\u5bfc\u51fa\u975e\u7ed3\u6784\u5316\u7684\u7eaf\u6587\u672c\uff1b\n  - `structure` \u5bfc\u51fa\u7ed3\u6784\u5316\u6587\u672c\uff0c\u5305\u542b\u4e24\u7ea7\u5b50\u7ae0\u8282\u5bf9\u5e94\u7684\u6b63\u6587\u548c\u53c2\u8003\u6587\u732e\u7d22\u5f15\uff1b\n  - `raw` \u4e0e `structure` \u6a21\u5f0f\u76f8\u4f3c\uff0c\u4f46\u662f\u4f1a\u5728\u6b63\u6587\u4e2d\u4fdd\u7559\u53c2\u8003\u6587\u732e\u6807\u7b7e\uff0c\u5982[1,2]\uff0c\u4ee5\u53ca\u6362\u884c\u7b26\u7b49\uff1b\n  - `plain` \u5bfc\u51fa\u7eaf\u6587\u672c\uff0c\u4e0d\u542b\u7ae0\u8282\u7ed3\u6784\uff1b\n  - \u4ee5\u4e0a\u4e09\u79cd\u6a21\u5f0f\u90fd\u5305\u542b\u53c2\u8003\u6587\u732e\uff0c\u53ef\u4ee5\u53c2\u8003 [examples](examples) \u6587\u4ef6\u5939\u4e2d\u7ed9\u51fa\u7684\u6837\u4f8b\uff1b\n\n\u4f7f\u7528\u9650\u5236\uff1a\n- \u786e\u4fdd\u6240\u5728\u7684\u7f51\u7edc\u73af\u5883\u80fd\u6b63\u5e38\u4f7f\u7528\u77e5\u7f51\uff1b\n- \u4ec5\u80fd\u63d0\u53d6\u671f\u520a\u8bba\u6587\uff0c\u5176\u4ed6\u6587\u732e\u7c7b\u578b\u672a\u505a\u6d4b\u8bd5\uff1b\n- \u65e0\u6cd5\u63d0\u53d6\u6587\u732e\u4e2d\u7684\u56fe\u7247\u3001\u8868\u683c\u7b49\uff0c\u56e0\u6b64\u63d0\u53d6\u7684\u5185\u5bb9\u53ef\u80fd\u4e0d\u5b8c\u6574\uff1b\n- \u672c\u5de5\u5177\u5df2\u7ecf\u5c3d\u529b\u8986\u76d6\u5927\u591a\u6570\u60c5\u51b5\uff0c\u4f46\u4e0d\u80fd\u4fdd\u8bc1\u6bcf\u4e00\u7bc7\u6587\u732e\u90fd\u80fd\u6b63\u5e38\u63d0\u53d6\uff1b\n\n## \u5feb\u901f\u5f00\u59cb\n\u672c\u5de5\u5177\u4f7f\u7528 Python \u5f00\u53d1\uff0c\u8bf7\u786e\u4fdd\u7535\u8111\u4e0a\u5b89\u88c5\u4e86 Python3.8 \u6216\u4ee5\u4e0a\u7248\u672c\u3002\u5982\u679c\u4f7f\u7528\u722c\u866b\uff0c\u9700\u8981\u63d0\u524d\u914d\u7f6e\u597d\u5bf9\u5e94\u6d4f\u89c8\u5668\u7684\u9a71\u52a8\uff0c\u4f8b\u5982Chrome\u7684\u9a71\u52a8\u4e3a [ChromeDriver](https://chromedriver.chromium.org/downloads)\n\n```console\n$ pip install cnki_html2json\n```\n\n## \u4f7f\u7528\u65b9\u6cd5\n1\u3001\u51fd\u6570\u8c03\u7528\uff0c\u89e3\u6790\u5355\u7bc7\u6587\u732e\u7684HTML\u5b57\u7b26\u4e32\n\n```python\nfrom cnki_html2json.html2json import ExtractContent\nwith open('paper.html', 'r', encoding='utf-8') as f:\n    raw_html = f.read()\nprint(ExtractContent(raw_html).extract(mode='raw',export_path=None))\n```\n`extract` \u51fd\u6570\u53c2\u6570\u8bf4\u660e\uff1a\n\n| \u53c2\u6570 | \u8bf4\u660e |\n| --- | --- |\n| `mode` | \u53ef\u9009\u503c\u4e3a `structure`, `plain`, `raw`\uff0c\u9ed8\u8ba4\u4e3a `raw` |\n| `export_path` | \u4fdd\u5b58\u7ed3\u679c\u7684\u8def\u5f84\uff0c\u9ed8\u8ba4\u4e3a `None` \uff0c\u5219\u4e0d\u4fdd\u5b58\u6587\u4ef6 |\n\n> \u51fd\u6570\u8fd4\u56de\u503c\u8bf4\u660e\uff1a\u53c2\u8003 [examples](examples) \u6587\u4ef6\u5939\u4e2d\u7ed9\u51fa\u7684\u6837\u4f8b\uff0c\u8c03\u7528\u8be5\u51fd\u6570\u5f97\u5230\u7684\u7ed3\u679c\u4ec5\u5305\u542b\u6b63\u6587\u5185\u5bb9\u548c\u53c2\u8003\u6587\u732e\uff0c\u4e0d\u5305\u62ec\u6587\u732e\u5143\u6570\u636e\u3002\n\n2\u3001\u4f7f\u7528\u547d\u4ee4\u884c\u5de5\u5177\uff0c\u542f\u52a8Selenium\u722c\u866b\uff0c\u5728\u5f39\u51fa\u7684\u6d4f\u89c8\u5668\u7a97\u53e3(\u9ed8\u8ba4\u4e3aChrome)\u4e2d\u5b8c\u6210\u68c0\u7d22\uff0c\u9ed8\u8ba4120\u79d2\u540e\u5f00\u59cb\u722c\u53d6\n\n```console\n$ \u65e0\u9700\u8bbe\u7f6e\u4efb\u4f55\u53c2\u6570\uff0c\u5728\u7ec8\u7aef\u4e2d\u8f93\u5165\u4ee5\u4e0b\u6307\u4ee4\u5373\u53ef\u542f\u52a8\u722c\u866b\n$ cnki-crawler\n```\n```console\n$ \u8bbe\u7f6e\u8bba\u6587\u63d0\u53d6\u7684\u8d77\u59cb\u7d22\u5f15\u548c\u7ec8\u6b62\u7d22\u5f15\uff0c\u6a21\u5f0f\u8bbe\u7f6e\u4e3astructure\uff0c\u8bb0\u5f55\u65e5\u5fd7\n$ cnki-crawler -s 1 -e 100 -m structure -l\n$ \u6216\u8005\u662f\n$ cnki-crawler --start_paper_index 1 --end_paper_index 100 -mode structure --log\n```\n\n\u547d\u4ee4\u884c\u5de5\u5177\u53c2\u6570\u8bf4\u660e\uff1a\n|  | \u53c2\u6570 | \u8bf4\u660e |\n| --- | --- | --- |\n| -s | --start_paper_index | \u8bba\u6587\u63d0\u53d6\u7684\u8d77\u59cb\u7d22\u5f15\uff0c\u9ed8\u8ba4\u4e3a `1`\uff0c\u4ece\u7b2c\u4e00\u7bc7\u5f00\u59cb\u4e0b\u8f7d |\n| -e | --end_paper_index | \u8bba\u6587\u63d0\u53d6\u7684\u7ec8\u6b62\u7d22\u5f15\uff0c\u9ed8\u8ba4\u4e3a `None`\uff0c\u722c\u53d6\u5230\u6700\u540e |\n| -m | --mode | \u6a21\u5f0f\uff0c\u53ef\u9009\u503c\u4e3a `raw(default)`\u3001`structure`\u3001`plain`|\n| -b | --browser | \u6d4f\u89c8\u5668\u7c7b\u578b\uff0c\u53ef\u9009\u503c\u4e3a `Chrome(default)`\u3001`Edge`\u3001`Firefox`|\n| -save | --save_path | \u4e0b\u8f7d\u6587\u4ef6\u7684\u4fdd\u5b58\u8def\u5f84\uff0c\u9ed8\u8ba4\u4e3a\u5f53\u524d\u76ee\u5f55\u7684 `dataset` \u6587\u4ef6\u5939 |\n| -wait | --wait_time | \u4e3a\u68c0\u7d22\u9884\u7559\u7684\u7b49\u5f85\u65f6\u95f4\uff0c\u9ed8\u8ba4 `120` \u79d2 |\n| -l | --log | \u662f\u5426\u8bb0\u5f55\u65e5\u5fd7\uff0c\u6307\u5b9a\u8be5\u53c2\u6570\u5219\u4fdd\u5b58\u65e5\u5fd7\uff0c\u65e0\u9700\u4f20\u503c\uff0c</br>\u65e5\u5fd7\u5c06\u4fdd\u5b58\u5728 `save_path` \u4e0b\u7684 `log` \u6587\u4ef6\u5939\u4e2d |\n\n> \u5982\u679c\u672a\u6307\u5b9a\u4fdd\u5b58\u8def\u5f84\uff0c\u5c06\u4e0b\u8f7d\u7ed3\u679c\u9ed8\u8ba4\u4fdd\u5b58\u5728\u5f53\u524d\u76ee\u5f55\u7684 `dataset` \u6587\u4ef6\u5939\u4e2d\uff1b  \n\u7531\u4e8e\u63d0\u53d6\u7684\u662f\u6587\u732e\u5168\u6587\uff0c1\u5206\u949f\u5927\u6982\u80fd\u4e0b\u8f7d4\u7bc7\u6587\u732e\uff0c\u53ef\u4ee5\u653e\u5230\u591c\u95f4\u8fd0\u884c (\u81ea\u52a8\u8fc7\u6ed1\u5757\u9a8c\u8bc1)\uff1b\n\n## JSON\u6587\u4ef6\u5b57\u6bb5\u8bf4\u660e\n| \u4e00\u7ea7\u5b57\u6bb5 | \u4e8c\u7ea7\u5b57\u6bb5 | \u4e09\u7ea7\u5b57\u6bb5 | \u8bf4\u660e |\n| --- | --- | --- | --- |\n| metadata | title |  | \u8bba\u6587\u6807\u9898 |\n|  | authors |  | \u8bba\u6587\u4f5c\u8005 |\n|  | orgs |  | \u4f5c\u8005\u6240\u5c5e\u673a\u6784 |\n|  | abstract |  | \u8bba\u6587\u6458\u8981 |\n|  | keywords |  | \u8bba\u6587\u5173\u952e\u8bcd |\n|  | funds |  | \u57fa\u91d1\u8d44\u52a9 |\n|  | class_num |  | \u5206\u7c7b\u53f7 |\n|  | source |  | \u6765\u6e90\u671f\u520a |\n|  | issue |  | \u671f |\n| body_text | 1.xxx(\u4e00\u7ea7\u7ae0\u8282\u6807\u9898) | 1.1xxx(\u4e8c\u7ea7\u7ae0\u8282\u6807\u9898) | reference_index\u5bf9\u5e94\u672c\u7ae0\u8282\u7684\u53c2\u8003\u6587\u732e\u7d22\u5f15\uff1btext\u5bf9\u5e94\u672c\u7ae0\u8282\u7684\u6587\u672c |\n|  | 2.xxx | 2.1xxx |  |\n|  | ...| ... |  |\n| other | \u4f5c\u8005\u8d21\u732e\u58f0\u660e |  |  |\n|  | \u5229\u76ca\u51b2\u7a81\u58f0\u660e |  |  |\n|  | \u53c2\u8003\u6587\u732e |  |  |\n\n## \u5f00\u6e90\u534f\u8bae\n\u672c\u9879\u76ee\u4f7f\u7528 [MIT](LICENSE) \u534f\u8bae\uff0c\u5177\u4f53\u53ef\u67e5\u770b [LICENSE](LICENSE) \u6587\u4ef6\u3002\n",
    "bugtrack_url": null,
    "license": "MIT",
    "summary": "A package for converting cnki journal papers' html to json",
    "version": "0.1.10",
    "project_urls": null,
    "split_keywords": [
        "cnki",
        "text structure",
        "crawler"
    ],
    "urls": [
        {
            "comment_text": "",
            "digests": {
                "blake2b_256": "05a846d49789fc9ecca162611204cfdb2a89aeaeba583eff899e613f8e0c0d2c",
                "md5": "68c7e4d7bd9ed6ce935d344df0187ffa",
                "sha256": "d731f017f7901f2ae6a3eb394f88e05cd016bfc616217f787e77ca4ce09dab04"
            },
            "downloads": -1,
            "filename": "cnki_html2json-0.1.10-py3-none-any.whl",
            "has_sig": false,
            "md5_digest": "68c7e4d7bd9ed6ce935d344df0187ffa",
            "packagetype": "bdist_wheel",
            "python_version": "py3",
            "requires_python": ">=3.8",
            "size": 13675,
            "upload_time": "2023-06-27T04:56:50",
            "upload_time_iso_8601": "2023-06-27T04:56:50.777187Z",
            "url": "https://files.pythonhosted.org/packages/05/a8/46d49789fc9ecca162611204cfdb2a89aeaeba583eff899e613f8e0c0d2c/cnki_html2json-0.1.10-py3-none-any.whl",
            "yanked": false,
            "yanked_reason": null
        },
        {
            "comment_text": "",
            "digests": {
                "blake2b_256": "b1c38afc2e17337ee0ac36a8b26bc41c1ffd9ade5c81d10d7b21c8b6b4f445f2",
                "md5": "8d73d279083e963b2b37a739f7605c1f",
                "sha256": "61f7495454c79815d0d46fbe33db00dbf4c48eeaa2bd2eb8c3176a72d60760f7"
            },
            "downloads": -1,
            "filename": "cnki-html2json-0.1.10.tar.gz",
            "has_sig": false,
            "md5_digest": "8d73d279083e963b2b37a739f7605c1f",
            "packagetype": "sdist",
            "python_version": "source",
            "requires_python": ">=3.8",
            "size": 14364,
            "upload_time": "2023-06-27T04:56:52",
            "upload_time_iso_8601": "2023-06-27T04:56:52.586955Z",
            "url": "https://files.pythonhosted.org/packages/b1/c3/8afc2e17337ee0ac36a8b26bc41c1ffd9ade5c81d10d7b21c8b6b4f445f2/cnki-html2json-0.1.10.tar.gz",
            "yanked": false,
            "yanked_reason": null
        }
    ],
    "upload_time": "2023-06-27 04:56:52",
    "github": false,
    "gitlab": false,
    "bitbucket": false,
    "codeberg": false,
    "lcname": "cnki-html2json"
}
        
Elapsed time: 0.08475s