CnkiSpider


NameCnkiSpider JSON
Version 1.0.9 PyPI version JSON
download
home_pagehttps://github.com/zemengchuan/CnkiSpider
SummaryCnkiSpider是一个高效爬取知网文章信息的包
upload_time2023-02-03 01:51:16
maintainer
docs_urlNone
authorzemengchuan
requires_python>=3.7
licenseMIT
keywords cnki webcrawler data lxml
VCS
bugtrack_url
requirements No requirements were recorded.
Travis-CI No Travis.
coveralls test coverage No coveralls.
            # CnkiSpider使用指南(by@zemengchuan)
GitHub链接:https://github.com/zemengchuan/CnkiSpider

## 用途:

CnkiSpider可以通过简单的代码实现高效的知网文章信息爬取,主要爬取的内容包括:【**标题、作者、发表时间、来源、链接**】,并将爬取的结果保存为CSV格式。经测试,某作者在知网上的821篇文章只需要2-4s即可全部获取(不同设备及网络情况可能会出现差异),效率相对而言比较高。

CnkiSpider的高效来自于采用了多线程的方式进行爬取。目前仅实现了**通过作者**的方式查询,将来还会持续更新通过其他的方式(如主题、篇关摘、关键词等)方式,还计划实现相关的图表分析功能,现在先将实现的部分上传供大家使用

## 优点

使用简单,效率较高

## 缺点

- 不够灵活,必须有作者的姓名、代码和第一机构才可以搜索,不能仅通过作者名字搜索(CnkiSpider设有专门的函数帮助确认作者的代码和第一机构,详情见使用方式)
- 目前仅支持中文搜索,英语搜索可能会出现问题
- 目前仅支持通过作者搜索

## 安装方式

```python
pip install CnkiSpider
```



## 使用方式

### 1、AuthorSpider

#### 基本介绍

目前只有AuthorSpider()这一个类,也就是仅支持通过作者进行搜索。下面来介绍Author可以使用的方法和属性:
- 基本参数

	`cas = CnkiSpider.AuthorSpider(author_name,author_code='',institution='')`
	author_name:作者姓名,必填
	author_code:作者代码,选填
	institution:作者第一机构,选填
- 属性:
	`cas.name`作者姓名
	`cas.code`作者代码
	`cas.institution`作者第一机构
	`cas.path`文件存放路径
	`cas.session`爬虫session(带有cookies)
- 方法:
	`cas.getinfo(save=True)`获取概览信息,默认保存在cas.path路径下的overview.csv文件中
	`cas.author_recommend()`如果作者信息不完整(如缺少代码、缺少第一机构),可以用这个方法补全
	`cas.get_all_article()`获取当前作者的所有文章,并保存在cas.path路径下的result.csv文件

#### 使用方式

如果知道需要爬取的作者的姓名、代码和第一机构,那么可以按照如下操作获取结果:

```Python
from CnkiSpider import AuthorSpider

"""
将author_name,author_code,institution三个参数传入AuthorSpider中,
再使用get_all_article()方法即可快速获取该作者的所有文章
文件保存在当前目录下,文件名为result
"""

name = '钟南山' 
code = '000039361479' 
inst = '中国工程院'
cas = AuthorSpider(author_name=name,author_code=code,institution=inst)
cas.get_all_article()
```
输出结果

```python
"""
一共有文章820篇
共需要爬取17页
====================================================================================================
正在爬取第2页……
正在爬取第3页……
正在爬取第4页……
正在爬取第5页……
正在爬取第6页……
正在爬取第7页……
正在爬取第8页……
正在爬取第9页……
正在爬取第10页……
正在爬取第11页……
正在爬取第12页……
正在爬取第13页……
正在爬取第14页……
正在爬取第15页……
正在爬取第16页……
正在爬取第17页……
第17页爬取成功!第17页有20条数据
第2页爬取成功!第2页有50条数据
第5页爬取成功!第5页有50条数据
第10页爬取成功!第10页有50条数据
第13页爬取成功!第13页有50条数据
第14页爬取成功!第14页有50条数据
第7页爬取成功!第7页有50条数据
第16页爬取成功!第16页有50条数据
第9页爬取成功!第9页有50条数据
第4页爬取成功!第4页有50条数据
第6页爬取成功!第6页有50条数据
第12页爬取成功!第12页有50条数据
第11页爬取成功!第11页有50条数据
第8页爬取成功!第8页有50条数据
第3页爬取成功!第3页有50条数据
第15页爬取成功!第15页有50条数据
====================================================================================================
爬取完成,已将结果保存至./钟南山-中国工程院-000039361479/
"""
```

- 如果仅知道姓名,那么可以按照如下操作获取结果:

```python
from CnkiSpider import AuthorSpider

"""
如果只知道姓名,那么就需要author_recommend()函数的帮助
运行按照提示确定作者的代码和第一机构即可
最后使用get_all_recomment()方法获取所有文章
如果get_all_recoment()获取的作者列表有误,可以输入re再次获取
文件保存在当前目录下
"""

cas = AuthorSpider('钟南山')
cas.author_recommend()
cas.get_all_article()

"""
author_recommend()会返回作者的姓名、代码和第一机构
如果有需要获取相关参数(姓名、代码、第一机构),可以按照如下的操作进行
"""
# cas = AuthorSpider('钟南山')
# print(cas.name,cas.code,cas.institution)
# author_name, author_code, institution = cas.author_recommend()
# print(cas.name,cas.code,cas.institution
```
输出结果

```python
"""
输出结果为:

    作者              机构
0  钟南山           中国工程院
1  钟南山
2  钟南山
3  钟南山      南昌大学第一附属医院
4  钟南山   共信医药科技股份有限公司;
5  钟南山          南风窗杂志社
6  钟南山         扎木县人民医院
7  钟南山
8  钟南山
9  钟南山  上海明品医学数据科技有限公司
请选择需要查询的作者序号(输入exit退出,输入re再次获取):0
一共有文章820篇
共需要爬取17页
====================================================================================================
正在爬取第2页……
正在爬取第3页……
正在爬取第4页……
正在爬取第5页……正在爬取第6页……

正在爬取第7页……
正在爬取第8页……
正在爬取第9页……
正在爬取第10页……
正在爬取第11页……
正在爬取第12页……
正在爬取第13页……
正在爬取第14页……
正在爬取第15页……
正在爬取第16页……
正在爬取第17页……
第17页爬取成功!第17页有20条数据
第14页爬取成功!第14页有50条数据
第4页爬取成功!第4页有50条数据
第10页爬取成功!第10页有50条数据
第12页爬取成功!第12页有50条数据
第3页爬取成功!第3页有50条数据
第13页爬取成功!第13页有50条数据
第16页爬取成功!第16页有50条数据
第2页爬取成功!第2页有50条数据
第5页爬取成功!第5页有50条数据
第7页爬取成功!第7页有50条数据
第15页爬取成功!第15页有50条数据
第11页爬取成功!第11页有50条数据
第6页爬取成功!第6页有50条数据
第9页爬取成功!第9页有50条数据
第8页爬取成功!第8页有50条数据
====================================================================================================
爬取完成,已将结果保存至./钟南山-中国工程院-000039361479/
"""
```

- 如果希望得到该作者在知网上的文章类型概览,可以使用`.getinfo(save=True)`方法,save参数是用于选择是否需要保存概览的,默认为True,可以不填。如:

```python
from CnkiSpider import AuthorSpider

"""
getinfo()默认在当前目录下保存概览文件,如果不需要可以将save改为False,即
getinfo(save=False)。保存的文件名为overview.csv
"""

name = '钟南山' 
code = '000039361479' 
inst = '中国工程院'
cas = AuthorSpider(author_name=name,author_code=code,institution=inst)
cas.getinfo()# cas.getinfo(save=False)

```

输出结果为:

```python
"""
输出结果为:

钟南山在知网上共有记录820条,详细情况如下:
总库:820篇
学术期刊:699篇
特色期刊:8篇
学术辑刊:0篇
学位论文:0篇
博士:0篇
硕士:0篇
会议:109篇
国内会议:103篇
国际会议:6篇
会议视频:0篇
报纸:4篇
年鉴:0篇
专利:0篇
中国专利:0篇
海外专利:0篇
图书:0篇
外文图书:0篇
中文图书:0篇
标准:0篇
国家标准:0篇
行业标准:0篇
标准题录:0篇
成果:0篇
古籍:0篇
视频:0篇
"""
```

- 设置输出文件保存路径可以通过`.path=`的方式修改

```python
from CnkiSpider import AuthorSpider

name = '钟南山' 
code = '000039361479' 
inst = '中国工程院'
cas = AuthorSpider(author_name=name,author_code=code,institution=inst)
# 设置路径
cas.path = './new_dir/' 
# 修改后以下两个函数保存的文件路径都会变为设置的路径,但是输出文件的名称无法更改
cas.getinfo()
cas.get_all_article()

```

### 2、KeywordSpider

(开发中……)

### 3、TopicSpider

(开发中……)

### 4、……



## 计划

- 加入更多的搜索方式
  - 主题
  - 篇关摘
  - 关键词
  - 篇名
  - 全文
  - 第一作者
  - 通讯作者
  - 作者单位
  - 基金
  - 摘要
  - 小标题
  - 参考文献
  - 分类号
  - 文献来源
  - DOI
- 加入图表分析
- 尝试用异步的方式,或许会有更高的效率
- ……

            

Raw data

            {
    "_id": null,
    "home_page": "https://github.com/zemengchuan/CnkiSpider",
    "name": "CnkiSpider",
    "maintainer": "",
    "docs_url": null,
    "requires_python": ">=3.7",
    "maintainer_email": "",
    "keywords": "CNKI,webcrawler,data,lxml",
    "author": "zemengchuan",
    "author_email": "zemengchuan@gmail.com",
    "download_url": "https://files.pythonhosted.org/packages/b9/32/b282f34d61844445314b90a399831a5a064f73e8ef5066c480815844245e/CnkiSpider-1.0.9.tar.gz",
    "platform": null,
    "description": "# CnkiSpider\u4f7f\u7528\u6307\u5357\uff08by@zemengchuan\uff09\r\nGitHub\u94fe\u63a5\uff1ahttps://github.com/zemengchuan/CnkiSpider\r\n\r\n## \u7528\u9014\uff1a\r\n\r\nCnkiSpider\u53ef\u4ee5\u901a\u8fc7\u7b80\u5355\u7684\u4ee3\u7801\u5b9e\u73b0\u9ad8\u6548\u7684\u77e5\u7f51\u6587\u7ae0\u4fe1\u606f\u722c\u53d6\uff0c\u4e3b\u8981\u722c\u53d6\u7684\u5185\u5bb9\u5305\u62ec\uff1a\u3010**\u6807\u9898\u3001\u4f5c\u8005\u3001\u53d1\u8868\u65f6\u95f4\u3001\u6765\u6e90\u3001\u94fe\u63a5**\u3011\uff0c\u5e76\u5c06\u722c\u53d6\u7684\u7ed3\u679c\u4fdd\u5b58\u4e3aCSV\u683c\u5f0f\u3002\u7ecf\u6d4b\u8bd5\uff0c\u67d0\u4f5c\u8005\u5728\u77e5\u7f51\u4e0a\u7684821\u7bc7\u6587\u7ae0\u53ea\u9700\u89812-4s\u5373\u53ef\u5168\u90e8\u83b7\u53d6\uff08\u4e0d\u540c\u8bbe\u5907\u53ca\u7f51\u7edc\u60c5\u51b5\u53ef\u80fd\u4f1a\u51fa\u73b0\u5dee\u5f02\uff09\uff0c\u6548\u7387\u76f8\u5bf9\u800c\u8a00\u6bd4\u8f83\u9ad8\u3002\r\n\r\nCnkiSpider\u7684\u9ad8\u6548\u6765\u81ea\u4e8e\u91c7\u7528\u4e86\u591a\u7ebf\u7a0b\u7684\u65b9\u5f0f\u8fdb\u884c\u722c\u53d6\u3002\u76ee\u524d\u4ec5\u5b9e\u73b0\u4e86**\u901a\u8fc7\u4f5c\u8005**\u7684\u65b9\u5f0f\u67e5\u8be2\uff0c\u5c06\u6765\u8fd8\u4f1a\u6301\u7eed\u66f4\u65b0\u901a\u8fc7\u5176\u4ed6\u7684\u65b9\u5f0f\uff08\u5982\u4e3b\u9898\u3001\u7bc7\u5173\u6458\u3001\u5173\u952e\u8bcd\u7b49\uff09\u65b9\u5f0f\uff0c\u8fd8\u8ba1\u5212\u5b9e\u73b0\u76f8\u5173\u7684\u56fe\u8868\u5206\u6790\u529f\u80fd\uff0c\u73b0\u5728\u5148\u5c06\u5b9e\u73b0\u7684\u90e8\u5206\u4e0a\u4f20\u4f9b\u5927\u5bb6\u4f7f\u7528\r\n\r\n## \u4f18\u70b9\r\n\r\n\u4f7f\u7528\u7b80\u5355\uff0c\u6548\u7387\u8f83\u9ad8\r\n\r\n## \u7f3a\u70b9\r\n\r\n- \u4e0d\u591f\u7075\u6d3b\uff0c\u5fc5\u987b\u6709\u4f5c\u8005\u7684\u59d3\u540d\u3001\u4ee3\u7801\u548c\u7b2c\u4e00\u673a\u6784\u624d\u53ef\u4ee5\u641c\u7d22\uff0c\u4e0d\u80fd\u4ec5\u901a\u8fc7\u4f5c\u8005\u540d\u5b57\u641c\u7d22\uff08CnkiSpider\u8bbe\u6709\u4e13\u95e8\u7684\u51fd\u6570\u5e2e\u52a9\u786e\u8ba4\u4f5c\u8005\u7684\u4ee3\u7801\u548c\u7b2c\u4e00\u673a\u6784\uff0c\u8be6\u60c5\u89c1\u4f7f\u7528\u65b9\u5f0f\uff09\r\n- \u76ee\u524d\u4ec5\u652f\u6301\u4e2d\u6587\u641c\u7d22\uff0c\u82f1\u8bed\u641c\u7d22\u53ef\u80fd\u4f1a\u51fa\u73b0\u95ee\u9898\r\n- \u76ee\u524d\u4ec5\u652f\u6301\u901a\u8fc7\u4f5c\u8005\u641c\u7d22\r\n\r\n## \u5b89\u88c5\u65b9\u5f0f\r\n\r\n```python\r\npip install CnkiSpider\r\n```\r\n\r\n\r\n\r\n## \u4f7f\u7528\u65b9\u5f0f\r\n\r\n### 1\u3001AuthorSpider\r\n\r\n#### \u57fa\u672c\u4ecb\u7ecd\r\n\r\n\u76ee\u524d\u53ea\u6709AuthorSpider()\u8fd9\u4e00\u4e2a\u7c7b\uff0c\u4e5f\u5c31\u662f\u4ec5\u652f\u6301\u901a\u8fc7\u4f5c\u8005\u8fdb\u884c\u641c\u7d22\u3002\u4e0b\u9762\u6765\u4ecb\u7ecdAuthor\u53ef\u4ee5\u4f7f\u7528\u7684\u65b9\u6cd5\u548c\u5c5e\u6027\uff1a\r\n- \u57fa\u672c\u53c2\u6570\r\n\r\n\t`cas = CnkiSpider.AuthorSpider(author_name,author_code='',institution='')`\r\n\tauthor_name\uff1a\u4f5c\u8005\u59d3\u540d\uff0c\u5fc5\u586b\r\n\tauthor_code\uff1a\u4f5c\u8005\u4ee3\u7801\uff0c\u9009\u586b\r\n\tinstitution\uff1a\u4f5c\u8005\u7b2c\u4e00\u673a\u6784\uff0c\u9009\u586b\r\n- \u5c5e\u6027\uff1a\r\n\t`cas.name`\u4f5c\u8005\u59d3\u540d\r\n\t`cas.code`\u4f5c\u8005\u4ee3\u7801\r\n\t`cas.institution`\u4f5c\u8005\u7b2c\u4e00\u673a\u6784\r\n\t`cas.path`\u6587\u4ef6\u5b58\u653e\u8def\u5f84\r\n\t`cas.session`\u722c\u866bsession\uff08\u5e26\u6709cookies\uff09\r\n- \u65b9\u6cd5\uff1a\r\n\t`cas.getinfo(save=True)`\u83b7\u53d6\u6982\u89c8\u4fe1\u606f\uff0c\u9ed8\u8ba4\u4fdd\u5b58\u5728cas.path\u8def\u5f84\u4e0b\u7684overview.csv\u6587\u4ef6\u4e2d\r\n\t`cas.author_recommend()`\u5982\u679c\u4f5c\u8005\u4fe1\u606f\u4e0d\u5b8c\u6574\uff08\u5982\u7f3a\u5c11\u4ee3\u7801\u3001\u7f3a\u5c11\u7b2c\u4e00\u673a\u6784\uff09\uff0c\u53ef\u4ee5\u7528\u8fd9\u4e2a\u65b9\u6cd5\u8865\u5168\r\n\t`cas.get_all_article()`\u83b7\u53d6\u5f53\u524d\u4f5c\u8005\u7684\u6240\u6709\u6587\u7ae0\uff0c\u5e76\u4fdd\u5b58\u5728cas.path\u8def\u5f84\u4e0b\u7684result.csv\u6587\u4ef6\r\n\r\n#### \u4f7f\u7528\u65b9\u5f0f\r\n\r\n\u5982\u679c\u77e5\u9053\u9700\u8981\u722c\u53d6\u7684\u4f5c\u8005\u7684\u59d3\u540d\u3001\u4ee3\u7801\u548c\u7b2c\u4e00\u673a\u6784\uff0c\u90a3\u4e48\u53ef\u4ee5\u6309\u7167\u5982\u4e0b\u64cd\u4f5c\u83b7\u53d6\u7ed3\u679c\uff1a\r\n\r\n```Python\r\nfrom CnkiSpider import AuthorSpider\r\n\r\n\"\"\"\r\n\u5c06author_name,author_code,institution\u4e09\u4e2a\u53c2\u6570\u4f20\u5165AuthorSpider\u4e2d\uff0c\r\n\u518d\u4f7f\u7528get_all_article()\u65b9\u6cd5\u5373\u53ef\u5feb\u901f\u83b7\u53d6\u8be5\u4f5c\u8005\u7684\u6240\u6709\u6587\u7ae0\r\n\u6587\u4ef6\u4fdd\u5b58\u5728\u5f53\u524d\u76ee\u5f55\u4e0b\uff0c\u6587\u4ef6\u540d\u4e3aresult\r\n\"\"\"\r\n\r\nname = '\u949f\u5357\u5c71' \r\ncode = '000039361479' \r\ninst = '\u4e2d\u56fd\u5de5\u7a0b\u9662'\r\ncas = AuthorSpider(author_name=name,author_code=code,institution=inst)\r\ncas.get_all_article()\r\n```\r\n\u8f93\u51fa\u7ed3\u679c\r\n\r\n```python\r\n\"\"\"\r\n\u4e00\u5171\u6709\u6587\u7ae0820\u7bc7\r\n\u5171\u9700\u8981\u722c\u53d617\u9875\r\n====================================================================================================\r\n\u6b63\u5728\u722c\u53d6\u7b2c2\u9875\u2026\u2026\r\n\u6b63\u5728\u722c\u53d6\u7b2c3\u9875\u2026\u2026\r\n\u6b63\u5728\u722c\u53d6\u7b2c4\u9875\u2026\u2026\r\n\u6b63\u5728\u722c\u53d6\u7b2c5\u9875\u2026\u2026\r\n\u6b63\u5728\u722c\u53d6\u7b2c6\u9875\u2026\u2026\r\n\u6b63\u5728\u722c\u53d6\u7b2c7\u9875\u2026\u2026\r\n\u6b63\u5728\u722c\u53d6\u7b2c8\u9875\u2026\u2026\r\n\u6b63\u5728\u722c\u53d6\u7b2c9\u9875\u2026\u2026\r\n\u6b63\u5728\u722c\u53d6\u7b2c10\u9875\u2026\u2026\r\n\u6b63\u5728\u722c\u53d6\u7b2c11\u9875\u2026\u2026\r\n\u6b63\u5728\u722c\u53d6\u7b2c12\u9875\u2026\u2026\r\n\u6b63\u5728\u722c\u53d6\u7b2c13\u9875\u2026\u2026\r\n\u6b63\u5728\u722c\u53d6\u7b2c14\u9875\u2026\u2026\r\n\u6b63\u5728\u722c\u53d6\u7b2c15\u9875\u2026\u2026\r\n\u6b63\u5728\u722c\u53d6\u7b2c16\u9875\u2026\u2026\r\n\u6b63\u5728\u722c\u53d6\u7b2c17\u9875\u2026\u2026\r\n\u7b2c17\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c17\u9875\u670920\u6761\u6570\u636e\r\n\u7b2c2\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c2\u9875\u670950\u6761\u6570\u636e\r\n\u7b2c5\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c5\u9875\u670950\u6761\u6570\u636e\r\n\u7b2c10\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c10\u9875\u670950\u6761\u6570\u636e\r\n\u7b2c13\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c13\u9875\u670950\u6761\u6570\u636e\r\n\u7b2c14\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c14\u9875\u670950\u6761\u6570\u636e\r\n\u7b2c7\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c7\u9875\u670950\u6761\u6570\u636e\r\n\u7b2c16\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c16\u9875\u670950\u6761\u6570\u636e\r\n\u7b2c9\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c9\u9875\u670950\u6761\u6570\u636e\r\n\u7b2c4\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c4\u9875\u670950\u6761\u6570\u636e\r\n\u7b2c6\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c6\u9875\u670950\u6761\u6570\u636e\r\n\u7b2c12\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c12\u9875\u670950\u6761\u6570\u636e\r\n\u7b2c11\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c11\u9875\u670950\u6761\u6570\u636e\r\n\u7b2c8\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c8\u9875\u670950\u6761\u6570\u636e\r\n\u7b2c3\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c3\u9875\u670950\u6761\u6570\u636e\r\n\u7b2c15\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c15\u9875\u670950\u6761\u6570\u636e\r\n====================================================================================================\r\n\u722c\u53d6\u5b8c\u6210\uff0c\u5df2\u5c06\u7ed3\u679c\u4fdd\u5b58\u81f3./\u949f\u5357\u5c71-\u4e2d\u56fd\u5de5\u7a0b\u9662-000039361479/\r\n\"\"\"\r\n```\r\n\r\n- \u5982\u679c\u4ec5\u77e5\u9053\u59d3\u540d\uff0c\u90a3\u4e48\u53ef\u4ee5\u6309\u7167\u5982\u4e0b\u64cd\u4f5c\u83b7\u53d6\u7ed3\u679c\uff1a\r\n\r\n```python\r\nfrom CnkiSpider import AuthorSpider\r\n\r\n\"\"\"\r\n\u5982\u679c\u53ea\u77e5\u9053\u59d3\u540d\uff0c\u90a3\u4e48\u5c31\u9700\u8981author_recommend()\u51fd\u6570\u7684\u5e2e\u52a9\r\n\u8fd0\u884c\u6309\u7167\u63d0\u793a\u786e\u5b9a\u4f5c\u8005\u7684\u4ee3\u7801\u548c\u7b2c\u4e00\u673a\u6784\u5373\u53ef\r\n\u6700\u540e\u4f7f\u7528get_all_recomment()\u65b9\u6cd5\u83b7\u53d6\u6240\u6709\u6587\u7ae0\r\n\u5982\u679cget_all_recoment()\u83b7\u53d6\u7684\u4f5c\u8005\u5217\u8868\u6709\u8bef\uff0c\u53ef\u4ee5\u8f93\u5165re\u518d\u6b21\u83b7\u53d6\r\n\u6587\u4ef6\u4fdd\u5b58\u5728\u5f53\u524d\u76ee\u5f55\u4e0b\r\n\"\"\"\r\n\r\ncas = AuthorSpider('\u949f\u5357\u5c71')\r\ncas.author_recommend()\r\ncas.get_all_article()\r\n\r\n\"\"\"\r\nauthor_recommend()\u4f1a\u8fd4\u56de\u4f5c\u8005\u7684\u59d3\u540d\u3001\u4ee3\u7801\u548c\u7b2c\u4e00\u673a\u6784\r\n\u5982\u679c\u6709\u9700\u8981\u83b7\u53d6\u76f8\u5173\u53c2\u6570\uff08\u59d3\u540d\u3001\u4ee3\u7801\u3001\u7b2c\u4e00\u673a\u6784\uff09\uff0c\u53ef\u4ee5\u6309\u7167\u5982\u4e0b\u7684\u64cd\u4f5c\u8fdb\u884c\r\n\"\"\"\r\n# cas = AuthorSpider('\u949f\u5357\u5c71')\r\n# print(cas.name,cas.code,cas.institution)\r\n# author_name, author_code, institution = cas.author_recommend()\r\n# print(cas.name,cas.code,cas.institution\r\n```\r\n\u8f93\u51fa\u7ed3\u679c\r\n\r\n```python\r\n\"\"\"\r\n\u8f93\u51fa\u7ed3\u679c\u4e3a\uff1a\r\n\r\n    \u4f5c\u8005              \u673a\u6784\r\n0  \u949f\u5357\u5c71           \u4e2d\u56fd\u5de5\u7a0b\u9662\r\n1  \u949f\u5357\u5c71\r\n2  \u949f\u5357\u5c71\r\n3  \u949f\u5357\u5c71      \u5357\u660c\u5927\u5b66\u7b2c\u4e00\u9644\u5c5e\u533b\u9662\r\n4  \u949f\u5357\u5c71   \u5171\u4fe1\u533b\u836f\u79d1\u6280\u80a1\u4efd\u6709\u9650\u516c\u53f8;\r\n5  \u949f\u5357\u5c71          \u5357\u98ce\u7a97\u6742\u5fd7\u793e\r\n6  \u949f\u5357\u5c71         \u624e\u6728\u53bf\u4eba\u6c11\u533b\u9662\r\n7  \u949f\u5357\u5c71\r\n8  \u949f\u5357\u5c71\r\n9  \u949f\u5357\u5c71  \u4e0a\u6d77\u660e\u54c1\u533b\u5b66\u6570\u636e\u79d1\u6280\u6709\u9650\u516c\u53f8\r\n\u8bf7\u9009\u62e9\u9700\u8981\u67e5\u8be2\u7684\u4f5c\u8005\u5e8f\u53f7(\u8f93\u5165exit\u9000\u51fa\uff0c\u8f93\u5165re\u518d\u6b21\u83b7\u53d6)\uff1a0\r\n\u4e00\u5171\u6709\u6587\u7ae0820\u7bc7\r\n\u5171\u9700\u8981\u722c\u53d617\u9875\r\n====================================================================================================\r\n\u6b63\u5728\u722c\u53d6\u7b2c2\u9875\u2026\u2026\r\n\u6b63\u5728\u722c\u53d6\u7b2c3\u9875\u2026\u2026\r\n\u6b63\u5728\u722c\u53d6\u7b2c4\u9875\u2026\u2026\r\n\u6b63\u5728\u722c\u53d6\u7b2c5\u9875\u2026\u2026\u6b63\u5728\u722c\u53d6\u7b2c6\u9875\u2026\u2026\r\n\r\n\u6b63\u5728\u722c\u53d6\u7b2c7\u9875\u2026\u2026\r\n\u6b63\u5728\u722c\u53d6\u7b2c8\u9875\u2026\u2026\r\n\u6b63\u5728\u722c\u53d6\u7b2c9\u9875\u2026\u2026\r\n\u6b63\u5728\u722c\u53d6\u7b2c10\u9875\u2026\u2026\r\n\u6b63\u5728\u722c\u53d6\u7b2c11\u9875\u2026\u2026\r\n\u6b63\u5728\u722c\u53d6\u7b2c12\u9875\u2026\u2026\r\n\u6b63\u5728\u722c\u53d6\u7b2c13\u9875\u2026\u2026\r\n\u6b63\u5728\u722c\u53d6\u7b2c14\u9875\u2026\u2026\r\n\u6b63\u5728\u722c\u53d6\u7b2c15\u9875\u2026\u2026\r\n\u6b63\u5728\u722c\u53d6\u7b2c16\u9875\u2026\u2026\r\n\u6b63\u5728\u722c\u53d6\u7b2c17\u9875\u2026\u2026\r\n\u7b2c17\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c17\u9875\u670920\u6761\u6570\u636e\r\n\u7b2c14\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c14\u9875\u670950\u6761\u6570\u636e\r\n\u7b2c4\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c4\u9875\u670950\u6761\u6570\u636e\r\n\u7b2c10\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c10\u9875\u670950\u6761\u6570\u636e\r\n\u7b2c12\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c12\u9875\u670950\u6761\u6570\u636e\r\n\u7b2c3\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c3\u9875\u670950\u6761\u6570\u636e\r\n\u7b2c13\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c13\u9875\u670950\u6761\u6570\u636e\r\n\u7b2c16\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c16\u9875\u670950\u6761\u6570\u636e\r\n\u7b2c2\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c2\u9875\u670950\u6761\u6570\u636e\r\n\u7b2c5\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c5\u9875\u670950\u6761\u6570\u636e\r\n\u7b2c7\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c7\u9875\u670950\u6761\u6570\u636e\r\n\u7b2c15\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c15\u9875\u670950\u6761\u6570\u636e\r\n\u7b2c11\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c11\u9875\u670950\u6761\u6570\u636e\r\n\u7b2c6\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c6\u9875\u670950\u6761\u6570\u636e\r\n\u7b2c9\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c9\u9875\u670950\u6761\u6570\u636e\r\n\u7b2c8\u9875\u722c\u53d6\u6210\u529f\uff01\u7b2c8\u9875\u670950\u6761\u6570\u636e\r\n====================================================================================================\r\n\u722c\u53d6\u5b8c\u6210\uff0c\u5df2\u5c06\u7ed3\u679c\u4fdd\u5b58\u81f3./\u949f\u5357\u5c71-\u4e2d\u56fd\u5de5\u7a0b\u9662-000039361479/\r\n\"\"\"\r\n```\r\n\r\n- \u5982\u679c\u5e0c\u671b\u5f97\u5230\u8be5\u4f5c\u8005\u5728\u77e5\u7f51\u4e0a\u7684\u6587\u7ae0\u7c7b\u578b\u6982\u89c8\uff0c\u53ef\u4ee5\u4f7f\u7528`.getinfo(save=True)`\u65b9\u6cd5\uff0csave\u53c2\u6570\u662f\u7528\u4e8e\u9009\u62e9\u662f\u5426\u9700\u8981\u4fdd\u5b58\u6982\u89c8\u7684\uff0c\u9ed8\u8ba4\u4e3aTrue\uff0c\u53ef\u4ee5\u4e0d\u586b\u3002\u5982\uff1a\r\n\r\n```python\r\nfrom CnkiSpider import AuthorSpider\r\n\r\n\"\"\"\r\ngetinfo()\u9ed8\u8ba4\u5728\u5f53\u524d\u76ee\u5f55\u4e0b\u4fdd\u5b58\u6982\u89c8\u6587\u4ef6\uff0c\u5982\u679c\u4e0d\u9700\u8981\u53ef\u4ee5\u5c06save\u6539\u4e3aFalse\uff0c\u5373\r\ngetinfo(save=False)\u3002\u4fdd\u5b58\u7684\u6587\u4ef6\u540d\u4e3aoverview.csv\r\n\"\"\"\r\n\r\nname = '\u949f\u5357\u5c71' \r\ncode = '000039361479' \r\ninst = '\u4e2d\u56fd\u5de5\u7a0b\u9662'\r\ncas = AuthorSpider(author_name=name,author_code=code,institution=inst)\r\ncas.getinfo()# cas.getinfo(save=False)\r\n\r\n```\r\n\r\n\u8f93\u51fa\u7ed3\u679c\u4e3a\uff1a\r\n\r\n```python\r\n\"\"\"\r\n\u8f93\u51fa\u7ed3\u679c\u4e3a\uff1a\r\n\r\n\u949f\u5357\u5c71\u5728\u77e5\u7f51\u4e0a\u5171\u6709\u8bb0\u5f55820\u6761\uff0c\u8be6\u7ec6\u60c5\u51b5\u5982\u4e0b\uff1a\r\n\u603b\u5e93:820\u7bc7\r\n\u5b66\u672f\u671f\u520a:699\u7bc7\r\n\u7279\u8272\u671f\u520a:8\u7bc7\r\n\u5b66\u672f\u8f91\u520a:0\u7bc7\r\n\u5b66\u4f4d\u8bba\u6587:0\u7bc7\r\n\u535a\u58eb:0\u7bc7\r\n\u7855\u58eb:0\u7bc7\r\n\u4f1a\u8bae:109\u7bc7\r\n\u56fd\u5185\u4f1a\u8bae:103\u7bc7\r\n\u56fd\u9645\u4f1a\u8bae:6\u7bc7\r\n\u4f1a\u8bae\u89c6\u9891:0\u7bc7\r\n\u62a5\u7eb8:4\u7bc7\r\n\u5e74\u9274:0\u7bc7\r\n\u4e13\u5229:0\u7bc7\r\n\u4e2d\u56fd\u4e13\u5229:0\u7bc7\r\n\u6d77\u5916\u4e13\u5229:0\u7bc7\r\n\u56fe\u4e66:0\u7bc7\r\n\u5916\u6587\u56fe\u4e66:0\u7bc7\r\n\u4e2d\u6587\u56fe\u4e66:0\u7bc7\r\n\u6807\u51c6:0\u7bc7\r\n\u56fd\u5bb6\u6807\u51c6:0\u7bc7\r\n\u884c\u4e1a\u6807\u51c6:0\u7bc7\r\n\u6807\u51c6\u9898\u5f55:0\u7bc7\r\n\u6210\u679c:0\u7bc7\r\n\u53e4\u7c4d:0\u7bc7\r\n\u89c6\u9891:0\u7bc7\r\n\"\"\"\r\n```\r\n\r\n- \u8bbe\u7f6e\u8f93\u51fa\u6587\u4ef6\u4fdd\u5b58\u8def\u5f84\u53ef\u4ee5\u901a\u8fc7`.path=`\u7684\u65b9\u5f0f\u4fee\u6539\r\n\r\n```python\r\nfrom CnkiSpider import AuthorSpider\r\n\r\nname = '\u949f\u5357\u5c71' \r\ncode = '000039361479' \r\ninst = '\u4e2d\u56fd\u5de5\u7a0b\u9662'\r\ncas = AuthorSpider(author_name=name,author_code=code,institution=inst)\r\n# \u8bbe\u7f6e\u8def\u5f84\r\ncas.path = './new_dir/' \r\n# \u4fee\u6539\u540e\u4ee5\u4e0b\u4e24\u4e2a\u51fd\u6570\u4fdd\u5b58\u7684\u6587\u4ef6\u8def\u5f84\u90fd\u4f1a\u53d8\u4e3a\u8bbe\u7f6e\u7684\u8def\u5f84\uff0c\u4f46\u662f\u8f93\u51fa\u6587\u4ef6\u7684\u540d\u79f0\u65e0\u6cd5\u66f4\u6539\r\ncas.getinfo()\r\ncas.get_all_article()\r\n\r\n```\r\n\r\n### 2\u3001KeywordSpider\r\n\r\n\uff08\u5f00\u53d1\u4e2d\u2026\u2026\uff09\r\n\r\n### 3\u3001TopicSpider\r\n\r\n\uff08\u5f00\u53d1\u4e2d\u2026\u2026\uff09\r\n\r\n### 4\u3001\u2026\u2026\r\n\r\n\r\n\r\n## \u8ba1\u5212\r\n\r\n- \u52a0\u5165\u66f4\u591a\u7684\u641c\u7d22\u65b9\u5f0f\r\n  - \u4e3b\u9898\r\n  - \u7bc7\u5173\u6458\r\n  - \u5173\u952e\u8bcd\r\n  - \u7bc7\u540d\r\n  - \u5168\u6587\r\n  - \u7b2c\u4e00\u4f5c\u8005\r\n  - \u901a\u8baf\u4f5c\u8005\r\n  - \u4f5c\u8005\u5355\u4f4d\r\n  - \u57fa\u91d1\r\n  - \u6458\u8981\r\n  - \u5c0f\u6807\u9898\r\n  - \u53c2\u8003\u6587\u732e\r\n  - \u5206\u7c7b\u53f7\r\n  - \u6587\u732e\u6765\u6e90\r\n  - DOI\r\n- \u52a0\u5165\u56fe\u8868\u5206\u6790\r\n- \u5c1d\u8bd5\u7528\u5f02\u6b65\u7684\u65b9\u5f0f\uff0c\u6216\u8bb8\u4f1a\u6709\u66f4\u9ad8\u7684\u6548\u7387\r\n- \u2026\u2026\r\n",
    "bugtrack_url": null,
    "license": "MIT",
    "summary": "CnkiSpider\u662f\u4e00\u4e2a\u9ad8\u6548\u722c\u53d6\u77e5\u7f51\u6587\u7ae0\u4fe1\u606f\u7684\u5305",
    "version": "1.0.9",
    "split_keywords": [
        "cnki",
        "webcrawler",
        "data",
        "lxml"
    ],
    "urls": [
        {
            "comment_text": "",
            "digests": {
                "blake2b_256": "98fa7a918d297f2ecec29a7dff03daa80ad8833f6e796af4a18f14b5ac1143a1",
                "md5": "9e5df79ecefc8633f4c43f248d375647",
                "sha256": "371df7e922d628b0921cc1a444191335ad7b35edfb53081a97f3013cb30b3193"
            },
            "downloads": -1,
            "filename": "CnkiSpider-1.0.9-py3-none-any.whl",
            "has_sig": false,
            "md5_digest": "9e5df79ecefc8633f4c43f248d375647",
            "packagetype": "bdist_wheel",
            "python_version": "py3",
            "requires_python": ">=3.7",
            "size": 11689,
            "upload_time": "2023-02-03T01:51:15",
            "upload_time_iso_8601": "2023-02-03T01:51:15.195609Z",
            "url": "https://files.pythonhosted.org/packages/98/fa/7a918d297f2ecec29a7dff03daa80ad8833f6e796af4a18f14b5ac1143a1/CnkiSpider-1.0.9-py3-none-any.whl",
            "yanked": false,
            "yanked_reason": null
        },
        {
            "comment_text": "",
            "digests": {
                "blake2b_256": "b932b282f34d61844445314b90a399831a5a064f73e8ef5066c480815844245e",
                "md5": "32e1cd6f208299a067c1c5d797a68364",
                "sha256": "65829c6fa49aebf83c5524ff211443be3bc3ba373ae50ed10fadf201a2ac2476"
            },
            "downloads": -1,
            "filename": "CnkiSpider-1.0.9.tar.gz",
            "has_sig": false,
            "md5_digest": "32e1cd6f208299a067c1c5d797a68364",
            "packagetype": "sdist",
            "python_version": "source",
            "requires_python": ">=3.7",
            "size": 10369,
            "upload_time": "2023-02-03T01:51:16",
            "upload_time_iso_8601": "2023-02-03T01:51:16.927556Z",
            "url": "https://files.pythonhosted.org/packages/b9/32/b282f34d61844445314b90a399831a5a064f73e8ef5066c480815844245e/CnkiSpider-1.0.9.tar.gz",
            "yanked": false,
            "yanked_reason": null
        }
    ],
    "upload_time": "2023-02-03 01:51:16",
    "github": true,
    "gitlab": false,
    "bitbucket": false,
    "github_user": "zemengchuan",
    "github_project": "CnkiSpider",
    "travis_ci": false,
    "coveralls": false,
    "github_actions": false,
    "lcname": "cnkispider"
}
        
Elapsed time: 0.03645s