<big id="segp4"></big>

<samp id="segp4"></samp>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

怎么使用Python+ChatGPT批量生成論文

發(fā)布時(shí)間：2023-02-27 10:56:04 來源：億速云閱讀：171 作者：iii 欄目：開發(fā)技術(shù)

這篇文章主要介紹了怎么使用Python+ChatGPT批量生成論文的相關(guān)知識(shí)，內(nèi)容詳細(xì)易懂，操作簡(jiǎn)單快捷，具有一定借鑒價(jià)值，相信大家閱讀完這篇怎么使用Python+ChatGPT批量生成論文文章都會(huì)有所收獲，下面我們一起來看看吧。

用Python+ChatGPT批量生成論文概述

做算法研究離不開閱讀大量論文。從海量論文中找到需要的論文往往耗費(fèi)算法團(tuán)隊(duì)不少的精力。

ChatGPT官方例子中有一個(gè)“TL;DR”摘要生成，非常適合生成論文摘要。

怎么使用Python+ChatGPT批量生成論文

于是我用python+GPT-3 API開發(fā)了一個(gè)工具，可以直接從arxiv地址生成論文概述。實(shí)現(xiàn)步驟如下：

下載論文

第一步，我們要先拿到論文正文。

從arxiv上下載論文非常簡(jiǎn)單，如果你知道論文編號(hào)（比如2302.08996），那么論文的pdf下載地址為：https://arxiv.org/pdf/[論文編號(hào)].pdf。我們只需要發(fā)起網(wǎng)絡(luò)請(qǐng)求即可將論文下載到本地。

我這里使用requests庫發(fā)起網(wǎng)絡(luò)請(qǐng)求，你可以使用任何你喜歡庫完成論文下載。

def download_paper(paper_id: str, file_name: Optional[str] = None) -> Optional[str]:
    """ 根據(jù)論文id將論文下載到本地

    Parameters
    -----------
    paper_id: str
        論文id
    file_name: Optional[str]
        本地文件名，如果為空則用論文id做文件名

    Returns
    -------
    result: Optional[str]
        論文下載結(jié)果。成功則返回本地文件路徑，失敗則返回None
    """
    paper_url = f"https://arxiv.org/pdf/{paper_id}.pdf"
    if not file_name:
        file_name = f"{paper_id}.pdf"

    res = requests.get(url=paper_url)
    if res.status_code == 200:
        with open(file_name, "wb") as f:
            f.write(res.content)
            return file_name
    return None

pdf轉(zhuǎn)文本

ChatGPT只接受文本輸入，所以拿到論文后，我們需要將pdf格式的論文轉(zhuǎn)換為純文本。這里給大家推薦一個(gè)好用的pdf轉(zhuǎn)文本庫——pdfplumber。

pdfplumber使用非常簡(jiǎn)單，只要打開文件，即可通過pdfplumber.pages獲取到每一頁pdf內(nèi)容。然后調(diào)用pdfplumber.Page類的extract_text()方法就能提取頁面的文本。示例代碼如下：

def pdf2txt(file_name: str | pdfplumber.PDF, page_start: int, page_end: int) -> str:
    """

    Parameters
    -----------
    file_name: str | pdfplumber.PDF
        pdf文件路徑或pdfplumber.PDF實(shí)例
    page_start: int
        要轉(zhuǎn)換的起始頁頁碼
    page_end: int
        要轉(zhuǎn)換的結(jié)束頁頁碼

    Returns
    -------
    content: str
        轉(zhuǎn)換后的文本
    """
    content = ""
    if isinstance(file_name, str):
        pages = pdfplumber.open(file_name).pages
    elif isinstance(file_name, pdfplumber.PDF):
        pages = file_name.pages
    else:
        raise AttributeError("需要傳入pdf路徑或PDF對(duì)象")
    for page in pages[page_start:page_end]:
        content += page.extract_text()
    return content

上面的代碼會(huì)逐頁提取給定pdf文檔指定頁碼范圍內(nèi)的內(nèi)容并返回。

用GPT-3生成概述

有了文本，我們就可以用ChatGPT來生成概述了。

首先我們導(dǎo)入openai庫，并配置好參數(shù)：

import openai

openai.api_key = "YOUR_API_KEY"

TLDRParameter = {
    "model": "text-davinci-003",
    "max_tokens": 2048,
    "temperature": 0.3,
    "top_p": 1.0,
    "frequency_penalty": 0.0,
    "presence_penalty": 0.0,
    "stop": ["\n\n"]
}

tldr_tag = "\n\n tl;dr:" # 給ChatGPT明確的文本補(bǔ)全意圖

這里的tldr_tag需要稍微解釋一下，這段字符串會(huì)添加在我們論文文本的末尾，用于提示ChatGPT我們要做的是上面文本的摘要。為了讓ChatGPT能夠?qū)⒄撐膬?nèi)容和我們給出的提示區(qū)分開來，在參數(shù)中我們?cè)O(shè)置了stop，用于告訴ChatGPT輸入到哪里結(jié)束。

輸出概述

ChatGPT對(duì)輸入長度是有限制的，因此我們不能一次性將整個(gè)論文內(nèi)容輸入進(jìn)去，需要一頁一頁得輸入并生成每一頁的概述。

pages = pdfplumber.open(file_name).pages
for p in pages:
    content = p.extract_text() + tldr_tag
    response = openai.Completion.create(prompt=content, **TLDRParameter)
    print(f"Page1 {index + 1}:\n")
    print(response["choices"][0]["text"])
    print("\n\n")

集成測(cè)試

將上面的代碼集成到一起，我們就可以得到一個(gè)完整可用的論文概述工具

import requests
import pdfplumber
import openai
from typing import Optional

openai.api_key = "YOUR_API_KEY"

TLDRParameter = {
    "model": "text-davinci-003",
    "max_tokens": 2048,
    "temperature": 0.3,
    "top_p": 1.0,
    "frequency_penalty": 0.0,
    "presence_penalty": 0.0,
    "stop": ["\n"]
}

tldr_tag = "\ntl;dr:"


def download_paper(paper_id: str, file_name: Optional[str] = None) -> Optional[str]:
    """ 根據(jù)論文id將論文下載到本地

    Parameters
    -----------
    paper_id: str
        論文id
    file_name: Optional[str]
        本地文件名，如果為空則用論文id做文件名

    Returns
    -------
    result: Optional[str]
        論文下載結(jié)果。成功則返回本地文件路徑，失敗則返回None
    """
    paper_url = f"https://arxiv.org/pdf/{paper_id}.pdf"
    if not file_name:
        file_name = f"{paper_id}.pdf"

    res = requests.get(url=paper_url)
    if res.status_code == 200:
        with open(file_name, "wb") as f:
            f.write(res.content)
            return file_name
    return None


if __name__ == '__main__':
    file_name = download_paper('2302.08996')
    pages = pdfplumber.open(file_name).pages
    for index, page in enumerate(pages):
        content = page.extract_text() + tldr_tag
        response = openai.Completion.create(prompt=content, **TLDRParameter)
        print(f"Page {index + 1}:\n")
        print(response["choices"][0]["text"])
        print("\n\n")

我用最新發(fā)出的2302.08996做測(cè)試，輸出如下：

Page 1:
We employ meta reinforcement learning to model short-duration trading in ?nancial markets as a sequential decision-making problem. We incorporate symbolic features based on frequently occurring patterns in price series to improve the performance of our meta-RL algorithm. Preliminary results on real data indicate that meta-RL and logical features are more effective than vanilla RL or primary price features alone.
Page 2:
Meta-learning techniques, such as Inductive Logic Programming (ILP) and RL2, can be used to train a trading agent on a new task with limited data.
Page 3:
We propose a meta-RL agent that can rapidly adapt to new reward patterns. We use PPO to train the agent and an LSTM agent. We also use hand-crafted features and learned logical features to augment the agent's neural network model. Results show that the agent outperforms vanilla reinforcement learning.
Page 4:

上面每一頁的輸出都很好地概括了該頁的核心內(nèi)容，其中第四頁為空是因?yàn)檫@一頁絕大部分內(nèi)容是參考文獻(xiàn)，ChatGPT也很聰明的沒有返回概述。

關(guān)于“怎么使用Python+ChatGPT批量生成論文”這篇文章的內(nèi)容就介紹到這里，感謝各位的閱讀！相信大家對(duì)“怎么使用Python+ChatGPT批量生成論文”知識(shí)都有一定的了解，大家如果還想學(xué)習(xí)更多知識(shí)，歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
怎么使用C#代碼實(shí)現(xiàn)經(jīng)典掃雷游戲
下一篇新聞：
Spring事務(wù)管理怎么正確使用

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼