gpt2中文练习-gpt2中文帮助写作

天之大2017 · 发表于 2023-4-6 00:44:31

来历：知乎

GPT-3是一种基于深度进修的自然说话处置模子，具有强大的文章天生才能。以下是利用GPT-3实现文章天生器的一般流程：

gpt2中文练习-gpt2中文帮助写作-1.jpg

毗连到GPT-3 API

要利用GPT-3天生文章，首先需要毗连到GPT-3 API。您可以在OpenAI官网上申请API密钥，并利用该密钥毗连到API。

设置GPT-3

在利用GPT-3天生文章之前，需要对GPT-3停止一些设置。您可以挑选利用OpenAI供给的一些预界说设置，也可以按照您的需求自界说设置。以下是一个利用预界说设置的示例：
from openai import APIWrapper, Configuration

api_wrapper = APIWrapper(&#39;<YOUR_API_KEY>&#39;)

configuration = Configuration()
configuration.engine = &#39;text-davinci-002&#39;
configuration.max_tokens = 1024
configuration.temperature = 0.7
configuration.top_p = 1
configuration.frequency_penalty = 0
configuration.presence_penalty = 0在这个示例中，利用“text-davinci-002”引擎，设置的最大天生字数为1024，温度为0.7。

输入文本提醒

在天生文章之前，需要供给一个文本提醒来指导GPT-3天生文章。提醒应当包括文章主题、关键词或其他相关信息。以下是一个简单的提醒示例：
prompt = &#34;要写一篇关于计较机视觉的文章。&#34;

天生文章

完成上述步调后，可以利用APIWrapper天生文章。以下是一个从API天生的文章代码示例：
response = api_wrapper.complete(
prompt=prompt
以下是一个挪用GPT-2中文模子天生中文文本的示例教程，假定您已经获得了预练习的GPT-2中文模子并安装了需要的Python库。

导入库

首先，需要导入所需的Python库：
import tensorflow as tf
from transformers import GPT2Tokenizer, TFGPT2LMHeadModel用于GPT-2中文模子的tokenizer和TFGPT2LMHeadModel都来自于transformers库。

加载预练习的模子和tokenizer

在继续之前，需要先加载预练习的GPT-2中文模子和对应的tokenizer。假如您没有练习过自己的模子，可以利用Hugging Face供给的中文GPT-2模子。
tokenizer = GPT2Tokenizer.from_pretrained(&#39;uer/gpt2-chinese-cluecorpussmall&#39;)
model = TFGPT2LMHeadModel.from_pretrained(&#39;uer/gpt2-chinese-cluecorpussmall&#39;, pad_token_id=tokenizer.eos_token_id)这里利用了
uer/gpt2-chinese-cluecorpussmall模子和响应的tokenizer。

输入天生的文本前缀

要天生中文文本，需要首先供给一个文本前缀来启动模子的天生。例如：
input_text = &#39;我明天很兴奋&#39;

天生文本

利用上面加载的模子和tokenizer，可以天生文本：
input_ids = tokenizer.encode(input_text, return_tensors=&#39;tf&#39;)
output = model.generate(input_ids, max_length=100, do_sample=True)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)在此示例中，输入文本前缀仅包括一个简单的句子。然后，利用TensorFlow等对GPT-2模子挪用generate()方式天生对应文本的数字暗示。在天生文本时设备了最大长度，并启用了随机天生（由于do_sample=True，默以为封闭）。

gpt2中文练习-gpt2中文帮助写作-2.jpg

竣事天生

最初，输出天生的文本：
输出: 我明天很兴奋，由于我终究去了长城。留意，天生的中文文本能够不是完全正确的，由于GPT-2中文模子的性能与原始的英文GPT-2模子相比另有差异。不外，经过优化模子和练习数据，还是可以获得高质量的中文文本。

原文地址：https://zhuanlan.zhihu.com/p/618692879
免责声明：
1、文章部分图片源于收集，均为表示图；
2、一切文章、图片、音频视频文件等材料版权归版权一切人一切；
3、因非原创文章及图片等内容没法和版权者联系，如原作者或编辑以为作品不宜上网供阅读，或不应无偿利用，请实时告诉我们，以敏捷采纳适当办法，避免给双方形成不需要的经济损失；
4、本页面内容由爬虫法式自动收集于互联网，如无意中加害了媒体或小我的常识产权，请电邮【E-Mail:cb@yoyodoc.com】告之，我们将于24小时内删除。

		自动登录	找回密码
密码			立即注册