Discuz! Board

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 57|回复: 0

因此,为了进一步完善 ChatGPT 以安全、合理和连贯

[复制链接]

2

主题

2

帖子

8

积分

新手上路

Rank: 1

积分
8
发表于 2023-11-6 11:47:53 | 显示全部楼层 |阅读模式
的方式响应各种不同提示的能力,它使用一种称为人类反馈强化学习 (RLHF) 的技术进行了对话优化。 本质上,OpenAI 创建了一些演示数据,向神经网络展示了它在典型情况下应如何响应。由此,他们创建了一个带有比较数据的奖励模型(其中两个或多个模型响应由人工智能培训师进行排名),因此人工智能可以了解在任何给定情况下哪个是最佳响应。虽然 RLHF 不是纯粹的监督学习,但它允许对 GPT 等网络进行有效的微调。 来自 ChatGPT 的图表显示了 GPT-3 的训练方式 图片来自ChatGPT 自然语言处理(NLP) 所有这些努力都是为了使 GPT 在自然语言处理(NLP)方面尽可能有效。NLP 是一个巨大的桶类别,涵盖了人工智能的许多方面,包括语音识别、机器翻译和聊天机器人,但它可以理解为教 AI 理解语言规则和语法、编程以开发复杂的过程。

算法来表示这些规则,然后使用这些算法来执行特定的任务。 既然我已经介绍了训练和算法开发方面的内容,那么让我们看看 NLP 如何使 GPT 执行某些任务,特别是响应用户提示。 重要的是要理解,对于所有这些关于标记的讨论,ChatGPT 正在生成可 加拿大手机数据库 能跟随的单词、句子、甚至段落或节的文本。这不是你手机上的预测文本直接猜测下一个单词;而是直接猜测下一个单词。它试图对任何提示创建完全连贯的响应。这就是 Transformer 给 NLP 带来的东西。 最后,最简单的想象方式就像你小时候玩的“说完句子”游戏之一。 最后,最简单的想象方式就像你小时候玩的“说完句子”游戏之一。ChatGPT 首先接受您的提示,将其分解为标记,然后使用其基于 Transformer 的神经网络来尝试了解其中最显着的部分是什么,以及您真正要求它做什么。


从那里,神经网络再次启动并根据从训练数据和微调中学到的知识生成适当的令牌输出序列。 例如,当我使用 GPT-3 向 ChatGPT 发出提示“Zapier 是……”时,它回复说: “Zapier 是一款基于 Web 的自动化工具,允许用户将不同的 Web 应用程序连接在一起,以便自动执行重复任务并改进工作流程。” 您可以在数百篇描述 Zapier 所做工作的文章中找到这种句子,因此它在这里吐出这样的内容是有道理的。但当我的编辑给出同样的提示时,它说: “Zapier 是一款基于 Web 的自动化工具,允许用户连接不同的 Web 应用程序并自动化它们之间的工作流程。” 这非常相似,但并不完全相同。问“什么是 Zapier?”、“Zapier 做什么?”和“描述 Zapier”也会得到相似的结果,大概是因为它们在向量空间中占据相似的位置。GPT 知道这里最显着的词是 Zapier,所有其他词只是要求以略有不同的方式进行简短摘要。


您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|DiscuzX

GMT+8, 2024-11-25 02:22 , Processed in 0.029917 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表