手机

全球追捧的ChatGPT在实际的AI应用场景中表现如何

应用现状包括什么_ai技术的现实应用_现代应用教育技术

作者|詹昆林,58技术委员会AI分会主席、TEG—AI Lab负责人

规划| 柳岩

本文内容是2023年2月14日在58技术委员会AI分会AI技术沙龙“ChatGPT科普与应用”上分享的总结。

OpenAI于2022年11月30日发布ChatGPT,是一款基于大模型技术的通用聊天机器人。 它可以用于写作、翻译、润色句子、进行事实问答、进行文本分类/实体提取/阅读理解。 /文本摘要等各种NLP任务,甚至可以写SQL和代码,几乎无所不能。

ChatGPT自发布以来就广受欢迎,引起业界震动。 我们也持续关注ChatGPT,体验其功能,了解其技术原理,并基于爬虫技术封装了ChatGPT API,并在实际NLP应用场景中对比了ChatGPT和自研。 技术的效果。

本文从应用角度给出了对ChatGPT的一些思考。

1.从GPT到ChatGPT的演变

谷歌在2017年的《Attention Is All You Need》一文中发布了Transformer,此后对NLP、语音、CV等AI领域产生了深远影响。 2018年6月,OpenAI发布了GPT(Generative Pre-Training)[1]——一种基于Transformer Decoder结构和无监督预训练方法的生成式预训练语言模型,也称为GPT-1。

2018 年 10 月,Google 发布了 BERT(来自 Transformers 的双向编码器表示)[2]。 BERT是基于Transformer Encoder结构的预训练语言模型。 它在多个NLP任务上实现了SOTA效果,打通了自然语言处理的“预训练”。 +微调”是自然语言处理发展史上的一个里程碑。

自发布以来,BERT 在学术界和工业界都产生了重大影响。 大量的论文和应用都是基于BERT的。 BERT 论文在 Google Scholar 上的引用次数远远超过 GPT。 近年来,大模型技术蓬勃发展,国内外发布的大模型已经有一些大模型也是基于BERT技术路线实现的。

应用现状包括什么_ai技术的现实应用_现代应用教育技术

OpenAI持续升级优化GPT。 2019年2月发布了GPT-2[3],2020年6月发布了1750亿参数的超大型模型GPT-3[4],轰动一时。 GPT-3不需要像BERT那样通过针对特定任务进行微调,大型模型就可以在一系列自然语言处理任务上取得优异的结果。 结合Few-Shot的少样本学习能力,它甚至可以在某些任务上接近或达到state of the art。 苏塔效应。

在使用BERT执行特定场景下的NLP任务时,例如文本分类,需要手动对场景中一定量的数据进行标注,然后微调一个文本分类模型,将其应用到分类中,即,模型再次更新。 对于不同的任务,有必要采用这种方式。

使用GPT-3执行NLP任务时,不需要重新更新模型。 你只需要给它发送一个提示(Prompt)比如“请对这段文本进行分类,类别标签是A、B、C”就可以完成分类,或者你可以用少量的标签数据作为例子来告诉模型以获得更好的结果。 从这一点来看,GPT-3 比 BERT 更容易使用。 值得注意的是,自GPT-3以来,OpenAI并未像GPT-1和GPT-2那样发布开源代码,而是以API的形式提供商业服务。 详情请参阅。

应用现状包括什么_现代应用教育技术_ai技术的现实应用

BERT和ChatGPT执行任务的区别

ChatGPT 是从 GPT-3 发展而来的。 付遥等人在《拆解并追溯GPT-3.5各种能力的起源》一文中总结了从GPT-3到GPT-3.5的进化树[10]。 OpenAI API 中的模型名称是 Davinci。 之后,通过代码训练、指令微调、RLHF(人类反馈强化学习)等过程,演化为ChatGPT。 详细内容可以参见文章[10],这里不再赘述。

2022年11月,除了发布ChatGPT之外,OpenAI还发布了text-davinci-003模型。 两者均使用基于 text-davinci-002 模型的 RLHF 方法进行训练。 ChatGPT实际上不仅仅是一个单独的模型,而是一个完整的Web聊天机器人产品,内部调用的模型假设也称为ChatGPT。

ai技术的现实应用_应用现状包括什么_现代应用教育技术

从 GPT-3 到 GPT-3.5 的进化树。 付尧等. 2022年12月11日

OpenAI 尚未发表 ChatGPT 论文。 其仅在官网发布了一篇BLOG[9]。 该博客指出“我们使用人类反馈强化学习(RLHF)来训练这个模型,使用与InstructGPT相同的方法,但在数据收集设置上略有不同”,ChatGPT模型训练使用RLHF方法,这与InstrutGPT一致[8 】 2022 年 3 月发布。仅数据收集方面存在一些差异。 目前介绍ChatGPT技术原理的文章都是介绍InstrutGPT。

RLHF 并不是一种全新的方法。 InstrutGPT论文中提到,该方法参考了2020年9月发表的文章《Learning to Summary from human Feedback》[7]和2017年6月发表的文章《Deep Reinforcement Learning from Human》[12],文章[ 7]同时参考了2019年9月发表的文章《Fine-Tuning Language Models from Human Preferences》[6],可见OpenAI在RLHF方法上不断积累积累,ChatGPT公司的诞生并没有发生过夜。

现代应用教育技术_应用现状包括什么_ai技术的现实应用

ChatGPT 训练过程。 2022年11月30日

应用现状包括什么_现代应用教育技术_ai技术的现实应用

指导GPT训练过程。 2022.3

现代应用教育技术_ai技术的现实应用_应用现状包括什么

学习从人类反馈中总结。 2020.9

应用现状包括什么_ai技术的现实应用_现代应用教育技术

根据人类偏好微调语言模型。 2019.9

2.GPT API说明

目前,从GPT-3到GPT-3.5的进化树中除ChatGPT模型外的所有模型都可以在OpenAI发布的GPT API中调用。 用户可以在API Playground中选择模型版本来体验,也可以编写程序来调用。 进行批量实验的API,如下图所示。

现代应用教育技术_ai技术的现实应用_应用现状包括什么

GPTAPI游乐场

现代应用教育技术_ai技术的现实应用_应用现状包括什么

GPTAPI 目前支持的模型

ChatGPT 以网络聊天机器人的形式发布。 用户需要登录网站才能体验。 OpenAI尚未发布ChatGPT API,但OpenAI API官网显示即将发布。 “ChatGPT 即将加入我们的 API,请注册以保持更新”。目前,业界有一些聊天机器人工具声称基于 ChatGPT,但它们都是使用非官方 API 实现的。例如,您可以访问基于爬虫技术的ChatGPT官方网站,封装成ChatGPT API,并注册大量ChatGPT账号,保证支持一定的访问量。。ChatGPT官网对访问频率有限制,官网有时会因为用户请求太多而无法访问,这样的API不太稳定,只能在一些离线场景下使用,值得一提的是,ChatGPT目前提供付费账户,价格为20美元/月,经过测试,付费账户和免费账户的访问频率没有太大区别,但是付费账户的服务响应会相对稳定,如果是个人使用,就使用免费账户即可。

应用现状包括什么_ai技术的现实应用_现代应用教育技术

ChatGPT官方网站

GPT API根据输入和输出令牌的数量收费。 价格为0.02美元/1000个代币。 1个token约0.75个英文单词,1个汉字约2个token。 这包括请求 API 的令牌(Prompt)和 API 返回的令牌(Completion)。 ),一个GPT账户将获得18美元的免费积分,有效期3个月。 未来ChatGPT API的收费方式很可能是一样的。

ai技术的现实应用_应用现状包括什么_现代应用教育技术

GPT API收费说明

ai技术的现实应用_应用现状包括什么_现代应用教育技术

平台输入和输出每个请求的令牌计数。

从GPT-3到GPT-3.5的进化树可以看到,text-davinci-003模型和ChatGPT模型都是在text-davinci-002模型的基础上使用RLHF方法训练的。 两者都将于 2022 年 11 月发布。两者之间的差异可能是由于不同类型的手动反馈数据的调优差异所致。 ChatGPT模型应用于对话式聊天,并将根据在线对话数据进行调优。 可能在上下文多轮对话、拟人化等能力上更强一些。 text-davinci-003是根据GPT API(如上面提到的Playground)上的用户反馈数据进行优化的。 对相关任务的影响可能与ChatGPT没有太大区别。 例如下面文章中有实验对评论情感分类任务具有同等效果。 。 因此,用户可以直接使用GPT API中的text-davinci-003模型来构建相关应用。

3. GPT-3培训费用

GPT-3有1750亿个参数,模型训练需要大量资源。 OpenAI尚未透露GPT系列大型模型的训练和推理的具体成本。 我们可以从其他材料中获得一些信息。

2020年5月,文章[12]提到微软在Azure上为OpenAI构建了独立的超级计算机系统,包括285,000个CPU核心和10,000个GPU卡(当时的V100):为OpenAI开发的超级计算机是一个拥有超过285,000个GPU的单一系统每个 GPU 服务器具有 CPU 核心、10,000 个 GPU 和每秒 400 GB 的网络连接。 2020 年 6 月发布的 GPT-3 模型应该在该系统上进行训练。

NVIDIA 于 2021 年 4 月发表了《在 GPU 集群上进行高效大规模语言模型训练》[13],文章估算了不同参数大小的大型模型训练所需的资源和时间:使用 1024 个具有 80G 显存的 A100 卡进行训练的 GPT-3具有 1750 亿个参数的模型需要 34 天来训练。

这些是2-3年前的成本描述。 根据相关资料,目前训练GPT-3的成本较低。 《》一文谈到“对于大公司来说,培训 LLM(即使是从头开始)的成本并没有那么高。如今,在公有云中培训 GPT-3 仅花费约 140 万美元。”

4、ChatGPT的应用

ChatGPT 可用于编写、翻译、润色句子、进行事实问答、编写 SQL、编写代码以及执行文本分类/实体提取/阅读理解/文本摘要等各种 NLP 任务。 相关案例不再一一详述,仅在此进行讨论。 我们尝试了ChatGPT在智能写作、智能客服、智能外呼等实际产品场景中的应用。 相关实验对比结果是基于我们独立封装的ChatGPT API完成的。

智能写作:

我们从2018年开始就开始实现智能写作,用机器自动生成一些针对各种场景的稿件。 例如自动生成介绍二手车来源的文章,请参见“”。 独创的生成方式是基于优质车源帖子数据,采用模板填充和文本生成技术自动生成文章。 生成的文章简短而直白。 我们使用 ChatGPT 来润色这些文章,并向 ChatGPT 发送“请润色以下文本”的提示。 “字数在400字以内”完成任务。ChatGPT打磨出来的文章可读性极强。此外,我们还尝试直接使用车辆来源属性字段让ChatGPT来写。比如给ChatGPT发送提示“请使用以下关键字写一篇 400 字的文章。” 最后,ChatGPT 也可以生成更好的可读结果。我们都知道 ChatGPT 会在一些常识性问题上出错,可能会生成一些错误的内容。但是,我们生成文章基于优质汽车源帖数据,汽车源帖首先是真实的,最终生成的内容也是真实可用的。

在本地服务(黄页)业务下,客户(商户)需要定期删除旧帖子并重新发布新帖子。 由于商家平时工作繁忙,往往没有时间发帖,因此平台为顾客提供发帖服务,并有人工帮助。 邮政。 2022年,我们推出AI自动发帖功能,节省人力30余人。 AI自动发帖的总体逻辑是根据旧帖子的正文内容和用户对帖子的评论,自动生成新的帖子标题并更新文本内容。 更新帖子正文内容时,需要过滤掉优质的用户评论,将评论细化为一小段文字,插入帖子正文头部,并以“口碑亮点”展示“ 模块。

ai技术的现实应用_现代应用教育技术_应用现状包括什么

发布文字口碑亮点

我们最初的解决方案是使用微调后的 BERT 模型来识别评论的正面和负面情绪,首先挑选出正面评论,然后基于提取方法生成最终的评论短语。 我们将 ChatGPT 应用到了这个场景中。 我们首先使用ChatGPT识别评论的正面和负面情绪,然后继续使用ChatGPT将正面评论打磨成最终的“口碑亮点”,取得了不错的效果。 识别评论中的积极和消极情绪是一项常见的 NLP 任务。 我们直接向ChatGPT发送Prompt提示“对下面的评论进行分类。分类有正面的和其他的。【商人很专业很有耐心】属于什么分类?” 这里不提供先验知识和例子,即Zero-Shot,也能取得不错的效果,略低于BERT微调模型。 我们继续用Few-Shot进行实验,告诉它分类标准并给出一些例子。 如下图所示,识别效果明显提升,超越了BERT微调模型,可见ChatGPT非常强大。 在之前的 GPT API 章节中,我们提到了 2022 年 11 月同时发布的 text-davinci-003 模型和 ChatGPT 模型在某些 NLP 任务上可能差别不大。 这里我们也验证了这两个模型都用于评论情感识别任务中。 差别不大。

应用现状包括什么_现代应用教育技术_ai技术的现实应用

ChatGPT 对识别评论中积极和消极情绪任务的影响

ai技术的现实应用_应用现状包括什么_现代应用教育技术

ChatGPT 少样本

另外,我们在SEO场景上也进行了探索,利用ChatGPT生成一些SEO场景所需的内容。 虽然ChatGPT会生成一些与事实不符的内容,但通过优化Prompt,生成的结果基本可以使用,结合人工审核、人工Rewrite,最终得到满足SEO需求的内容。

智能客服:

目前网上很多人说ChatGPT可以直接用于智能客服,可以裁掉一些客服或者销售人员。 很多人都相信这是真的,但事实并非如此。 智能客服是目前非常成熟的产品,已经被各大企业应用,可以提高客户服务效率。 这就是智能客服的基本原理:企业维护一个业务问答知识库,它是业务问答的集合。 如果用户在使用APP时遇到相关问题,将在智能客服聊天窗口中输入问题进行咨询。 ,机器会自动理解用户输入的问题,从问答知识库中找到与用户输入语义相同的问题,即文本匹配或文本分类,然后将问题的答案返回给用户。

现代应用教育技术_ai技术的现实应用_应用现状包括什么

智能客服的基本原理

智能客服的核心是构建问答知识库和文本匹配。 问答知识库中的问题是在线用户遇到的真实业务问题,答案由客服人员手动编制。 文本匹配是传统的NLP技术。 。 显然,客服场景的问答知识库是企业独有的。 ChatGPT 尚未获悉这些数据,因此不可能对用户的询问给出正确答案。 一些业务方也向我们提到了用ChatGPT替代现有智能客服系统的想法。 我们从真实的在线用户中提取了一定量的输入,并将其交给 ChatGPT 进行回答,最终证实了它在涉及业务问题时会认真对待“废话”。 当然,如果我们将所有问答知识库数据提交给ChatGPT进行微调,也可以回答得更好。不过,目前ChatGPT不提供微调功能,GPT-3 API提供了微调功能- 调整功能。

虽然ChatGPT不能直接用于智能客服,但我们可以将其用于智能客服中的文本匹配任务。 我们在最近接入的一个新的业务场景中尝试了ChatGPT。 我们可以向 ChatGPT 发送提示,如下所示。 零射击的效果很差。 如果在提示中的每个标准题中添加少量的扩展题,可以提高效果。 但要超越自研模型,Prompt还需要做更多的优化工作。

现代应用教育技术_应用现状包括什么_ai技术的现实应用

ChatGPT文本匹配效果

ai技术的现实应用_现代应用教育技术_应用现状包括什么

使用 ChatGPT 的文本匹配提示示例

智能客服的问答知识库是不断更新的,因为随着产品功能的不断更新和升级,在线用户会遇到新的操作问题,这些新的问题会被挖掘并添加到问答知识库中,并通过不断的数据注释用于积累这些新问题的扩展问题。 通常,在新问题推出的早期阶段,扩展问题较少,并且模型在识别新问题方面效果较差。 这里,还可以直接使用ChatGPT,在生成新问题时,为每个新问题生成几个扩展问题(数据增强),然后添加到模型中。 训练使得模型对新问题有更好的识别效果。 我们还在新的接入场景下进行了实验对比。 对于这六个新问题,我们使用 ChatGPT 为每个新问题生成数十个扩展问题,然后训练模型。 与没有数据增强的方法相比,模型效果得到了显着提升。

应用现状包括什么_现代应用教育技术_ai技术的现实应用

自研模型+ChatGPT数据增强效果

在招聘业务冲向市场直接招聘的“微信反向邀请”场景中,C端用户通过微信与B端企业沟通时,我们应用了智能客服留存机器人。 详细介绍请参见“”。 当端公司发起微信通讯时,如果B端公司不在线,机器人就会与C端用户对话。 通话结束后,若识别出用户求职意向较高,将调用智能双呼能力(见“”)提醒B端企业,B端企业接听电话后,可以一键直接连接C端用户,双方可以直接通过电话进行沟通。 这里机器人需要根据微信对话记录识别用户的求职意图。 我们还尝试了 ChatGPT。 通过优化Prompt,ChatGPT在F1-Score中超越了自研模型。 但这是一个强调准确性的业务场景,因为需要尽可能保证连接到B端企业的用户是真实的求职者。 然而,如何通过调整Prompt来控制ChatGPT的准确率和召回率,目前还没有找到有效的方法。 ,而自主开发的模型做到这一点非常简单。

现代应用教育技术_ai技术的现实应用_应用现状包括什么

使用ChatGPT进行对话意图识别

智能外呼:

智能外呼是一种实时人机语音对话场景。 电话通讯语音会被语音识别引擎实时转录为文本,然后交给NLP模型进行语义理解。 本质上和微信文字对话是一样的。 上面的文本分类也会进行。 文本匹配和对话意图识别任务与 ChatGPT 应用程序类似。

人机语音对话比微信文字对话对延迟更加敏感,即NLP模型需要快速返回识别结果,所需时间一般在几十到几百毫秒之间,因为在实时对话过程中人与机器之间,如果机器响应速度慢,比如需要几秒钟才响应,人就会明显感觉到停顿,用户体验很差。 他们可能会直接挂断电话,从而影响转换效果。 在一些微信智能客服场景中,为了让用户感觉背后没有机器人,他们会刻意让机器人回答缓慢,在程序中做一些延迟回复的操作。 目前ChatGPT和GPT API的推理延迟并不低,平均耗时在几秒级别。 不建议直接将ChatGPT作为NLP模块应用在人机语音对话中。

我们使用ChatGPT在最近推出的语音对话场景中进行槽提取(实体提取)的离线实验,以识别对话内容中的位置和服务类别槽。 这里我们直接使用Zero-Shot向ChatGPT发送提示“请提取此段中的省、市、区及服务类别”,从实验结果来看,ChatGPT表现良好。

ai技术的现实应用_现代应用教育技术_应用现状包括什么

ChatGPT槽提取效果

5. 个人感想

ChatGPT可以在大型模型中完成很多任务,而且效果非常好,前所未有,令人惊叹。 毫无疑问,ChatGPT可以辅助各个岗位的劳动力,提高人的工作效率,但是否能够完全取代某些岗位,还需要时间来验证。 以NLP工程师职位为例。 企业如果想用ChatGPT替代NLP工程师,至少要考虑以下几点:

目前ChatGPT在国内无法直接访问。 即使未来向全国开放,与各大企业的合作也会非常敏感。 如果国内企业的大量数据流入ChatGPT,将会存在很大的风险。 中国做自己的ChatGPT是非常有必要的。 目前国内各大厂商和一些初创公司都在努力。 也许在不久的将来,国内的ChatGPT解决了上述问题后,真的就不需要那么多NLP算法工程师了。

参考:

[1] GPT1:通过生成预训练提高语言理解。 2018.6

[2] BERT:用于语言理解的深度双向变压器的预训练。 2018.10

[3] GPT2:语言模型是无监督的多任务学习器。

2019.2

[4] GPT3:语言模型是少样本学习者。 2020.5

[5] GPT3 API:2020.6

[6] 根据人类偏好微调语言模型.2019.9

[7] 学习从人类反馈中总结。 2020.9

[8] InstructGPT:训练语言模型以遵循人类反馈的指令。 2022.3

[9] ChatGPT:优化对话语言模型.2022.11.30

[10] GPT的能力是如何获得的? 追踪语言模型的涌现能力的来源。 付尧等. 2022年12月11日。 中文版:对GPT-3.5各种能力的拆解和溯源。 2022年12月18日。

[11]从人类偏好出发的深度强化学习.2017.6

[12]微软发布新款超级计算机,为未来AI工作规划愿景2020.5.19

[13] GPU集群上高效的大规模语言模型训练.2021.4

[14] OpenAI API。

ai技术的现实应用_应用现状包括什么_现代应用教育技术

你也在“看”吗?