找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 258|回复: 0

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘

[复制链接]

4

主题

0

回帖

22

积分

新手上路

积分
22
发表于 2023-2-23 23:08:19 | 显示全部楼层 |阅读模式
来历:知乎



导读 大师好,我是腾讯 AI Lab 的蒋海云,明天给大师先容一下我们在智能写作助手的工作。明天的报告分为四个部分,前两部分先容 AI 智能写作助手的相关系统;后两部分先容 AI 写作中比力重要的文本改写功用触及到的两个关键技术。
全文目录以下:
1. 文本了解系统 TexSmart 先容
2. 智能写作助手 Effidit(文涌)系统先容
3. 多级可控的无监视文本改写方式
4. 文本改写评测思考和一种新的目标
<hr/>分享嘉宾|蒋海云博士 腾讯 AI Lab 高级研讨员
编辑整理|田育珍 猿教导
出品社区|DataFun
<hr/>01/文本了解系统 TexSmart 先容


先先容一下文本写作助手用到的一些了解的模块,即:TexSmart。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-1.jpg

文本了解系统在智能写作中,供给了根本的说话了解的才能,像:文本图谱、文本了解和文本婚配。文本图类似常识图谱,可以对常见的文本关系停止查询。
在了解系统之上,是明天重点先容的智能写作助手。今朝助手包括:文本纠错、文本补全、文本润饰、例句保举、云输入法和文涌学术版。

1. TexSmart 是什么



腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-2.jpg

TexSmart 是自然说话了解的工具与办事,可以对中文和英文两种说话的文本停止词法、句法和语义分析。功用分为三部分:

  • 文本了解:分词、词性标注、命名实体识别(NER)、语义联想、句法分析、语义脚色标注、文天职类和关键词提取;
  • 文本婚配:语义类似度婚配,权衡句子的类似度;
  • 文本图谱:常用文本关系的常识查询。

2. TexSmart Demo



腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-3.jpg

分词和标注就是给一个句子,对句子停止分词并标注词性。TexSmart 供给了分歧粒度的命名实体识别。粗粒度就是我们常见的十几各种别,如:时候、地址等。细粒度包括 1000 多各种别。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-4.jpg

文天职类大要有十几种。句法分析大师也都比力熟,这里就不做赘述。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-5.jpg

系统还支持语义脚色标注文本婚配

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-6.jpg

文本图谱包括五类,比如:类似词、上位词、下位词、同义词和反义词。同义词是语义完全分歧的,比如:刘德华的同义词是华仔。类似词是指同种别下别的比力类似的词,比如:刘德华的类似词是周润发、周星驰。上位词是常识图谱常用到的实体范例(type),比如:刘德华的范例是演员、艺人。右侧是另一个维度可视化的成果。

3. TexSmart 的特点



腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-7.jpg

接下来先容一下,TexSmart 和传统的文本了解相比的几大特点。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-8.jpg

首先,TexSmart 支持上千种细粒度 NER(细粒度命名实体识别),且各个范例之间具有层级结构,最深可到达七层。
其次,TexSmart 增强的语音了解功用,即:高低文相关的语义联想。比如,NER 识别出刘德华后,可以保举刘德华类似的词,这个和文本了解中有部分是类似的。
最初,TexSmart 是为了多维度利用需求而设想。在设想时,利用了多种算法,兼容了学术界和产业界的分歧需求:对运转速度要求比力高的用户,我们设想了比力浅层的像模子,比如:CRF、DNN;对精度要求比力高的用户,我们设想了基于 BERT 相关的模子。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-9.jpg

TexSmart 支持 1000 多各种别。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-10.jpg

TexSmart 支持语义联想,对句子中给定的实体,猜测与其相关联的实体调集。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-11.jpg

TexSmart 兼顾了学术界和产业界多种分歧的需求。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-12.jpg

这里先容一下 TexSmart 的设想理念和实现方式:

  • 针对分歧的人群,设想了分歧的模子和算法,从精度和速度两个维度动身,设想了精度高和速度快的模子。
  • 操纵无标注数据练习模子,这会使模子不在特定数据拟合,可以覆盖更多的数据,模子的鲁棒性更好。
  • 经过增量式收集无标注数据,周期性更新模子。
--
02/智能写作助手 Effidit 先容


接下来先容一下智能写作助手,英文叫 Effidit,中文叫文涌。
Effidit 首要功用包括:文本纠错、文本补全、文本润饰、例句保举、云输入法和文涌学术版。




  • 文本纠错包括:删除类、插入类和替换类纠错功用。
  • 文本补全包括:短语补全,按照前缀天生短语;句子补全-检索;句子补全-天生,按照前缀句子续写。
  • 文本润饰包括:短语润饰,将词替换为更高级的词;句子改写;句子扩写,将短句增加修饰成份使句子的表达更饱满。
  • 例句保举包括:关键文句子检索,关键文句子天生。
  • 云输入法包括:中英文输入法。
  • 文涌学术版包括:跨说话例句检索、语义增强的论文检索。

1. 文本纠错

文本纠错包括删除类、插入类和替换类纠错功用。

  • 删除类:文本多了一个字,需要停止删除;
  • 插入类:文本中少了一个字,需要增加笔墨;
  • 替换类:文本中有错别字,需要停止替换。
左下的图针对这三类别离举了三个例子。第一个是多了一个“要”;第二个是少了一个“到”;第三个是错别字“旧”改成“就”。右侧是我们的评测集,我们内部做了一个比力客观的评测,可以看到 Effidit 在同类产物中还是占很大上风的。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-14.jpg

英文纠错是我们的特点功用,纠错是可诠释的。比如,左下图需要纠错,在右下图除了停止了纠错,还补充了纠错的缘由。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-15.jpg

2. 文本补全



腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-16.jpg

英文本补全有两种:一种是后缀补全,一种是连系前后语境的句中补全。这里举几个例子。

  • 用户输入“阿谁大汉被打得”,给用户保举“屁滚尿流”和“措手不及”;
  • 用户输入“成都会区”,帮用户补全对应区,如:“武侯”、“高新”;
  • 用户输入“堡基地扶植”,帮用户补全“德特里克”、“美国德特里克”。


腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-17.jpg

英文补全实在就是句子续写。比如:用户输入“阿谁大汉被打得“,上面是检索获得的成果,下面是句子天生的成果。可以看到,天生的结果还是不错的。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-18.jpg

在句子补全的根本上,系统还支持气概化。今朝界说了科幻、军事、武侠、宦海四种气概。用户可以在网页当挑选气概,系统会按照前缀天生对应气概的续写。

3. 文本润饰



腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-19.jpg

文本润饰的短语润饰是在用户选中句子中的词后,智能保举加倍贴合语境的类似候选词,使全部句子表达加倍精准活泼。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-20.jpg

句子改写是不改变句子原始语义的情况下,使句子更好。我们还引入句子扩写,即不改变句子语义的情况下,对句子舔砖加瓦,使句子表达加倍饱满。

4. 超级网典



腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-21.jpg

我们还供给了超级网典功用,可以满足用户对某种特定的辞汇查询。用户输入春季,我们可以给用户保举描写春季的辞汇,如:朝气勃勃、繁花似锦。针对英文场景,系统还供给了相关词、近义词和类似词。此外,系统还支持双语的辞书,用户输入“优点和弱点”,可以看到英文条件下的相关词、近义词和类似词。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-22.jpg

除了词级此外保举,还支持句子级此外保举。用户输入关键词,检索现有文章中的例子作为例句;同时,还可以将关键词按顺序智能补全,作为完整句子。

5. 云输入法



腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-23.jpg

云输入法可以为用户供给加倍丰富及精准的候选成果,更高效的输入效力,同时还供给了英文输入法。

6. 文涌学术版



腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-24.jpg

学术版的文涌对写论文很有帮助。有些英文不太好的用户,输入“重要的停顿”,便可以看到对应的英文表达,以及论文的出处。同时,还支持论文检索。比如,输入一个算法的术语,可以查询到对应的论文。
--
03/多级可控的无监视文本改写方式


智能写作助手是多模块组成的很复杂的系统,里面触及到的关键技术很是多。由于时候关系,首要先容一下文本改写模块的部分关键技术。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-25.jpg

文本改写就是输入一段话,输出和输入时语义相关的内容,但表达会有所分歧。人类改写进程可以分为分歧的条理:

  • 全局语义:通读一遍,了解文本的语义信息;
  • 部分辞汇:大脑会决议某些辞汇是不能做点窜的,比如:人名、地名等关键信息。比如,某个内容是说刘德华的,刘德华就不能酿成张学友;
  • 整体气概,在改写的时辰,倘使有可以参考的典范,可以从中获得一些笔墨编辑或句式重构的启发。
我们的工作也将从这三个层级展开。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-26.jpg

在无监视场景下,MCPG 可以在三个层级(全局语义、部分辞汇和整体气概)上停止控制,天生加倍可控的复述成果。
左侧的 a 图斟酌不给表示样本,只斟酌全局语义和部分辞汇。比如,输入一句话,经过语义解码器可以获得句子的向量暗示。并经过特定的方式,把对应的不成点窜的关键词显现标志出来。可以设想一个输入是 Embedding 以及一些关键词的解码器。
假如间接把解码获得的内容送入天生器 Generate,天生的内容和原始的句子是一样的。我们发现,对 Semantic 的向量停止 dropout 是一个很有用的方式。经过 dropout,可以使丰富性变强。
我们会发现,p 和输入的内容很像,p 改写的句子是 q。告诉模子 p 和 q 的信息,在练习的时辰做到天生的句子和 q 很像。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-27.jpg

全局语义控制可以经过 dropout 扰动的语义编码向量控制全局语音以及输出的多样性。假如 dropout 是 0.05 或 0.01 时,天生的句子和原始句子很像,几近没什么变化;当 dropout 很大时,原始向量扰动比力大,但对语义的消耗也会比力大。
部分辞汇控制是经过关键词控制究竟性变量在复述文本中不发生变化。其中,关键词经过 NER 工具获得。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-28.jpg

整体气概的控制,主如果经过转化向量控制输出的。比如,给定一个输入,我们会告诉模子,和输入附近句子的情况,希望模子也可以类似改写。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-29.jpg

上图是模子的成果。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-30.jpg

可以看到 dropout 对模子的影响还是蛮大的:当 dropout 很大时,天生的句子和原始句子之间的类似度会直线下降。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-31.jpg

平行语料是指基于输入句子后,从多大的空间检索模子输入语料。可以看到:语料空间大,和输入语料不异的几率就越大;假如候全集很小,则检索出来的成果也会更不接近。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-32.jpg

上图是利用随机关键词对 MCPG-basic 模子性能的影响。
--
04/文本改写评测思考和一种新的目标


接下来先容一下文本评测的思考,以及改写评测新目标。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-33.jpg

今朝大师做改写,主如果从模子的角度动身,经过现有典范的目标,如:BLEU、Metric权衡。很少有人思考利用这些目标权衡文本改写的公道性。
这里把文本改写的两个维度列出来:

  • 语义类似度,改写需要保存原句的语义;
  • 多样性,改写需要有明显的多样性(词级别、语法级别)。


腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-34.jpg

适才提到,现有研讨工作中,绝大部分的工作都是努力于提出加倍大的模子。这些模子随着时候推移,结果也越来越好。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-35.jpg

以往概念把文本改写(Paraphrase)当做单语机械翻译,所以评价的目标都是借用机械翻译的目标,如:Rough、BLEU。但现实上,改写使命和机械翻译使命有着本质区分。文本改写内容的多样性是相当重要的,而在机械翻译使命中不是必须的。机械翻译首要保证翻译的内容和原本的内容的类似度,但不关注内容的多样性。
若何去改良文本改写的评价方式呢?

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-36.jpg

经过一系列的尝试,我们得出了两条反直觉的发现:

  • 绝大大都以平常用的目标在文本改写中表示欠佳。我们将评测的成果和野生评价的标准停止比对,当差别比力大时,就说明常用目标对于文本改写不适用。
  • 模子在处置时会有 reference。reference-free 是间接经过输入的句子去判定天生的句子的质量;reference-based是经过 reference 判定天生句子的质量。我们发现,reference-free 的目标好过 reference-based 目标。
按照这两个发现,我们探讨出其背后的缘由:

  • Reference-free 和 reference-based 的目标取决于数据集合 I 类和 II 类(接下来说起)数据的比例。
  • 以平常用的目标疏忽了多样性的丈量。


腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-37.jpg

接下来先容一下尝试设备。假定输入的句子是 X 和对应的 reference R,我们的方针是评测候选输入 C 的质量。对于每个目标 M,可以有 reference-based 和 reference-free。
在 reference-based 中,候全集输入 C 的质量是和 reference 比力的。在 reference-free 中,候全集输入 C 的质量是和 X 停止比力的。测评利用了 Twitter-ParaBQ-Para 两个数据集。经过 Metric 分数人类标注分数的相关系数停止评价

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-38.jpg

红色的数据暗示,大部分 reference-free 的结果比 reference-based 好。别的,机械评分和野生评分的分歧性比力低。这个图就获得我们刚说到结论:

  • 大大都常用目标和人类评价并纷歧致。在 Twitter-Para 上,BLUE-4 甚至显现出与人类正文的负相关关系。
  • 别的,对于大大都目标,其 reference-free 的变体比 reference-based 更合适人类评价。


腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-39.jpg

我们经过数据观察发现一个现象,当候选 C 和 R 间隔很远,reference-free 更好;当 C 和 R 很近,此时 reference-based 更好。我们也是以将数据分为 I 类和 II 类。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-40.jpg

我们做了一个尝试,数据表白:对于候选 C 来说,假如 C 和 R 的间隔明显大于 C 和输入 X 的间隔,那末 reference-based 的怀抱会优于 reference-free 的怀抱。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-41.jpg

这个是尝试的成果。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-42.jpg

现有文本改写的质量首要斟酌语义类似度和多样性。以往目标首要斟酌类似度,很少斟酌多样性。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-43.jpg

尝试成果表白,一切目标的相关分数都是负的。这说明,对文本改写的评价目标在描写多样性上表示较差。但多样性对文本改写是很是重要的。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-44.jpg

是以,我们提出了新的目标 ParaScore。全部得分分为类似度 Sim 多样性 DS 两部分。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-45.jpg

这里还有个变体版本,当 C 跟 X 比力近时退化为 reference-free 版本;当 C 跟 R 比力接近时,则为 reference-based 版本。同时,引入 DS,来提升模子多样性。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-46.jpg

在两个数据集上,Pearson 和 Spearman 系数的分歧性就行了很多。但这些评测目标还是有很大研讨空间的。

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-47.jpg

消融尝试成果表白,ParaScore 的设想对 ParaScore 的有用性相当重要。

这个是相关系统的链接,上面是系统的微信群,下面是我的微信,接待大师多多交换。
明天的分享就到这里,感谢大师。
<hr/>分享嘉宾


腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-48.jpg
蒋海云 博士|腾讯AI Lab  高级研讨员
蒋海云, 2020 年博士结业于复旦大学数据科学偏向,首要研讨包括常识图谱、文本了解,文本天生等,在 ACL、EMNLP、IJCAI、AAAI、ICDE 等会议颁发论文27篇。
<hr/>《数据智能常识舆图》下载

高低滑动⬆️⬇️,检察《数据智能常识舆图》预练习模块,完整版请关注公众号“鬼话数智”下载

腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-49.jpg
<hr/>DataFun新媒体矩阵


腾讯智能写作助手“文涌”(Effidit)关键技术揭秘-50.jpg
<hr/>关于DataFun

专注于大数据、野生智能技术利用的分享与交换。倡议于2017年,在北京、上海、深圳、杭州等城市举行跨越100+线下和100+线上沙龙、论坛及峰会,已约请跨越2000位专家和学者介入分享。其公众号 DataFunTalk 累计生产原创文章900+,百万+阅读,16万+精准粉丝。




原文地址:https://zhuanlan.zhihu.com/p/607474611
免责声明:
1、文章部分图片源于收集,均为表示图;
2、一切文章、图片、音频视频文件等材料版权归版权一切人一切;
3、因非原创文章及图片等内容没法和版权者联系,如原作者或编辑以为作品不宜上网供阅读,或不应无偿利用,请实时告诉我们,以敏捷采纳适当办法,避免给双方形成不需要的经济损失;
4、本页面内容由爬虫法式自动收集于互联网,如无意中加害了媒体或小我的常识产权,请电邮【E-Mail:cb@yoyodoc.com】告之,我们将于24小时内删除。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|小悠文档创作分享社区 ( 粤ICP备11072215号 )|网站地图

GMT+8, 2024-11-24 23:40 , Processed in 0.415547 second(s), 33 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表