本篇文章2754字,读完约7分钟

去年年底,谷歌发布了一个简洁的机器语义分析项目:pegasus:经过机器学习和预先培训的自动文章摘要项目。最近,这个项目迎来了一个新版本。这个小项目可以自动准确地从文章中提取摘要,并且只需要1000个训练模型就可以生成与人类相当的摘要。

谷歌开源项目飞马(PEGASUS):可以自动进行文章摘要

当包括文本摘要在内的下游自然语言处理任务被微调时,最近在大型文本语料库中进行的以自我学习为目标的预训练已经显示出巨大的成功。

然而,为抽象文本摘要定制的训练前目标还没有被讨论。此外,缺乏对不同领域的系统评价。在这项工作中,我们提出了一种基于大规模编解码器模型的预训练方法,在大规模文本语料库上使用新的自训练目标。在pegasus中,重要的句子被从输入文档中删除/屏蔽,并作为其余句子的输出序列一起生成,类似于摘要。

谷歌开源项目飞马(PEGASUS):可以自动进行文章摘要

我们在涉及新闻、科学、故事、解释、电子邮件、专利和法案的12个下游汇总任务中评估了最佳飞马座模型。

实验表明,该算法在所有12个下游数据集上取得了最先进的性能。我们的模型在低资源总结方面也表现出惊人的性能,在1000次研究后,仅在6个数据集上超过了最新的结果。

最后,我们使用手动评估来验证我们的结果,并表明我们的模型摘要可以在多个数据集上手动表示。

附件:如何部署自动摘要环境

项目地址:github/google-research/pegasus

设置为使用gpu在谷歌云上创建一个实例(可选)。请创建一个项目,并首先创建一个实例

gcloud计算实例创建\ $ { VM _ name } \-zone = $ { zone } \-machine-type = n1-high mem-8 \-accelerator type = NVIDIA-Tesla-v 100,count = 1 \-boot-disk-size = 500 GB \-image-project = ml-images \-image-family = TF-1-15 \-维护-策略终止-失败时重新启动安装库和依赖项克隆库并在github上安装要求。

谷歌开源项目飞马(PEGASUS):可以自动进行文章摘要

git clone github/Google-research/pegasus CD pegasus export python path = . pip 3 install-r requirements . txt按照说明安装gsutil。

下载混合和动态模型的vocab,预先训练和微调的检查点。

mkdir ckptgsutil CP-r GS://pegasus _ ckpt/ckpt/微调下游数据集微调现有数据集。

py S3 pegasus/bin/train . py-params = AES LC _ transformer \-param _ overrides = vocab _ filename = ckpt/pegasus _ ckpt/C4 . unigram . new line . 10pt . 96000 . model \-train _ init _ check point = ckpt/pegasus _ ckpt/model . ckpt-1500000 \-model _ dir = ckpt/pegasus _ ckpt/AES LC评估微调数据集。

谷歌开源项目飞马(PEGASUS):可以自动进行文章摘要

py S3 pegasus/bin/evaluate . py-params = AES LC _ transformer \-param _ overrides = vocab _ filename = ckpt/pegasus _ ckpt/C4 . unigram . new line . 10pt . 96000 . model,Batch_size = 1,beam _ size = 5,beam _ alpha = 0.6 \-model _ dir = ckpt/pegasus _ ckpt/AES LC请注意,上述示例使用了一个gpu,因此Batch_size比本文中报告的结果小得多。

谷歌开源项目飞马(PEGASUS):可以自动进行文章摘要

添加新的优化数据集支持两种类型的数据集格式:tensorflow Dataset(tfd)或tfrecords。

本教程展示了如何在tfd中添加新的数据集。(如果您想监督微调数据集,请在数据集信息中提供监督键)。

Tfrecords格式要求每个记录都是TF示例{"inputs": tf.string," targets": tf.string}。

例如,如果您注册一个新的tfds_dataset TFDS数据集用于训练和评估,并且有一些名为tfrecord格式new_dataset_files.tfrecord*的文件用于测试,您可以在/pegasus/params/public _ params . py中注册它们。

@ registry . register(" new _ params ")def my _ param(param _ overrides):return public _ params . transformer _ params({ " train _ pattern ":" tfds:new _ tfds _ dataset,train," " dev _ pattern ":" tfds:new _ tfds _ dataset,validation," " test _ pattern ":" TF record:new _ dataset _ files . TF record * "," max_input_len": 512," max _ output _ len": 128," train _ steps": 10000," learning _ rate ":0.001评估结果可以在mode_dir中找到。自动计算每个评估点的汇总指标。

谷歌开源项目飞马(PEGASUS):可以自动进行文章摘要

胭脂是总结质量的主要指标。

Bleu是替代语言生成的质量指标。

提取片段的覆盖率和密度是衡量摘要抽象性的指标。

重复率测量取代了重复失败模式。

将长度统计与黄金摘要进行比较,以测量解码的长度分布。

模型目录可以在以下类型的输出文件中找到

文本_度量-* .Txt:以上指示器以文本格式显示。每行包含度量名称、95%下限值、平均值和95%上限值。输入。目标。txt,预测-*。txt:模型输入/输出的原始文本文件。预训练(在c4或任何其他语料库上)预训练需要定制的张量流,包括实时解析操作,该操作将原始文本文档作为模型输入并指定id。有关更多信息,请参见pegasus/ops/pre tain _ parsing _ ops . cc和pegasus/data/parser . py。

来源:零点娱乐时刊

标题:谷歌开源项目飞马(PEGASUS):可以自动进行文章摘要

地址:http://www.02b8.com/yjdyw/5529.html