小样本相关性分析(检验小样本(10对左右数据)的相关性)

对雅虎问答,BERT要打败大约400个带标签的训练文本Roberta和TARS零样本分类器,Bart即使有800个带标签的训练实例,在意图分类任务中,零样本分类器也会脱颖而出,BERT精度还远低于NLI;

应该用什么方法来检10对数据)的相关性?

你能对没有任何标记的文本进行分类训练吗?

小样本相关性分析(检验小样本(10对左右数据)的相关性)

迁移学习对自然语言处理有很大影响。NLP领域,BERT模型的训练结果比以前更准确,通常更少的标记数据可以实现准确的训练。目前,微调语言模型已成为NLP有于标准程序,有些人自然会好奇地问分析

在训练特定任务时,真的有必要标记数据吗?本文研究了两种可用的零样本文本分类模型,并评估了它们的性能。

零样本和少样本NLP模型是转移学习的一个特例样本相关性分析

其目标是在没有任何标记数据(用于零样本学习)或只有少量标记数据的情况下进行预测。最著名的例子无疑是OpenAI的GPT-3,它已被证明是一种应用广泛、非常成功的少样本学习模型。虽然操作GPT-3超出了大多数开发人员的能力,但幸运的是,有几个小的替代方案。

2022两年最受欢迎NLP库为Flair和,两者都在各自的产品中增加了零样本分类。一方面,Flair使用所谓的TARS分类器,缩写,只需几行代码即可运行:小样本相关性分析

另一方面,Transformers一系列模型可用于零样本分类管道:

虽然两者有明显的相似之处,但这两种零样本文本分类的实现方法却大不相同。

Transformers库中的零样本管将文本分类为自然语言推理(NLI)。这种方法由Yin等人于2022年开创。在NLI中,模型以两个句子作为输入——其中一个句子为前提,另一个句子为假设——通过模型训练决定假设是否与前提一致(隐含),假设是否与前提矛盾(矛盾),还是两者都不是(中立)。例如,David杀死了Goliath的前提是假设Goliath已经死了,和Goliath还活着矛盾,不能通过以上两句话得到Goliath这是一个巨人的结论。在表达需要标记的文本的前提下,假设每个候选类别可以在文本分类任务类别中重复使用NLI模板。对于极性分类等任务,前提可能是我喜欢这部电影。假设句子是积极的,句子是否定的,或者句子是中这个句子是中性的,定前提和每个假设之间的关系。在单标签分类中,所有结果的分数都通过softmax,识别单个可能性最大的类别;在多标签分类中,每个标签的隐含分数和矛盾分数是独立的softmax,可以识别多个相关标签。

Flair库中的TARS分类器采用不同的方法。类似于以前的方法,它通过输入标签和文本来输入BERT在分类器中,提取特定文本的分类结果、标签和文本使用[SEP]标记分隔。两者的主要区别在于,BERT模型不是针对性的NLI这是一个通用的文本分类版本,通过将每个输入标记为真假来实现培训模型。确保它能够处理各种分类任务,Flair的TARS分类器对9个不同的数据集进行了微调,涵盖极性分类和主题分类。对于单标签分类,只选择正确的True最高分的分类是最终预测;对于多标签分类,所有返回预测都是True的分类。

虽然这两种零样本分类方法听起来很有吸引力,但它们有一个缺点:与传统的文本分类相比,每个输入文本都需要多个前模型通道——每个候选标签都有一个前模型通道。因此,这些模型的计算效率低于传统的文本分类器。然而,与昂贵的数据标签相比,这可能只是大多数应用程序的一个小成本。

更现实的问题是如何准确地工作零文本分类?为了找到这个答案,上述分类器通过五个不同的任务进行了评估,涵盖了从主题到情感分析的分类。使用上述四个数据集,以确保这些数据集不用于微调Flair的TARS并从每个项目中选择1000个随机测试项目:

·yahoo_answers_topics:来自雅虎问答的问答分为社会文化、科学数学等10个主题。作为模型的输入,只使用最佳答案。·:银行领域的一组在线用户查询标记为77种意图之一。由于意图(如card_about_to_expire和card_not_working)的粒度非常细。tweet_eval:对于各种任务标记后的英文推文,测试了这些模型是否能预测-愤怒、快乐、乐观或悲伤,以及推文的情绪极性-积极、消极或中立。·financial_phrasebank:极性标签金融新闻句子(如出口市场销售增长):正、负或中性。只选择与标签意见一致的句子。测试中使用了三种不同的零样本文本分类器:Flair的TARS分类器、为NLI设计的两个Transformers模型:bart-large-mnli和roberta-large-mnli。下图显示了这三个分类器实现五项任务的准确性。结果因数据集而异,但有一种模式是明确的:性能最好的模型是NLI方法。以雅虎问答为主题,bart给出最好的准确性(39.2%),其次是TARS和Roberta,两者的准确性为27.5%。乍一看,虽然银行的任务似乎更具挑战性,但它是。NLI模型在这里表现得更好:它们都正确地对41%以上的测试项目进行了分类,从而使测试项目正确分类TARS分类器远远落后。在推文情绪分类中,Bart(73.6%)和Roberta(71.9%)都表现得很好,很容易被击败TARS(32.3%)。

需要对两个极性分类任务进行额外的解释,并显示第一次评估的操作结果TARS通过仔细研究,发现在大多数情况下,分数很低(精度低于33%的随机基线),TARS新闻句子和句子未能预测tweet_eval的单一标签。为了解决这个问题,执行了第二次运行,其中让TARS返回中性的每一个无标签句子。从下图可以看出TARS分数。对于这两个极性任务,Roberta最好的结果是:推文的准确性是54.0金融新闻句子的准确率为%58.8%。TARS和Bart在tweet_eval获得类似结果的准确性分别为48.2%和49.0%。在金融新闻的句子分类任务中,TARS表现更好,得到了51.7准确率为%。

零样本模型务的零样本模型结果

选择好的分类名称

在传统的监督学习中,标签的实际名称对模型的性能没有影响,可以随意称为积极、政治或食蚁兽,没有区别。这些名字文本分类中,这些名称突然变得非常重要。NLI和TARS分类器将标签本身添加到模型的输入中,因此分类名称将改变预测结果。一般来说,分类名称中包含的语义信息越多,与模型确定的数据类型越相似,分类器的执行结果就越好。

以极性分类任务为例

这项任务中的传统分类名称是:积极、中立和消极,但它们不是零样本方法的最佳名称。为了验证这一点,我尝试了两个替代金融新闻数据的分类名称:好消息、中性消息和坏消息,或好消息、中性消息和不幸消息。如下图所示,这对分类器的准确性有很大影响。TARS(62.0%)和Bart(61.9%)比Roberta尽管表现得更好Bart只使用满意/不满意两种分类名称。Roberta精度提高了13%,超过73%。零样本分类器减少了对数据标记的需求,但同时也引入了寻找好分类名称的必要需求。

实际分类名称将对零样本分类器产生重大影响

少样本学习

就像在极性分类中看到的,TARS分类器往往有低回调。在默认分类的任务中,如中性,这个标签可以作为后退选项,但在其他情况下,需要不同的解决方案。幸运的是,Flairs通过一些训练示例很容易实现TARS微调。让我们来看看如果给出每个模型分类的示例,并在小型训练集中进行调整,会发生什么?由于最终模型的性能将取决于所选的训练例,这个过程将被重复十次,这些例子总是从训练语料库中随机选择。

下图显示,TARS在少样本学习过程中,分类器受益匪浅。这三项任务对那些没有默认分类的人影响最大:TARS在三分之二的情况下,精度显著跳跃NLI模型相当。有趣的是,这种情况甚至发生在情感数据集上,其中只有四个例子被用作训练集。极性分类任务的好处并不明显,因为回调问题已经通过引入默认分类来解决,在少样本学习中只使用三个标记示例。

TARS从少样本学习中受益匪浅

为了评估零样本模型的性能,可以提出分类器需要多少标记数据的问题?在每个数据集的随机子集上测量这一点bert-base-uncased微调模型测试了100、200、400和800个培训项目的数据集,并结合100个验证项目。如上所述,重复了随机选择的培训数据和验证数据的十个培训过程。

对雅虎问答,BERT要打败大约400个带标签的训练文本Roberta和TARS零样本分类器,Bart即使有800个带标签的训练实例,在意图分类任务中,零样本分类器也会脱颖而出,BERT精度还远低于NLI;对于情感分类任务,BERT至少需要800个带标签的训练实例才能优于零样本模型;尽管差异并不明显,但推文的情绪极性分类也是如此。在这里,带标签的训练实例足以打败零样本分类方法,但如果选择正确,也可以通过使用更少带标签的训练实例获得良好的性能。最后,金融新闻的极性分类,BERT优点:即使是少量的标记数据集也足以超过零样本分类方法。根据上述方法优化分类名称后,最好NLI模型在包含100个标签的培训文本培训数据集中BERT微调有拼写。

换句话说,除了银行77意图分类任务等具体情况外,包含约800个培训实例的数据集通常足以击败零样本分类器。

毫无疑问,零样本学习是迁移学习的一个特殊应用。零样本分类器在没有任何标记示例的情况下实现了文本类别的预测,在某些情况下,它比数百个标记培训集上的培训监督模型更准确。但这并不是绝对的——也取决于对特定任务和分类名称的仔细选择——但在正确的情况下,这些模型可以实现准确的文本分类。

同时,测试后的开源零样本分类器并不是一个完美的解决方案,因为它们不太可能是特殊的NLP给出任务的最佳性能。对于这样的应用程序,需要手动标记大量的例子,使用这些工具将带来最好的成功机会。然而,即使在这种情况下,零样本分类也非常有用,例如,可以通过向注释人员建议潜在的相关标签来加速手动标记。显然,零样本分类和少样本分类确实可以成为NLPer工具包中有用的工具。

Cosine这也是一种更常用的方法来表达相关(相似)程度,如果你做统计或经济最好或皮尔逊

其他人可以参考这个

事实上,在构建内积空间时,可以表示相关程度(相似)

知之为知,不知不知

helloworld找到85723530张原创小样本相关性分析设计图片,包括图片、材料、海报、证书背景、源文件PSD、PNG、JPG、AI、CDR等格式素材!

你可能还喜欢下面这些文章

毕业证样本网创作《小样本相关性分析(检验小样本(10对左右数据)的相关性)》发布不易,请尊重! 转转请注明出处:https://www.czyyhgd.com/177672.html

(0)
上一篇 2022年4月28日
下一篇 2022年4月28日

相关推荐

  • 单样本检验和双样本检验(单样本、双样本均值检验和相应的非参数检验)

    步骤1:单样本检验和双样本检验

    2022年4月29日
    190
  • 小样本相关性分析(检验小样本(10对左右数据)的相关性)

    对雅虎问答,BERT要打败大约400个带标签的训练文本Roberta和TARS零样本分类器,Bart即使有800个带标签的训练实例,在意图分类任务中,零样本分类器也会脱颖而出,BERT精度还远低于NLI;

    2022年4月28日 上午10:27
    220
  • 太原理工大学阳泉学院毕业证样本

    检查 两种方法阳性率差异的方法应采用 检查两个样本率是否相等 检查两个总体率是否相等 检查 检查两个样本率是否相等χ2 检查 检查两个总体率是否相等χ2 检个非独立样本的总体率是否相等χ2 检查非独立样本的总体率是否相等χ153.对两个独立样本的秩序和检验结果确定为 . 越大, 越大B. 越大, 越小C 界值范围内, 小于相应的D. 值在界值范围内, D. 值在界值范围内, 大于相应的 E.以上都不是154 基于秩序的非参数检查 以下说法都错了 基于秩序的非参数检查 在符号秩序和检查中, 差值为零,不参与秩序 在随机区组设计数据的秩序和检查中 各组混合秩序 在随机区组设计数据的秩序和检查中, 当符合正态假设时, 非参数检查犯 类错误的概率大于参数检查。

    2022年3月5日
    210
客服微信
客服微信
返回顶部