如何使用Hugging Face Transformers为情绪分析微调BERT?

译文
人工智能
在这篇讲解全面的文章中,您将学会如何使用Hugging Face Transformers库为您自己的情绪分析项目微调BERT。无论您是新手还是现有的NLP从业者,我们都将在这个循序渐进的教程中介绍许多实用的策略和注意事项,以确保您完全能够根据自己的目的适当地微调BERT。

译者 | 布加迪

审校 | 重楼

情绪分析指用于判断文本中表达的情绪的自然语言处理(NLP)技术,它是客户反馈评估、社交媒体情绪跟踪和市场研究等现代应用背后的一项重要技术。情绪可以帮助企业及其他组织评估公众意见、提供改进的客户服务,并丰富产品或服务。

BERT的全称是来自Transformers的双向编码器表示,这是一种语言处理模型,最初发布时通过了解上下文中的单词,提高NLP的先进水平,大大超越了之前的模型。事实证明,BERT的双向性(同时读取特定单词的左右上下文)在情绪分析等用例中特别有价值。

在这篇讲解全面的文章中,您将学会如何使用Hugging Face Transformers库为您自己的情绪分析项目微调BERT。无论您是新手还是现有的NLP从业者,我们都将在这个循序渐进的教程中介绍许多实用的策略和注意事项,以确保您完全能够根据自己的目的适当地微调BERT。

搭建环境

在对模型进行微调之前,需要满足一些必要的先决条件。具体来说,除了至少需要PyTorch和Hugging Face的数据集库外,还需要至少Hugging Face Transformers。您可以这么做。

pip install transformers torch datasets

预处理数据

您将需要选择一些数据来训练文本分类器。在这里,我们将使用IMDb影评数据集,这是用于演示情绪分析的例子之一。不妨接着使用datasets库加载数据集。

from datasets import load_dataset
dataset = load_dataset("imdb")
print(dataset)

我们需要对数据进行标记,以便为自然语言处理算法做好准备。BERT有一个特殊的标记化步骤,确保当一个句子片段被转换时,它会为人类尽可能保持连贯性。不妨看看我们如何使用来自Transformers的BertTokenizer对数据进行标记。

from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
def tokenize_function(examples):
return tokenizer(examples['text'], padding="max_length", truncation=True)
tokenized_datasets = dataset.map(tokenize_function, batched=True)

准备数据集

不妨将数据集分成训练集和验证集,以评估模型的性能。以下是我们这么做的方法。

from datasets import train_test_split
train_testvalid = 
tokenized_datasets['train'].train_test_split(test_size=0.2)
train_dataset = train_testvalid['train']
valid_dataset = train_testvalid['test']

数据加载器(DataLoader)有助于在训练过程中有效地管理批量数据。下面我们将为训练数据集和验证数据集创建数据加载器。

from torch.utils.data import DataLoader
train_dataloader = DataLoader(train_dataset, shuffle=True, batch_size=8)
valid_dataloader = DataLoader(valid_dataset, batch_size=8)

建立用于微调的BERT模型

我们将使用BertForSequenceClassification类来加载我们的模型,该模型已经为序列分类任务进行了预训练。以下是我们这么做的方法。

from transformers import BertForSequenceClassification, AdamW
model = BertForSequenceClassification.from_pretrained('bert-base-uncased', 
num_labels=2)

训练模型

训练我们的模型包括定义训练循环、指定损失函数、优化器和额外的训练参数。下面是我们设置和运行训练循环的方法。

from transformers import Trainer, TrainingArguments
training_args = TrainingArguments(
output_dir='./results',
evaluation_strategy="epoch",
learning_rate=2e-5,
per_device_train_batch_size=8,
per_device_eval_batch_size=8,
num_train_epochs=3,
weight_decay=0.01,
)
trainer = Trainer(
model=model,
args=training_args,
train_dataset=train_dataset,
eval_dataset=valid_dataset,
)
trainer.train()

评估模型

评估模型包括使用准确性、精度、召回和F1分数等度量指标检查其性能。下面是我们评估模型的方法。

metrics = trainer.evaluate()
print(metrics)

进行预测

经过微调后,我们现在可以使用该模型拿新数据进行预测。下面是我们使用验证集对我们的模型执行推理的方法。

metrics = trainer.evaluate()
print(metrics)

结语

本教程介绍了使用Hugging Face Transformers为情绪分析微调BERT,包括搭建环境、数据集准备和标记化、数据加载器创建、模型加载和训练,以及模型评估和实时模型预测。

为情绪分析微调BERT在许多实际场景下都具有其价值,比如分析客户反馈、跟踪社交媒体情绪等。通过使用不同的数据集和模型,您可以稍加扩展,用于自己的自然语言处理项目。

有关这些主题的更多信息,请查看以下资源:

  • Hugging Face Transformers文档:https://huggingface.co/transformers/
  • PyTorch文档:https://pytorch.org/docs/stable/index.html
  • Hugging Face数据集文档:https://huggingface.co/docs/datasets/

为了更深入地研究这些问题,提高您的自然语言处理和情绪分析能力,这些资源值得研究。

原文标题:How to Fine-Tune BERT for Sentiment Analysis with Hugging Face Transformers,作者:Matthew Mayo

链接:https://www.kdnuggets.com/how-to-fine-tune-bert-sentiment-analysis-hugging-face-transformers。

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/

责任编辑:姜华 来源: 51CTO内容精选
相关推荐

2024-09-26 10:42:20

2024-11-13 08:34:32

T5聊天机器人大模型

2024-08-28 08:25:25

Python预训练模型情绪数据集

2024-05-06 12:22:00

AI训练

2023-10-08 09:00:00

LLMGitHub人工智能

2023-12-06 15:40:17

AI

2023-05-09 15:41:03

2024-01-02 09:10:17

k开源数据

2023-11-28 13:53:00

数据模型

2016-09-23 18:55:03

无张信号WIFI

2023-08-21 10:20:03

开源模型

2023-02-23 17:51:03

亚马逊云科技AI

2022-07-13 16:45:34

​大模型AI微软

2023-06-02 13:55:57

开源AI

2024-02-29 16:35:01

StarCoder2大型语言模型人工智能

2024-01-29 09:33:09

云计算人工智能谷歌云

2020-10-25 08:59:00

机器学习情绪ML

2022-06-22 14:47:59

人脸识别微软人工智能

2024-10-08 09:30:00

AI模型
点赞
收藏

51CTO技术栈公众号