如何使用Hugging Face Transformers为情绪分析微调BERT？-51CTO.COM

译者 | 布加迪

审校 | 重楼

情绪分析指用于判断文本中表达的情绪的自然语言处理(NLP)技术，它是客户反馈评估、社交媒体情绪跟踪和市场研究等现代应用背后的一项重要技术。情绪可以帮助企业及其他组织评估公众意见、提供改进的客户服务，并丰富产品或服务。

BERT的全称是来自Transformers的双向编码器表示，这是一种语言处理模型，最初发布时通过了解上下文中的单词，提高NLP的先进水平，大大超越了之前的模型。事实证明，BERT的双向性(同时读取特定单词的左右上下文)在情绪分析等用例中特别有价值。

在这篇讲解全面的文章中，您将学会如何使用Hugging Face Transformers库为您自己的情绪分析项目微调BERT。无论您是新手还是现有的NLP从业者，我们都将在这个循序渐进的教程中介绍许多实用的策略和注意事项，以确保您完全能够根据自己的目的适当地微调BERT。

搭建环境

在对模型进行微调之前，需要满足一些必要的先决条件。具体来说，除了至少需要PyTorch和Hugging Face的数据集库外，还需要至少Hugging Face Transformers。您可以这么做。

pip install transformers torch datasets

预处理数据

您将需要选择一些数据来训练文本分类器。在这里，我们将使用IMDb影评数据集，这是用于演示情绪分析的例子之一。不妨接着使用datasets库加载数据集。

from datasets import load_dataset
dataset = load_dataset("imdb")
print(dataset)

我们需要对数据进行标记，以便为自然语言处理算法做好准备。BERT有一个特殊的标记化步骤，确保当一个句子片段被转换时，它会为人类尽可能保持连贯性。不妨看看我们如何使用来自Transformers的BertTokenizer对数据进行标记。

from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
def tokenize_function(examples):
return tokenizer(examples['text'], padding="max_length", truncation=True)
tokenized_datasets = dataset.map(tokenize_function, batched=True)

准备数据集

不妨将数据集分成训练集和验证集，以评估模型的性能。以下是我们这么做的方法。

from datasets import train_test_split
train_testvalid = 
tokenized_datasets['train'].train_test_split(test_size=0.2)
train_dataset = train_testvalid['train']
valid_dataset = train_testvalid['test']

数据加载器(DataLoader)有助于在训练过程中有效地管理批量数据。下面我们将为训练数据集和验证数据集创建数据加载器。

from torch.utils.data import DataLoader
train_dataloader = DataLoader(train_dataset, shuffle=True, batch_size=8)
valid_dataloader = DataLoader(valid_dataset, batch_size=8)

建立用于微调的BERT模型

我们将使用BertForSequenceClassification类来加载我们的模型，该模型已经为序列分类任务进行了预训练。以下是我们这么做的方法。

from transformers import BertForSequenceClassification, AdamW
model = BertForSequenceClassification.from_pretrained('bert-base-uncased', 
num_labels=2)

训练模型

训练我们的模型包括定义训练循环、指定损失函数、优化器和额外的训练参数。下面是我们设置和运行训练循环的方法。

from transformers import Trainer, TrainingArguments
training_args = TrainingArguments(
output_dir='./results',
evaluation_strategy="epoch",
learning_rate=2e-5,
per_device_train_batch_size=8,
per_device_eval_batch_size=8,
num_train_epochs=3,
weight_decay=0.01,
)
trainer = Trainer(
model=model,
args=training_args,
train_dataset=train_dataset,
eval_dataset=valid_dataset,
)
trainer.train()

评估模型

评估模型包括使用准确性、精度、召回和F1分数等度量指标检查其性能。下面是我们评估模型的方法。

metrics = trainer.evaluate()
print(metrics)

进行预测

经过微调后，我们现在可以使用该模型拿新数据进行预测。下面是我们使用验证集对我们的模型执行推理的方法。

metrics = trainer.evaluate()
print(metrics)

结语

本教程介绍了使用Hugging Face Transformers为情绪分析微调BERT，包括搭建环境、数据集准备和标记化、数据加载器创建、模型加载和训练，以及模型评估和实时模型预测。

为情绪分析微调BERT在许多实际场景下都具有其价值，比如分析客户反馈、跟踪社交媒体情绪等。通过使用不同的数据集和模型，您可以稍加扩展，用于自己的自然语言处理项目。

有关这些主题的更多信息，请查看以下资源：

Hugging Face Transformers文档：https://huggingface.co/transformers/
PyTorch文档：https://pytorch.org/docs/stable/index.html
Hugging Face数据集文档：https://huggingface.co/docs/datasets/

为了更深入地研究这些问题，提高您的自然语言处理和情绪分析能力，这些资源值得研究。

原文标题：How to Fine-Tune BERT for Sentiment Analysis with Hugging Face Transformers，作者：Matthew Mayo

链接：https://www.kdnuggets.com/how-to-fine-tune-bert-sentiment-analysis-hugging-face-transformers。

想了解更多AIGC的内容，请访问：

51CTO AI.x社区

https://www.51cto.com/aigc/