译者 | 布加迪
审校 | 重楼
情绪分析指用于判断文本中表达的情绪的自然语言处理(NLP)技术,它是客户反馈评估、社交媒体情绪跟踪和市场研究等现代应用背后的一项重要技术。情绪可以帮助企业及其他组织评估公众意见、提供改进的客户服务,并丰富产品或服务。
BERT的全称是来自Transformers的双向编码器表示,这是一种语言处理模型,最初发布时通过了解上下文中的单词,提高NLP的先进水平,大大超越了之前的模型。事实证明,BERT的双向性(同时读取特定单词的左右上下文)在情绪分析等用例中特别有价值。
在这篇讲解全面的文章中,您将学会如何使用Hugging Face Transformers库为您自己的情绪分析项目微调BERT。无论您是新手还是现有的NLP从业者,我们都将在这个循序渐进的教程中介绍许多实用的策略和注意事项,以确保您完全能够根据自己的目的适当地微调BERT。
搭建环境
在对模型进行微调之前,需要满足一些必要的先决条件。具体来说,除了至少需要PyTorch和Hugging Face的数据集库外,还需要至少Hugging Face Transformers。您可以这么做。
pip install transformers torch datasets
预处理数据
您将需要选择一些数据来训练文本分类器。在这里,我们将使用IMDb影评数据集,这是用于演示情绪分析的例子之一。不妨接着使用datasets库加载数据集。
from datasets import load_dataset
dataset = load_dataset("imdb")
print(dataset)
我们需要对数据进行标记,以便为自然语言处理算法做好准备。BERT有一个特殊的标记化步骤,确保当一个句子片段被转换时,它会为人类尽可能保持连贯性。不妨看看我们如何使用来自Transformers的BertTokenizer对数据进行标记。
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
def tokenize_function(examples):
return tokenizer(examples['text'], padding="max_length", truncation=True)
tokenized_datasets = dataset.map(tokenize_function, batched=True)
准备数据集
不妨将数据集分成训练集和验证集,以评估模型的性能。以下是我们这么做的方法。
from datasets import train_test_split
train_testvalid =
tokenized_datasets['train'].train_test_split(test_size=0.2)
train_dataset = train_testvalid['train']
valid_dataset = train_testvalid['test']
数据加载器(DataLoader)有助于在训练过程中有效地管理批量数据。下面我们将为训练数据集和验证数据集创建数据加载器。
from torch.utils.data import DataLoader
train_dataloader = DataLoader(train_dataset, shuffle=True, batch_size=8)
valid_dataloader = DataLoader(valid_dataset, batch_size=8)
建立用于微调的BERT模型
我们将使用BertForSequenceClassification类来加载我们的模型,该模型已经为序列分类任务进行了预训练。以下是我们这么做的方法。
from transformers import BertForSequenceClassification, AdamW
model = BertForSequenceClassification.from_pretrained('bert-base-uncased',
num_labels=2)
训练模型
训练我们的模型包括定义训练循环、指定损失函数、优化器和额外的训练参数。下面是我们设置和运行训练循环的方法。
from transformers import Trainer, TrainingArguments
training_args = TrainingArguments(
output_dir='./results',
evaluation_strategy="epoch",
learning_rate=2e-5,
per_device_train_batch_size=8,
per_device_eval_batch_size=8,
num_train_epochs=3,
weight_decay=0.01,
)
trainer = Trainer(
model=model,
args=training_args,
train_dataset=train_dataset,
eval_dataset=valid_dataset,
)
trainer.train()
评估模型
评估模型包括使用准确性、精度、召回和F1分数等度量指标检查其性能。下面是我们评估模型的方法。
metrics = trainer.evaluate()
print(metrics)
进行预测
经过微调后,我们现在可以使用该模型拿新数据进行预测。下面是我们使用验证集对我们的模型执行推理的方法。
metrics = trainer.evaluate()
print(metrics)
结语
本教程介绍了使用Hugging Face Transformers为情绪分析微调BERT,包括搭建环境、数据集准备和标记化、数据加载器创建、模型加载和训练,以及模型评估和实时模型预测。
为情绪分析微调BERT在许多实际场景下都具有其价值,比如分析客户反馈、跟踪社交媒体情绪等。通过使用不同的数据集和模型,您可以稍加扩展,用于自己的自然语言处理项目。
有关这些主题的更多信息,请查看以下资源:
- Hugging Face Transformers文档:https://huggingface.co/transformers/
- PyTorch文档:https://pytorch.org/docs/stable/index.html
- Hugging Face数据集文档:https://huggingface.co/docs/datasets/
为了更深入地研究这些问题,提高您的自然语言处理和情绪分析能力,这些资源值得研究。
原文标题:How to Fine-Tune BERT for Sentiment Analysis with Hugging Face Transformers,作者:Matthew Mayo
链接:https://www.kdnuggets.com/how-to-fine-tune-bert-sentiment-analysis-hugging-face-transformers。