如何使用Hugging Face Transformers为情绪分析微调BERT？原创

发布于 2024-6-21 08:39

浏览

0收藏

情绪分析指用于判断文本中表达的情绪的自然语言处理(NLP)技术，它是客户反馈评估、社交媒体情绪跟踪和市场研究等现代应用背后的一项重要技术。情绪可以帮助企业及其他组织评估公众意见、提供改进的客户服务，并丰富产品或服务。

BERT的全称是来自Transformers的双向编码器表示，这是一种语言处理模型，最初发布时通过了解上下文中的单词，提高NLP的先进水平，大大超越了之前的模型。事实证明，BERT的双向性(同时读取特定单词的左右上下文)在情绪分析等用例中特别有价值。

在这篇讲解全面的文章中，您将学会如何使用Hugging Face Transformers库为您自己的情绪分析项目微调BERT。无论您是新手还是现有的NLP从业者，我们都将在这个循序渐进的教程中介绍许多实用的策略和注意事项，以确保您完全能够根据自己的目的适当地微调BERT。

搭建环境

在对模型进行微调之前，需要满足一些必要的先决条件。具体来说，除了至少需要PyTorch和Hugging Face的数据集库外，还需要至少Hugging Face Transformers。您可以这么做。

pip install transformers torch datasets

预处理数据

您将需要选择一些数据来训练文本分类器。在这里，我们将使用IMDb影评数据集，这是用于演示情绪分析的例子之一。不妨接着使用datasets库加载数据集。

from datasets import load_dataset
dataset = load_dataset("imdb")
print(dataset)

我们需要对数据进行标记，以便为自然语言处理算法做好准备。BERT有一个特殊的标记化步骤，确保当一个句子片段被转换时，它会为人类尽可能保持连贯性。不妨看看我们如何使用来自Transformers的BertTokenizer对数据进行标记。

from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
def tokenize_function(examples):
return tokenizer(examples['text'], padding="max_length", truncation=True)
tokenized_datasets = dataset.map(tokenize_function, batched=True)

准备数据集

不妨将数据集分成训练集和验证集，以评估模型的性能。以下是我们这么做的方法。

from datasets import train_test_split
train_testvalid = 
tokenized_datasets['train'].train_test_split(test_size=0.2)
train_dataset = train_testvalid['train']
valid_dataset = train_testvalid['test']

数据加载器(DataLoader)有助于在训练过程中有效地管理批量数据。下面我们将为训练数据集和验证数据集创建数据加载器。

from torch.utils.data import DataLoader
train_dataloader = DataLoader(train_dataset, shuffle=True, batch_size=8)
valid_dataloader = DataLoader(valid_dataset, batch_size=8)

建立用于微调的BERT模型

我们将使用BertForSequenceClassification类来加载我们的模型，该模型已经为序列分类任务进行了预训练。以下是我们这么做的方法。

from transformers import BertForSequenceClassification, AdamW
model = BertForSequenceClassification.from_pretrained('bert-base-uncased', 
num_labels=2)

训练模型

训练我们的模型包括定义训练循环、指定损失函数、优化器和额外的训练参数。下面是我们设置和运行训练循环的方法。

from transformers import Trainer, TrainingArguments
training_args = TrainingArguments(
output_dir='./results',
evaluation_strategy="epoch",
learning_rate=2e-5,
per_device_train_batch_size=8,
per_device_eval_batch_size=8,
num_train_epochs=3,
weight_decay=0.01,
)
trainer = Trainer(
model=model,
args=training_args,
train_dataset=train_dataset,
eval_dataset=valid_dataset,
)
trainer.train()

评估模型

评估模型包括使用准确性、精度、召回和F1分数等度量指标检查其性能。下面是我们评估模型的方法。

metrics = trainer.evaluate()
print(metrics)

进行预测

经过微调后，我们现在可以使用该模型拿新数据进行预测。下面是我们使用验证集对我们的模型执行推理的方法。

metrics = trainer.evaluate()
print(metrics)

结语

本教程介绍了使用Hugging Face Transformers为情绪分析微调BERT，包括搭建环境、数据集准备和标记化、数据加载器创建、模型加载和训练，以及模型评估和实时模型预测。

为情绪分析微调BERT在许多实际场景下都具有其价值，比如分析客户反馈、跟踪社交媒体情绪等。通过使用不同的数据集和模型，您可以稍加扩展，用于自己的自然语言处理项目。

有关这些主题的更多信息，请查看以下资源：

Hugging Face Transformers文档：https://huggingface.co/transformers/
PyTorch文档：https://pytorch.org/docs/stable/index.html
Hugging Face数据集文档：https://huggingface.co/docs/datasets/

为了更深入地研究这些问题，提高您的自然语言处理和情绪分析能力，这些资源值得研究。

原文标题：How to Fine-Tune BERT for Sentiment Analysis with Hugging Face Transformers，作者：Matthew Mayo

链接：

https://www.kdnuggets.com/how-to-fine-tune-bert-sentiment-analysis-hugging-face-transformers。

标签

自然语言处理

NLP

BERT

相关推荐

使用BERT的LLM提取摘要

51CTO内容精选 • 3350浏览 • 0回复
如何正确使用Stable Diffusion？文本到图像扩散模型中记忆化实用分析（浙大）

angel • 3761浏览 • 0回复
Hugging Face全面拥抱LangChain：全新官方合作包

ermulong • 5831浏览 • 0回复
从零实现大模型-BERT微调

鱼虫子 • 3361浏览 • 0回复
BERT如何增强NLP的性能

51CTO内容精选 • 2481浏览 • 0回复
如何使用聚类分析分割数据

51CTO内容精选 • 2766浏览 • 0回复
使用Hugging Face Transformer检测文本中的情绪

51CTO内容精选 • 2883浏览 • 0回复
大模型微调：Hugging Face Transformers全流程实战

51CTO内容精选 • 7247浏览 • 0回复
如何使用Hugging Face Transformers微调F5以回答问题？

51CTO内容精选 • 2863浏览 • 0回复
如何使用BART模型和Hugging Face Transformers总结文本？

51CTO内容精选 • 3093浏览 • 0回复
一键部署AI聊天机器人，SambaNova与Hugging Face携手带来全新体验

Halo咯咯 • 2739浏览 • 0回复
从数据集到模型：视频和音频情绪分析的综合研究

xuxiangda • 4784浏览 • 0回复
Hugging Face 发布 SmolVLM：用于设备端推理的 2B 参数视觉语言模型

Halo咯咯 • 3099浏览 • 0回复
Hugging Face 发布免费开放课程，微调本地LLMs模型

Halo咯咯 • 2657浏览 • 0回复
smolagents：Hugging Face 开源的Agent框架，用代码驱动 Agent 的新思路

Syrupup • 4505浏览 • 0回复
Hugging Face 发布 Picotron：解决 LLM 训练 4D 并行化的微型框架

Halo咯咯 • 2322浏览 • 0回复
深入解析Transformers、BERT与SBERT：从原理到应用

Halo咯咯 • 4744浏览 • 0回复
在 Hugging Face 上部署语音转语音模型

mb67d4200f74d5e • 1569浏览 • 0回复
从零开始微调Embedding模型：基于BERT的实战教程

AI悠闲区 • 2075浏览 • 0回复

51CTO内容精选

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

如何使用Hugging Face Transformers为情绪分析微调BERT？原创

搭建环境

预处理数据

准备数据集

建立用于微调的BERT模型

训练模型

评估模型

进行预测

结语

目录

51CTO

51CTO博客

51CTO学堂

如何使用Hugging Face Transformers为情绪分析微调BERT？ 原创

搭建环境

预处理数据

准备数据集

建立用于微调的BERT模型

训练模型

评估模型

进行预测

结语

目录

如何使用Hugging Face Transformers为情绪分析微调BERT？原创