请问如何用nlp预训练模型做word embedding ，如bert怎么提取出embedding?-CDA数据分析师官网

热线电话：13121318867

首页大数据时代请问如何用nlp预训练模型做word embedding ，如bert怎么提取出embedding?

请问如何用nlp预训练模型做word embedding ，如bert怎么提取出embedding?

2023-04-10

自然语言处理（NLP）是人工智能领域中一个快速发展的分支，它提供了许多技术和方法来对自然语言进行处理。其中，词嵌入（word embedding）是NLP中最重要的技术之一，因为它允许将自然语言转换为计算机可以理解和处理的向量表示形式。

BERT（Bidirectional Encoder Representations from Transformers）是一种有监督的预训练模型，它使用了Transformer架构，并在大型语料库上进行了训练，可以用于各种自然语言处理任务，如文本分类、句子配对等。

BERT模型的输出包含多个层级，其中第一层是输入层，最后一层是输出层，而在中间的隐藏层中，每一个单词都被映射到一个低维度的向量空间中。这些向量就是所谓的BERT词嵌入。

提取BERT词嵌入非常简单，只需要将文本输入BERT模型中，并获取相应隐藏层的输出即可。具体步骤如下：

首先，我们需要安装相应的Python库，包括transformers和torch。可以使用以下命令来安装这些库：

!pip install transformers
!pip install torch

接下来，加载BERT模型并设置为评估模式，以保证Dropout和BatchNormalization层不会被激活。我们可以使用以下代码完成这一步骤：

from transformers import BertTokenizer, BertModel

# 加载BertTokenizer和BertModel
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

# 设置为评估模式
model.eval()

然后，我们需要将文本转换为BERT可接受的输入格式。具体来说，我们需要使用BertTokenizer对文本进行分词，并将结果转换为BERT的输入ID和Attention Mask张量。以下是一个示例代码：

text = "I love natural language processing."
tokens = tokenizer.tokenize(text)
input_ids = torch.tensor([tokenizer.convert_tokens_to_ids(tokens)])
attention_mask = torch.ones_like(input_ids)

最后，我们可以将输入张量传递给BERT模型并获取相应的隐藏层输出。具体来说，我们将输入ID和Attention Mask张量传递给BertModel，并获取相应的所有隐藏层输出。以下是一个示例代码：

with torch.no_grad():
  outputs = model(input_ids, attention_mask=attention_mask)

hidden_states = outputs[2]

在此示例中，我们获取了BERT模型的所有隐藏层输出，可以根据需要选择其中任意一层作为词嵌入。

总之，BERT是一种非常强大的预训练模型，可以用于各种自然语言处理任务。它的词嵌入提取非常简单，只需要将文本输入BERT模型中，并获取相应隐藏层的输出即可。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

自然语言处理 NLP 有监督文本分类人工智能

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇逻辑回归与决策树有什么区别?

下一篇卷积神经网络为什么要加一层降采样层呢？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

请问如何用nlp预训练模型做word embedding ，如bert怎么提取出embedding?

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA数据分析师与数据指标：基础概念与协同逻辑 ...

【CDA干货】Power Query 移动加权平均计算 ...

描述性统计：CDA数据分析师的基础核心与实践应用 ...

【CDA干货】基于 Python response.text 的科技新闻 ...

【CDA干货】基于 Python response.text 的科技新闻 ...

数据治理新浪潮：CDA 数据分析师的战略价值与驱动逻 ...

【CDA干货】Power BI 热力地图制作指南：从数据准备 ...

【CDA干货】PyTorch 矩阵运算加速库：从原理到实践 ...

数据建模：CDA 数据分析师的核心驱动力 ...

【CDA干货】KS 曲线不光滑：模型评估的隐形陷阱，从 ...

【CDA干货】偏态分布：揭开数据背后的非对称真相， ...

CDA 数据分析师：数字化时代的价值创造者与决策智囊 ...

CDA 数据分析师：善用 Power BI 索引列，提升数据处 ...

CDA 数据分析师：巧用 SQL 多个聚合函数，解锁数据 ...

CDA 数据分析师：驾驭表格结构数据的核心角色与实践 ...

【CDA干货】PowerBI 累计曲线制作指南：从 DAX 度量 ...

【CDA干货】Python 函数 return 多个数据：用法、实 ...

CDA 数据分析师：引领商业数据分析体系构建，筑牢企 ...

【CDA干货】随机森林中特征重要性（Feature Importa ...

【CDA干货】t 统计量为负数时的分布计算方法与解析 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载