请问如何用nlp预训练模型做word embedding ，如bert怎么提取出embedding?-CDA数据分析师官网

热线电话：13121318867

首页大数据时代请问如何用nlp预训练模型做word embedding ，如bert怎么提取出embedding?

请问如何用nlp预训练模型做word embedding ，如bert怎么提取出embedding?

2023-04-10

自然语言处理（NLP）是人工智能领域中一个快速发展的分支，它提供了许多技术和方法来对自然语言进行处理。其中，词嵌入（word embedding）是NLP中最重要的技术之一，因为它允许将自然语言转换为计算机可以理解和处理的向量表示形式。

BERT（Bidirectional Encoder Representations from Transformers）是一种有监督的预训练模型，它使用了Transformer架构，并在大型语料库上进行了训练，可以用于各种自然语言处理任务，如文本分类、句子配对等。

BERT模型的输出包含多个层级，其中第一层是输入层，最后一层是输出层，而在中间的隐藏层中，每一个单词都被映射到一个低维度的向量空间中。这些向量就是所谓的BERT词嵌入。

提取BERT词嵌入非常简单，只需要将文本输入BERT模型中，并获取相应隐藏层的输出即可。具体步骤如下：

首先，我们需要安装相应的Python库，包括transformers和torch。可以使用以下命令来安装这些库：

!pip install transformers
!pip install torch

接下来，加载BERT模型并设置为评估模式，以保证Dropout和BatchNormalization层不会被激活。我们可以使用以下代码完成这一步骤：

from transformers import BertTokenizer, BertModel

# 加载BertTokenizer和BertModel
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

# 设置为评估模式
model.eval()

然后，我们需要将文本转换为BERT可接受的输入格式。具体来说，我们需要使用BertTokenizer对文本进行分词，并将结果转换为BERT的输入ID和Attention Mask张量。以下是一个示例代码：

text = "I love natural language processing."
tokens = tokenizer.tokenize(text)
input_ids = torch.tensor([tokenizer.convert_tokens_to_ids(tokens)])
attention_mask = torch.ones_like(input_ids)

最后，我们可以将输入张量传递给BERT模型并获取相应的隐藏层输出。具体来说，我们将输入ID和Attention Mask张量传递给BertModel，并获取相应的所有隐藏层输出。以下是一个示例代码：

with torch.no_grad():
  outputs = model(input_ids, attention_mask=attention_mask)

hidden_states = outputs[2]

在此示例中，我们获取了BERT模型的所有隐藏层输出，可以根据需要选择其中任意一层作为词嵌入。

总之，BERT是一种非常强大的预训练模型，可以用于各种自然语言处理任务。它的词嵌入提取非常简单，只需要将文本输入BERT模型中，并获取相应隐藏层的输出即可。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

自然语言处理 NLP 有监督文本分类人工智能

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇逻辑回归与决策树有什么区别?

下一篇卷积神经网络为什么要加一层降采样层呢？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

请问如何用nlp预训练模型做word embedding ，如bert怎么提取出embedding?

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】OSM指标体系：自上而下拆解逻辑、搭建流 ...

【CDA干货】选择统计方法前最重要的核心工作：避免9 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

【CDA干货】问卷效度高与后续因子分析：逻辑关系、 ...

CDA持证人专访：唐一楠谈应届生数据分析就业与学习 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

【CDA干货】SQL统计月度每日夜间数据：口径定义、多 ...

【CDA干货】特征置换重要性分析：原理、计算流程、 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

CDA持证人专访：张继荣谈销售转岗数据分析的追梦路 ...

【CDA干货】Excel卡方检验实操指南：原理、步骤、结 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】Excel透视表数据直接跨单元格相乘：风险 ...

从“行列规范”到“业务洞察”：CDA数据分析师视角 ...

数据分析师就业难不难？薪资待遇如何？考 CDA 证书 ...

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载