詹惠儿

2018-11-29   阅读量: 679

统计学 数据分析师 Python数据分析 Python爬虫

python怎么符号化?

扫码加入数据分析学习群

给定一个字符序列和一个定义的文档单元,标记化是将其切成碎片的任务,称为 令牌,也许同时丢掉某些字符,如标点符号。以下是标记化的示例:

这些令牌通常被宽泛地称为术语或单词,但有时制作类型/令牌很重要区别。一个代币是一些特定文档中的字符序列的实例,它们被组合在一起作为用于处理的有用语义单元。一个type是包含相同字符序列的所有标记的类。一个term是包含在IR系统字典中的(可能是规范化的)类型。索引术语集可以完全不同于令牌,例如,它们可以是分类法中的语义标识符,但在现代IR系统中,它们与文档中的令牌密切相关。但是,它们通常是通过讨论的各种规范化过程从它们中获得的,而不是完全出现在文档中的标记。

例如,如果要编入索引的文档是睡眠梦想,则有5个令牌,但只有4种类型(因为有2个实例)。但是,如果要从索引中省略,那么只有3个术语:睡眠偶然梦想

标记化阶段的主要问题是使用正确的标记是什么?它看起来相当简单:你切换空白并扔掉标点字符。这是一个起点,但即使是英语也有一些棘手的案例。例如,你如何处理撇号对于占有和收缩的各种用途?

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 2 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子