ISO 24614-1:2010
语言资源管理.书面文本自动分词.第1部分:基本概念和一般原则

Language resource management - Word segmentation of written texts - Part 1: Basic concepts and general principles


标准号
ISO 24614-1:2010
发布
2010年
发布单位
国际标准化组织
当前最新
ISO 24614-1:2010
 
 
适用范围
ISO 24614 的这一部分介绍了分词的基本概念和一般原则,并提供了独立于语言的指南,使书面文本能够以可靠且可重复的方式分割为分词单元 (WSU)。 注1:在语言相关的研究和工业中,单词是一个基本且必要的概念。 因此,为了将文本分割成单词,对单词的组成有一个通用的定义至关重要。 人们不能简单地使用仅基于空格和标点符号的规则来界定单词。 此类规则不考虑诸如连字符复合词、缩写词、习语或包含符号或数字的类似单词的表达等情况。 对于不使用空格分隔单词的语言(例如中文和日语)以及粘着语言(其中某些功能词类被实现为词缀)(例如韩语),分词的问题甚至更大。 许多需要将文本分段为单词的应用程序和领域(因此可以应用 ISO 24614 的这一部分)包括以下内容。

ISO 24614-1:2010相似标准


谁引用了ISO 24614-1:2010 更多引用





Copyright ©2007-2022 ANTPEDIA, All Rights Reserved
京ICP备07018254号 京公网安备1101085018 电信与信息服务业务经营许可证:京ICP证110310号