품사와 품사 태그셋 소개

POS tagging(part-of-speech tagging)은 형태소 분석 결과 분류된 품사를 태깅하는 작업을 의미한다. 여기서 품사는 단어의 공통 성질을 갈래 지어 놓은 이름이다. 태깅시 사용하는 품사에 대응하는 약속은 품사 태그(POS Tag : part-of-speech tag)라 하며 이들 품사 태그의 모음을 품사 태그 셋(tag set)이라고 한다. 품사 부착 말뭉치(corpus)는 품사 태그가 부착된 말뭉치를 의미한다. 고품질의 품사 부착 말뭉치의 규모가 커지면 언어 연구 진행이 용이해진다. 이 문서에는 품사 태그셋을 소개하기에 앞서 한국어와 영어의 품사를 소개하고, 영어의 품사 태그셋과 한국어의 품사 태그셋(POS Tag Set)을 소개한다.

한국어와 영어의 품사

한국어에는 9품사가 있고 영어에도 9품사가 있다. 품사 수는 동일하지만 품사 구성은 다르다. 한국어에서 조사는 문법적 기능으로 다루는 경우가 있어 8품사로 보는 견해도 있다.

순서 품사명 한국어 영어
1 명사(noun) O O
2 대명사(pronoun) O O
3 동사(verb) O O
4 형용사(adjective) O O
5 관형사
6 수사 O
7 부사(adverb) O O
8 조사 O
9 감탄사 O
10 관사(article) O
11 전치사(preposition) O
12 접속사(conjunction) O
13 감탄사(Interjection) O O

간단히 품사별로 예시를 들어보면 아래와 같다.

  • 명사 : 명사는 사람이나 사물의 이름을 나타낸 단어이다.

    • 보통명사 : 가구, 가방, 가요, 가정 …
    • 고유명사 : 강원도, 경기도, 경상도, 독일, 러시아, 인천공학, 캐나다, …
    • 의존명사 : 것, 곳, 녀석, 대로, 동(건물), 중(도중), …
    • 단위 명사 : 가지(단위), 달러, 도(온도), 미터, …
  • 대명사 : 사람이나 사물의 이름을 대신 나타내는 말에 대한 품사이다.

    • 인칭 대명사 : 저, 너, 우리, 너희, 자네, 누구, 당신, 이분, …
    • 지시 대명사 : 거기, 그곳, 무엇, 이곳, 저기, …
  • 수사 : 수사는 사물의 수량이나 순서를 나타내는 단어이다.

    • 하나, 둘, 셋, 백, 수천, 아홉, 오홉째, 억, …
  • 동사 : 동사는 문장 주체의 움직이나 가정을 나타낸다.

    • 감동하다, 가사하다, 걸리다, 거어가다, ….
    • 자동사 : 감동사하다, 감사하다, 근무하다, 기억나다, 긴장하다, 길어지다, 깨지다, 꺼지다, 끊어지다, 늘다, …
    • 타동사 : 가르치다, 가리다, 가져오다, 가지다, 갈아입다, 그만두다, 그만하다, 금지하다, 넘어가다, …
  • 형용사 : 성질이나 상태를 나타낸다.

    • 본현용사 : 가깝다, 가난하다, 가늘하다, 가능하다, 가볍다, …
    • 보조형용사 : 듯하다, 싶다.
  • 관형사 : 체언이나 체언 구실을 하는 말 앞에 놓여 그 내용을 꾸며주는 단어이다.

    • 각, 그, 그런, 내(나의), 네(너의), 만(나이), 첫, 한(500명), ….
  • 부사 : 용언이나 문장을 꾸며주는 단어이다. 부사는 용언인 동사나 형용사, 명사, 관형사, 부사를 꾸며 준다.

    • 가까이, 가끔, 가득, 가만히, 각각, 각자, 간단히, 굉장히, 그리고, 금방, 다행히, 단순히, 대체로, 더욱, …
  • 감탄사 : 말하는 사람의 느낌이나 놀람을 나타내는 단어이다.

    • 그래, 그럼, 글쎄, 아, 아니, 아니요, 아이고, 안녕, 야, 어머, 여보, 여보세요, 예, 와, 응, 자, …

한국어의 품사는 문장 내 역할에 따라 체언, 관계언, 용언, 수식언, 독립언으로 나뉜다.

순서 품사명 역할 기준
1 명사 체언
2 대명사 체언
3 수사 체언
4 조사 관계언
5 동사 용언
6 형용사 용언
7 관형사 수식언
8 부사 수식언
9 감탄사 독립언

체언은 주어나 목적어 등으로 쓰이는 단어를 체언이라 한다. 체언은 명사, 대명사, 수사 세 가지가 있으며 형태 변화가 없는 특징이 있다. 용언은 문장의 주어를 서술하는 기능 말이다. 용언은 크게 동사와 형용사로 나뉜다. 용언은 문장에서 서술어로 쓰이지만, 문장 쓰임에 따라 형태가 바뀔 수 있다. 용언의 어간에 다양한 어미를 붙여 문법적 기능을 바꿀 수 있다. 예를 들어 기본형 먹다에서 먹-은 어간이고 -다는 어미이다. 어간인 먹-은 고정된 상태에서 어미를 변경해 문법적의미를 더해줄 수 있다. (예) 먹+다, 먹+고, 먹+으니, 먹+었다, 먹+겠다. 수식언은 다른 말을 수식하는 기능을 가진 단어이다. 수식어에는 관형사와 부사가 있다. 관계언은 다른 말과의 관계를 표시하는 역할을 한다. 관계언으로 조사가 있다. 독립어에는 감탄사가 있다. 감탄사는 문장 속의 다른 성분에 얽메이지 않고 독립성이 있다. 감탄사는 용언과 달리 형태가 변하지 않고, 조사가 붙지 않는다. 예를 들어 감정 감탄사 어머나, 아이고, 아뿔사에 조사를 붙이면 어색해진다. 품사는 단어 형태가 변하는지 유무에 따라 구분할 수 있다.

  • 단어 형태가 변함 : 용언, 서술격 조사
  • 단어 형태가 변하지 않음 : 체언, 수식언, 독립언, 관계언

영어의 품사 태그셋

영어에서 사용하는 품사 태그셋으로 펜 트리뱅크 태그셋(Penn Treebank tagset)이 널리 알려져 있다. 펜 트리뱅크 태그셋은 NLTK 라이브러에서 품사 태깅시 사용한다. NLTK에서 사용하는 품사는 마지막 열에 사용 유무를 별도 표기해 두었다.

순서 품사 태그 설명 예시 NLTK
1 CC coordinating conjunction and O
2 CD cardinal number 1, third O
3 DT determiner the O
4 EX existential there there is O
5 FW foreign word les O
6 IN preposition, subordinating conjunction in, of, like O
7 IN/that that as subordinator that
8 JJ adjective green O
9 JJR adjective, comparative greener O
10 JJS adjective, superlative greenest O
11 LS list marker 1) O
12 MD modal could, will O
13 NN noun, singular or mass table O
14 NNS noun plural tables O
15 NP proper noun, singular John O
16 NPS proper noun, plural Vikings O
17 PDT predeterminer both the boys O
18 POS possessive ending friend’s O
19 PP personal pronoun I, he, it O
20 PP$ possessive pronoun my, his O
21 RB adverb however, usually, naturally, here, good O
22 RBR adverb, comparative better O
23 RBS adverb, superlative best O
24 RP particle give up O
25 SENT Sentence-break punctuation . ! ?
26 SYM Symbol / [ = *
27 TO infinitive ‘to’ togo O
28 UH interjection uhhuhhuhh O
29 VB verb be, base form be O
30 VBD verb be, past tense was, were O
31 VBG verb be, gerund/present participle being O
32 VBN verb be, past participle been O
33 VBP verb be, sing. present, non-3d am, are O
34 VBZ verb be, 3rd person sing. present is O
35 VH verb have, base form have
36 VHD verb have, past tense had
37 VHG verb have, gerund/present participle having
38 VHN verb have, past participle had
39 VHP verb have, sing. present, non-3d have
40 VHZ verb have, 3rd person sing. present has
41 VV verb, base form take
42 VVD verb, past tense took
43 VVG verb, gerund/present participle taking
44 VVN verb, past participle taken
45 VVP verb, sing. present, non-3d take
46 VVZ verb, 3rd person sing. present takes
47 WDT wh-determiner which O
48 WP wh-pronoun who, what O
49 WP$ possessive wh-pronoun whose O
50 WRB wh-abverb where, when O
51 # # #
52 $ $ $
53 Quotation marks ‘ “
54 ```` | Opening quotation marks | ‘ “ | |
55 ( Opening brackets ( {
56 ) Closing brackets ) }
57 , Comma ,
58 : Punctuation – ; : — …

한국어의 품사 태그셋

널리 알려진 세종 품사 태그(세종 tag) 셋과 mecab 품사 태그(Mecab tag) 셋의 정리는 아래 표와 같다.

품사 세종 Tag 설명 MeCab Tag 설명
체언 NNG 일반 명사 NNG 일반 명사
NNP 고유 명사 NNP 고유 명사
NNB 의존 명사 NNB
NNBC
의존 명사
단위 명사
NR 수사 NR 수사
NP 대명사 NP 대명사
용언 VV 동사 VV 동사
VA 형용사 VA 형용사
VX 보조 용언 VX 보조 용언
VCP 긍정 지정사 VCP 긍정 지정사
VCN 부정 지정사 VCN 부정 지정사
관형사 MM 관형사 MM 관형사
부사 MAG 일반 부사 MAG 일반 부사
MAJ 접속 부사 MAJ 접속 부사
감탄사 IC 감탄사 IC 감탄사
조사 JKS 주격 조사 JKS 주격 조사
JKC 보격 조사 JKC 보격 조사
JKG 관형격 조사 JKG 관형격 조사
JKO 목적격 조사 JKO 목적격 조사
JKB 부사격 조사 JKB 부사격 조사
JKV 호격 조사 JKV 호격 조사
JKQ 인용격 조사 JKQ 인용격 조사
JX 보조사 JX 보조사
JC 접속 조사 JC 접속 조사
선어말 어미 EP 선어말 어미 EP 선어말 어미
어말 어미 EF 종결 어미 EF 종결 어미
EC 연결 어미 EC 연결 어미
ETN 명사형 전성 어미 ETN 명사형 전성 어미
ETM 관형형 전성 어미 ETM 관형형 전성 어미
접두사 XPN 체언 접두사 XPN 체언 접두사
접미사 XSN 명사 파생 접미사 XSN 명사 파생 접미사
XSV 동사 파생 접미사 XSV 동사 파생 접미사
XSA 형용사 파생 접미사 XSA 형용사 파생 접미사
어근 XR 어근 XR 어근
부호 SF 마침표, 물음표, 느낌표 SF 마침표, 물음표, 느낌표
SE 줄임표 SE 줄임표 …
SS 따옴표, 괄호표, 줄표 SSO
SSCSY
여는 괄호 (, [
닫는 괄호 ), ]
SP 쉼표, 가운뎃점, 콜론, 빗금 SC 구분자 , · / :
SO
SW
붙임표 (물결, 숨김, 빠짐)
기타기호 (논리 수학 기호, 화폐기호)
SY
기타 SL 외국어 SL 외국어
SH 한자 SH 한자
SN 숫자 SN 숫자