최종편집 : 2024.4.17 수 14:34
재외선거, 의료보험
> 오피니언 > 본국지논단
한국어 학습자 말뭉치
한국일보
폰트키우기 폰트줄이기 프린트하기 메일보내기 신고하기
승인 2023.05.26  
트위터 페이스북 네이버 구글 msn

이윤미 / 국립국어원 학예연구사

   
▲ 모두의 말뭉치 화면 캡처

요즘 어딜 가나 '챗지피티(Chat GPT)'가 화두이다. 말뭉치(corpus)는 챗지피티의 기반이 되는 것으로, 컴퓨터로 가공, 처리하고 분석할 수 있도록 만든 언어 자료 모음을 말한다. 그중에서도 외국인 한국어 학습자가 한국어로 쓰고 말한 자료를 데이터화한 것을 한국어 학습자 말뭉치라고 한다.

국립국어원에서는 2015년부터 한국어 학습자 말뭉치를 구축해 오고 있는데, 현재까지 143개국 95개 언어권의 자료를 수집하여 620만 어절 이상의 말뭉치를 구축하였다. 말뭉치는 학습자의 언어권별로, 학습자의 한국어 능력 수준별로 살펴볼 수 있다.

이러한 학습자 말뭉치로는 한국어 학습자의 언어 사용 양상이나 오류 유형을 파악할 수 있다. 예를 들어 학습자의 언어권별로 가장 많이 사용하는 어휘는 무엇인지, 중급 학습자가 범하는 오류 유형은 어떤 것인지를 파악할 수 있는 것이다.

학습자 말뭉치 검색 결과를 살펴보면 "저는 수영을 할 수 없어서 수영을 하지 않았어요"라는 문장이 있다. 앞뒤 맥락을 보면 수영을 원래 하지 못해서 못 했다는 것인데, 수영을 할 수는 있지만 어떤 이유로 인해 수영을 자의적으로 하지 않은 것으로도 읽힐 수 있다. 오류로 보기는 어려운 문장이지만 모국어 화자라면 어색하게 느낄 수 있는 문장이다. 이러한 양상이 특정 급수나 특정 언어권 학습자 말뭉치에서 자주 보인다면 해당 급수, 언어권 교재를 개발할 때 학습 자료로 넣어 활용할 수 있다.

한국어 학습자 말뭉치는 대규모 학습자 자료를 바탕으로 한국어 교육을 더욱 체계적이고 과학적으로 발전시켜 나가는 데 필요한 밑거름이다.

 

폰트키우기 폰트줄이기 프린트하기 메일보내기 신고하기
트위터 페이스북 네이버 구글 msn 뒤로가기 위로가기
회사소개광고문의기사제보구독신청찾아오시는길개인정보취급방침청소년보호정책이메일무단수집거부
서울시 종로구 종로19(르메이에르 종로타운) B동 1118호 | Tel 02)2075-7141~3 | Fax 02)2075-7144
등록번호 : 아01003 | 등록일자 : 2009. 10. 24 | 발행일자 : 2009. 10. 24 | 발행인 : 이구홍 | 편집인 : 이구홍
개인정보취급담당자 : 최유정 | 청소년보호책임자 : 강혜민
Copyright 2008 세계한인신문. All Rights Reserved.mail to oktimes@hanmail.net