ГРАМАТИЧКА ОБРАДА ТЕКСТА                     КСЈ
Свака реч у корпусу српског језика КСЈ је детаљно граматички спецификована, а граматичка обрада је рађена ручно. Поред спецификације граматичког статуса, за сваку реч је дата и одредница, број графема, број слогова и фонолошка структура. Основни принцип граматичке спецификације је морфолошки, а у неким случајевима, као нпр. код сложених глаголских времена, и морфосинтаксички. Систем граматичког кодирања заснован је на шездесетак граматичких елемената чијом комбинацијом је добијено око 2000 различитих граматичких облика. У табели је дат пример обраде текста у КСЈ:
 
A
B
C
D
E
F

А – изворни текст, Б – одредница, В – код граматичког облика, Г – нумерички код граматичког облика, Д – број графема, Ђ – број слогова, Е – фонолошка структура.
и именица, гл глагол, пр предлог, Ј једнина, му мушки род, ж женски род, ном номинатив, а акузатив, рп радни придев, през презент, перф перфект, терће лице, с у саставу

Систем граматичког кодирања поставио је проф. Ђорђе Костић са екипом језичких стручњака. Граматичкој обради текста се приступило тек пошто је систем у потпуности разрађен. 1999. године систем постављен педесетих година је делом усклађен са новијим лингвистичким сазнањима, а у изворни систем кодирања унете су одређене измене, нарочито у систему заменица и глагола. Поменуте измене у систему кодирања ће бити унесене тек пошто се у потпуности среди постојећи корпус.
детаљније информације: систем кодирања из педесетих година, измене у постојећем систему кодирања
 
 

Садржај

More Info  SampleTaggingLabels