|
|
Свака реч у корпусу српског језика КСЈ је детаљно граматички спецификована, а граматичка обрада је рађена ручно. Поред спецификације граматичког статуса, за сваку реч је дата и одредница, број графема, број слогова и фонолошка структура. Основни принцип граматичке спецификације је морфолошки, а у неким случајевима, као нпр. код сложених глаголских времена, и морфосинтаксички. Систем граматичког кодирања заснован је на шездесетак граматичких елемената чијом комбинацијом је добијено око 2000 различитих граматичких облика. У табели је дат пример обраде текста у КСЈ: | |||||||||||||||||||||||||||||||||||||||||||
А – изворни текст, Б – одредница,
В
–
код граматичког облика, Г – нумерички код граматичког облика,
Д
– број графема, Ђ – број слогова, Е – фонолошка структура.
Систем граматичког кодирања поставио је проф.
Ђорђе Костић са екипом језичких стручњака. Граматичкој обради текста се
приступило тек пошто је систем у потпуности разрађен. 1999. године систем
постављен педесетих година је делом усклађен са новијим лингвистичким сазнањима,
а у изворни систем кодирања унете су одређене измене, нарочито у систему
заменица и глагола. Поменуте измене у систему кодирања ће бити унесене
тек пошто се у потпуности среди постојећи корпус.
|
||||||||||||||||||||||||||||||||||||||||||||
More Info SampleTaggingLabels
|