|
Христ и Самарићанка (1780-1781) |
Корпус српског језика КСЈ се састоји од три
врсте материјала: а. граматички обрађеног текста, б. серије фреквенцијских
речника и в. матрица вероватноћа граматичких облика и гласова српског језика.
а. Граматички обрађен текст: У оквиру изворног текста за сваку реч дат је њен граматички статус, број фонема и фонолошка структура. Анотирани су интерпункција, почетак и крај реченице, пасус и ономастички статус. |
|
б. Фреквенцијски речници: За сваки подузорак
направљена је серија фреквенцијских речника. Тако су, на пример, у оквиру
савременог српског језика направњени фреквенцијски речници на нивоу а.
дела, б. писца, в. подузорка (нпр. савремена поезија) и савременог језика
узетог у целини. Фреквенцисјки речници, поред вероватноће одреднице, садрже
и вероватноће граматичких облика речи који су се јавили у оквиру датог
подузорка, дужину речи и њену фонолошку структуру.
в. Матрице вероватноћа: Кориснику КСЈ су доступне матрице вероватноћа свих граматичких облика у српском језику, као и матрице вероватноћа фонема и фонемских спојева. Матрице вероватноћа дате су на свим нивоима општости – од нивоа појединачног дела до нивоа целокупног подузорка (нпр. савремени језик или језик од 12. до 17. века). Материјал је дат у формату који је могуће пребацити у било који стандардни статистички пакет. Тренутно су доступни изворни граматички обрађен изворни текст, фреквенцијски речници и у оквиру савременог језика и матрице вероватноћа граматичких облика и фонолошке структуре на свим нивоима општости у оквиру савременог језика. Фреквенцисјки речници и матрице вероватноћа за остале подузорке су у раду. |
||
More
Info SampleTaggingLabels
|