|
|
Корпус српског језика
КСЈ се састоји од три врсте материјала: а. граматички обрађеног текста,
б. серије фреквенцијских речника и в. матрица вероватноћа граматичких облика
и гласова српског језика.
а. Граматички обрађен текст: У оквиру изворног текста за сваку реч дат је њен граматички статус, број фонема и фонолошка структура. Анотирани су интерпункција, почетак и крај реченице, пасус и ономастички статус. б. Фреквенцијски речници: За сваки подузорак направљена је серија фреквенцијских речника. Тако су, на пример, у оквиру савременог српског језика направњени фреквенцијски речници на нивоу а. дела, б. писца, в. подузорка (нпр. савремена поезија) и савременог језика узетог у целини. |
|
Фреквенцисјки речници,
поред вероватноће одреднице, садрже и вероватноће граматичких облика речи
који су се јавили у оквиру датог подузорка, дужину речи и њену фонолошку
структуру.
в. Матрице вероватноћа: Кориснику КСЈ су доступне матрице вероватноћа свих граматичких облика у српском језику, као и матрице вероватноћа фонема и фонемских спојева. Матрице вероватноћа дате су на свим нивоима општости – од нивоа појединачног дела до нивоа целокупног подузорка (нпр. савремени језик или језик од 12. до 17. века). Материјал је дат у формату који је могуће пребацити у било који стандардни статистички пакет. Тренутно су доступни изворни граматички обрађен изворни текст, фреквенцијски речници и у оквиру савременог језика и матрице вероватноћа граматичких облика и фонолошке структуре на свим нивоима општости у оквиру савременог језика. Фреквенцисјки речници и матрице вероватноћа за остале подузорке су у раду. |
||
|