|
Корпус српског језика КСЈ
се састоји од три врсте материјала: а. граматички обрађеног текста, б.
серије фреквенцијских речника и в. матрица вероватноћа граматичких облика
и гласова српског језика.
а. Граматички обрађен текст: У оквиру изворног текста за сваку реч дат је њен граматички статус, број фонема и фонолошка структура. Анотирани су интерпункција, почетак и крај реченице, пасус и ономастички статус. |
||
б. Фреквенцијски речници:
За
сваки подузорак направљена је серија фреквенцијских речника. Тако су, на
пример, у оквиру савременог српског језика направњени фреквенцијски речници
на нивоу а. дела, б. писца, в. подузорка (нпр. савремена поезија) и савременог
језика узетог у целини. Фреквенцисјки речници, поред вероватноће одреднице,
садрже и вероватноће граматичких облика речи који су се јавили у оквиру
датог подузорка, дужину речи и њену фонолошку структуру.
в. Матрице вероватноћа: Кориснику КСЈ су доступне матрице вероватноћа свих граматичких облика у српском језику, као и матрице вероватноћа фонема и фонемских спојева. Матрице вероватноћа дате су на свим нивоима општости – од нивоа појединачног дела до нивоа целокупног подузорка (нпр. савремени језик или језик од 12. до 17. века). Материјал је дат у формату који је могуће пребацити у било који стандардни статистички пакет. Тренутно су доступни изворни граматички обрађен изворни текст, фреквенцијски речници и у оквиру савременог језика и матрице вероватноћа граматичких облика и фонолошке структуре на свим нивоима општости у оквиру савременог језика. Фреквенцисјки речници и матрице вероватноћа за остале подузорке су у раду. |
||
More
Info Sample
TaggingLabels
|