СТРУКТУРА МАТЕРИЈАЛА                              КСЈ
Корпус српског језика КСЈ се састоји од три врсте материјала: а. граматички обрађеног текста, б. серије фреквенцијских речника и в. матрица вероватноћа граматичких облика и гласова српског језика. 
а. Граматички обрађен текст: У оквиру изворног текста за сваку реч дат је њен граматички статус, број фонема и фонолошка структура. Анотирани су интерпункција, почетак и крај реченице, пасус и ономастички статус. 
б. Фреквенцијски речници: За сваки подузорак направљена је серија фреквенцијских речника. Тако су, на пример, у оквиру савременог српског језика направњени фреквенцијски речници на нивоу а. дела, б. писца, в. подузорка (нпр. савремена поезија) и савременог језика узетог у целини. Фреквенцисјки речници, поред вероватноће одреднице, садрже и вероватноће граматичких облика речи који су се јавили у оквиру датог подузорка, дужину речи и њену фонолошку структуру. 
в. Матрице вероватноћа: Кориснику КСЈ су доступне матрице вероватноћа свих граматичких облика у српском језику, као и матрице вероватноћа фонема и фонемских спојева. Матрице вероватноћа дате су на свим нивоима општости – од нивоа појединачног дела до нивоа целокупног подузорка (нпр. савремени језик или језик од 12. до 17. века). Материјал је дат у формату који је могуће пребацити у било који стандардни статистички пакет. 

Тренутно су доступни изворни граматички обрађен изворни текст, фреквенцијски речници и у оквиру савременог језика и матрице вероватноћа граматичких облика и фонолошке структуре на свим нивоима општости у оквиру савременог језика. Фреквенцисјки речници и матрице вероватноћа за остале подузорке су у раду. 

Садржај