捷克国家语料库(ČNK)成立于1994年,旨在创建和提供大规模语言数据,以电子语料库的形式服务于教学和研究。目前提供超过30亿词的语料库资源,包括同步和历时、口语和书面、平行和单语语料库。项目由查理大学文学院的捷克国家语料库研究所和理论及计算语言学研究所运营,并且有超过200名外部专家参与材料收集和协调工作。
- 总部:N/A
- 成立年份: N/A
- 公司员工:N/A
OpenCorpora是一个旨在创建一个俄语文本的开放语料库的项目,该语料库将进行形态学、句法和语义标注。自2009年起,项目持续开发中,代码开源。主要业务包括参与命名实体识别标注、消除形态学歧义、提供自由文本源、添加文本到语料库、软件开发以及推广项目。
- 总部:N/A
- 成立年份: N/A
- 公司员工:N/A
korpus主要用户来自捷克,占比高达89.75%,其次是法国、克罗地亚、德国和意大利,占比分别是4.44%、1.63%、1.42%、0.7%。
OpenCorpora主要用户来自俄罗斯联邦,占比高达90.65%,其他用户主要由德国、荷兰和拉脱维亚构成,占比分别是4.56%、2.9%、1.88%