Демография России (сайт посвящён проф. Д. И. Валентею)
personalia
статистика
факты
мнения
консультации
новости

Национальный корпус русского языка

Пресс-релиз

Интернет, 28 апреля 2004. Впервые в интернете в свободном доступе открыт Национальный корпус русского языка объемом более 20 млн. слов. Поддержка сайта и поиск по корпусу осуществляется компанией «Яндекс».

Корпус русского языка – это собрание грамматически размеченных русских текстов XIX–XXI вв. в электронной форме, удобной для автоматического поиска и научных исследований. В его состав входят тексты самых разных жанров, причем не только произведения художественной литературы, но также – в сбалансированном объеме – научные, научно-популярные, религиозные и иные сочинения, публицистика, производственно-технические, юридические и многие другие тексты. Благодаря этому Корпус максимально представительно отражает русский литературный язык во всем многообразии его письменных форм.

Каждому слову и каждому тексту в Корпусе приписана лингвистическая аннотация на основе специального стандарта, разработанного при участии ведущих российских специалистов.

По мнению члена-корреспондента РАН А.М. Молдована, директора Института русского языка им. В.В.Виноградова РАН, «создание Национального корпуса русского языка является задачей поистине национального значения, поскольку большинство крупных языков мира уже располагают своими национальными корпусами текстов. Решение этой задачи восполняет лакуну в отечественном языкознании и переводит изучение и преподавание русского языка в качественно новые условия. Без преувеличения можно сказать, что с появлением Корпуса мы впервые получаем материальную базу для объективных и достоверных суждений о современном состоянии и путях развития русского языка».

Корпус предназначен для всех, кто интересуется вопросами, связанными с русским языком: профессиональных лингвистов, преподавателей языка, школьников и студентов, иностранцев, изучающих русский язык.

«Мы с удовольствием приняли участие в этом проекте, – говорит Илья Сегалович, технический директор Яндекса. – Грамматически аннотированный корпус есть не только способ изучения языка, но и важный общедоступный инструмент для создания и настройки программных средств, работающих с русскими текстами».

Работа над Национальным корпусом осуществляется большой группой лингвистов из Москвы, Санкт-Петербурга и других городов России в рамках программы «Филология и информатика» РАН (поддержку оказал также Российский гуманитарный научный фонд). Эта работа продолжается, в дальнейшем предполагается существенно увеличить количество входящих в Корпус текстов и расширить их состав.

Поиск по корпусу с учетом морфологии, расстояния и грамматических признаков, предоставлен Яндексом.

Контакты:
Компания «Яндекс»
Елена Колмановская, главный редактор
Телефон: (095) 974-35-55
Факс: (095) 974-35-65
E-mail: pr@yandex-team.ru



Найти: на  
обсудить на ReForum+
ответить письмом
посетите сайт нашего спонсора
демография россии