Цели и задачи

В последнее время благодаря появившимся поисковым системам (таким как Яндекс и Google) и корпусам текстов с возможностью поиска по ним (в частности, НКРЯ и многим другим) возможности лингвиста значительно расширились. В лингвистике теперь стало можно решать ставить такие задачи, которые прежде решить было невозможно или для исследования которых требовалось необозримое количество времени и ресурсов. Например, теперь легко и быстро можно узнать, сочетается ли некоторый глагол с некоторым объектом, и с каким из двух объектов он встречается чаще, чем с другим.

Вместе с тем, при решении ряда задач наши поисковые возможности ограничены. С одной стороны, в запросах к поисковым системам и к большинству корпусов мы можем задавать только линейный порядок слов, поэтому лингвисту, исследующему конструкции, приходится перебирать все возможные комбинации элементов. С другой стороны, зачастую не хватает информации о синтаксической связи слов. Например, сложности возникают при поиске примеров конкретного варианта управления глагола или примеров конкретной конструкции (такой как конструкция с квазиимперативом долженствования Они едят в ресторанах, а я плати). Как правило, в результатах поиска присутствует столько «шума», что требуется множество дополнительных усилий для того, чтобы отделить нужные примеры от примеров, случайно попавших в выданные результаты.

В российской компьютерной лингвистике до сих пор нет специализированных ресурсов, аналогичных FrameNet (Johnson, Fillmore et al. EE), VerbNet (Kipper et al. 2006) или PropBank (Palmer 2005). В этих источниках исследователи английского языка могут получить данные о типах глагольного управления, их распределении и вариативности в разных лексических единицах, просмотреть иллюстративный материал – причем на примерах из реальных текстов. Система FrameNet, кроме того, содержит аналогичные данные об именах существительных и прилагательных, и, что примечательно, в настоящее время эволюционирует в сторону словаря конструкций («New Constructicon», см. Fillmore 2008).

Таким образом, речь идет о создании русского фреймнет-ориентированного ресурса, спроектированного с учетом традиций отечественной лексической семантики и специфики русского языка, где информация о предложно-падежной реализации управления предикатов и поверхностно-синтаксических свойствах других конструкций имеет особую ценность. Эта компьютерная система должна решать не только задачи словаря (ср. систему «Лексикограф», www.lexicograph.ru, бумажные словари Апресян, Палл 1982, Сазонова 2008, лексикографические проекты Азарова и др. 2004, Апресян 2008 и др.), но и представлять аннотированный корпусной материал. Этот ресурс реализует принципы гибридных систем, в которых авторитетные лексикографы видят будущее словарей (Atkins 1992, Kilgarriff et al. 2006): словарь в выходом в корпус. С одной стороны, это словарь – но с возможностью расширения иллюстраций за счет поиска в корпусе. С другой стороны, это корпус, но с экспертным отбором примеров. Наконец, это лексически ориентированный ресурс, где выборка примеров строится с ориентацией на конкретные лексемы, однако в каждом предложении разметке подлежат все предикатные слова и связанные с ними конструкции.

В результате появляется возможность проследить, как реализуются активные и пассивные валентности глаголов, реляционных имен типа ненависть или пациент, прилагательных (ср. готов к выступлению), наречий и т. п., как влияют на это «нелексические» грамматические конструкции, например, инфинитивная или компаративная, как это связано с порядком слов, пунктуацией и так далее. Тем самым, создаются предпосылки для прорыва в еще одной важной и малоисследованной области лингвистики – в изучении взаимодействия различных конструкций на пространстве текста. Таким корпусным словарем конструкций и является FrameBank.