"Звуки и знаки" - читать интересную книгу автора (Кондратов Александр Михайлович)

Пять частотных словарей

Интерес к русскому языку возрастает во всем мире. Русский учат в США и Анголе, в Японии и на Кубе, в Финляндии и Монголии, в Канаде и Эфиопии. Сколько же слов надо знать иностранцу, чтобы читать произведения русской классики? вести деловой разговор? объясниться с прохожим, приехав гостем в СССР?

Мы уже говорили о картотеке Института русского языка, где зарегистрировано четыреста сорок тысяч слов. В семнадцатитомном «Словаре современного русского языка» приводится сто пятьдесят тысяч различных слов. Вряд ли целесообразно иностранцу, решившему постичь великий и могучий русский язык, заучивать все эти слова, которые в полном объеме неведомы и русским людям. Ему нужен на первых порах минимум, слова самые употребительные, самые частые.

В 1953 году в американском городе Детройте выходит в свет первый частотный словарь русского языка. Его составитель Г. Г. Джоссельсон использовал тексты общим объемом в один миллион слов. Но так как основным материалом для анализа Джоссельсон взял произведения дореволюционных писателей, то в список часто употребляемых слов попало слово барин и другие подобные ему умершие в социальном смысле слова. Да и методика обработки материала была несовершенной. Короче говоря, словарь этот не отражал реальной картины современного русского языка и был лишь первым опытом.

Десять лет спустя в Таллине вышел «Частотный словарь современного русского литературного языка», составленный Э. А. Штейнфельдт на основании обработки четырехсот тысяч слов.

Однако и этого словаря оказалось недостаточно. Объем текстов, взятых для словаря Штейнфельдт, был невелик. Причем четвертую часть его составляли произведения детской литературы. Естественно, это повлияло и на общую картину: в список частых попали такие слова, как пионер, штаб и т. п.

В 1966 году университет штата Огайо выпустил частотный словарь «разговорного русского языка». Составлен он был на основании обработки пьес. Мы же, как известно, далеко не всегда говорим так, как персонажи пьес классических и даже современных. Вот почему университет дружбы народов имени П. Лумумбы в Москве выпустил в 1968 году свой словарь, более точно отражающий разговорную лексику. В словарь вошло две тысячи триста восемьдесят наиболее употребительных слов русской разговорной речи.

Наконец настал черед и монументального «Частотного словаря русского языка». Такой словарь был издан в нашей стране в 1977 году и занял почти тысячу страниц. Его составителями были сотрудники филологического факультета Ленинградского университета и лаборатории семиотики НИИ прикладной математики и кибернетики при Горьковском университете. С помощью ЭВМ они обработали тексты объемом в миллион слов,

В словаре в алфавитном порядке от союза а до прилагательного ящичный приводится около сорока тысяч различных слов, встречавшихся в тексте. Рядом со словом дана его частота, сначала общая, а затем по основным четырем категориям, на которые были разделены все тексты (художественная проза; драматургия; научные и публицистические тексты; газетные и журнальные тексты). Тут же приведено и число разных текстов, в которых встречалось данное слово (ведь эта характеристика не менее важна, чем абсолютная частота, которая, как уже говорилось, может зависеть от специфики текста, сюжета и т. п.).

Вслед за алфавитно-частотным словарем идет частотный. Слова даны здесь в порядке убывания частот. На первом месте стоит предлог в. Вместе со своим вариантом предлогом во он встретился в текстах почти сорок три тысячи раз! На втором месте по частоте употребления идет союз и, он встретился более тридцати шести тысяч раз. Отрицание не — на третьем месте (около двадцати тысяч раз), на четвертом — предлог на (свыше семнадцати тысяч). Местоимение я занимает пятое место — оно встретилось в текстах около четырнадцати тысяч раз.

Верхнюю часть списка наиболее употребительных слов занимают предлоги, союзы, частицы, местоимения. Лишь в четвертом десятке этих слов появляется глагол мочь, числительное один, а на шестом десятке — существительное год и прилагательное большой. Зато потом эти части речи занимают львиную долю списка.