"Звуки и знаки" - читать интересную книгу автора (Кондратов Александр Михайлович)Частоты и словаЧем чаще встречается в текстах слово, тем оно употребительнее, или, говоря языком математики, имеет большую частоту. Но как избежать слов, характерных только для данного текста, а в других почти не встречающихся? Самый лучший путь — брать не один источник, а несколько. А затем, подсчитав, сколько раз встречаются в этих книгах различные слова, сравнить результаты. Если они совпадают, то слово действительно является частым (или редким). Если не совпадают, то, значит, в одном из текстов оно было завышено из-за сюжета или пристрастия автора к этому слову. Так, весьма частое для «Капитанской дочки» слово В «Истории Пугачева» оно встречается еще чаще — сто тридцать четыре раза (ведь там речь то и дело идет о крепостях, взятых Пугачевым). В «Путешествии в Арзрум» оно встречается шестнадцать раз. Зато во всех художественных произведениях (кроме «Капитанской дочки») Пушкин употребил слово Но не только количество разных текстов может гарантировать наши подсчеты от случайности. Не менее важно взять большой объем этих текстов. И чем он больше, тем вернее мы гарантированы, что никакие случайные факторы не повлияют на точность наших подсчетов. Подсчеты частот слов производились давно: еще в средние века составлялись индексы к религиозным текстам, в которых указывалось, сколько и где упоминаются слова Вслед за тем приходит черед частотных словарей английского языка. В Лондоне в 1904 году священник Дж. Ноулз составляет список из слов, которые встретились более двадцати пяти раз в текстах, объемом в сто тысяч слов. Американец Р. Элдридж, управляющий небольшой фабрикой, где в основном работали иммигранты, за два года расписал на карточки двести пятьдесят статей из газет, составивших около пятидесяти тысяч слов, и подсчитал частоты этих слов. Первоначально, как говорил Элдридж в предисловии к своему словарю, выпущенному в 1911 году, его целью было выявить минимум слов, который помог бы рабочим-иностранцам быстро овладеть разговорной речью. Но затем, продолжает Элдридж, он понял, что частотные словари могут принести и более существенную пользу, в том числе оказать помощь в реформе английской орфографии, которую справедливо называют «чудовищной». Но частотные словари Ноулза, Элдриджа, а также ряд других, выпущенных в начале нашего века, были все-таки любительскими, ненадежными. Ноулз опирался на текст Библии, Элдридж — на текст газетных статей, другие авторы — на выборки из различных писем. Да и объем исследуемого материала был невелик. В двадцатых годах профессора Колумбийского университета Э. Торндайк и И. Лордж начинают работу над серией больших частотных словарей английского языка. Завершился их четвертьвековой труд выпуском крупнейшего в мире частотного словаря. Обработав различные тексты общим объемом в восемнадцать миллионов слов, ученые привели в своем словаре тридцать тысяч слов, которые встретились в этих текстах. В настоящее время частотные словари созданы почти по всем европейским языкам. Словарь испанского языка, составленный Гарсиа Осом, создан на основании подсчетов четырехсот тысяч слов; словарь чешского языка — одного миллиона двухсот тысяч слов, польского — семи миллионов, французского — полутора миллионов и т. д. Пришел черед и для частотного словаря русского языка. В настоящее время составлено пять таких словарей. |
||||
|