"А.М.Кондратов. Звуки и знаки " - читать интересную книгу автора

Самый лучший путь - брать не один источник, а несколько. А затем, подсчитав,
сколько раз встречаются в этих книгах различные слова, сравнить результаты.
Если они совпадают, то слово действительно является частым (или редким).
Если не совпадают, то, значит, в одном из текстов оно было завышено из-за
сюжета или пристрастия автора к этому слову.
Так, весьма частое для "Капитанской дочки" слово крепость, встретилось
всего лишь в четырнадцати источниках из ста тридцати трех. Значит, слово это
отнюдь не частое и занимает скромное место в списке самых употребительных
слов русского языка. А составляй мы список лишь по "Капитанской дочке", то
оно вошло бы едва ли не в первую двадцатку самых ходовых слов нашего языка!
В "Истории Пугачева" оно встречается еще чаще - сто тридцать четыре
раза (ведь там речь то и дело идет о крепостях, взятых Пугачевым). В
"Путешествии в Арзрум" оно встречается шестнадцать раз. Зато во всех
художественных произведениях (кроме "Капитанской дочки") Пушкин употребил
слово крепость всего один раз (в "Дубровском") и два раза в стихотворениях и
поэмах.
Но не только количество разных текстов может гарантировать наши
подсчеты от случайности. Не менее важно взять большой объем этих текстов. И
чем он больше, тем вернее мы гарантированы, что никакие случайные факторы не
повлияют на точность наших подсчетов.
Подсчеты частот слов производились давно: еще в средние века
составлялись индексы к религиозным текстам, в которых указывалось, сколько и
где упоминаются слова бог, ангел и т. д. Но только на пороге нашего века
появляется серьезная потребность в частотных словарях. Первым таким словарем
считается словарь немецкого языка, выпущенный в Берлине в 1897-1898 годах.
Его составитель Ф. Кединг обработал колоссальный материал в одиннадцать
миллионов слов!
Вслед за тем приходит черед частотных словарей английского языка. В
Лондоне в 1904 году священник Дж. Ноулз составляет список из слов, которые
встретились более двадцати пяти раз в текстах, объемом в сто тысяч слов.
Американец Р. Элдридж, управляющий небольшой фабрикой, где в основном
работали иммигранты, за два года расписал на карточки двести пятьдесят
статей из газет, составивших около пятидесяти тысяч слов, и подсчитал
частоты этих слов.
Первоначально, как говорил Элдридж в предисловии к своему словарю,
выпущенному в 1911 году, его целью было выявить минимум слов, который помог
бы рабочим-иностранцам быстро овладеть разговорной речью. Но затем,
продолжает Элдридж, он понял, что частотные словари могут принести и более
существенную пользу, в том числе оказать помощь в реформе английской
орфографии, которую справедливо называют "чудовищной".
Но частотные словари Ноулза, Элдриджа, а также ряд других, выпущенных в
начале нашего века, были все-таки любительскими, ненадежными. Ноулз опирался
на текст Библии, Элдридж - на текст газетных статей, другие авторы - на
выборки из различных писем. Да и объем исследуемого материала был невелик. В
двадцатых годах профессора Колумбийского университета Э. Торндайк и И. Лордж
начинают работу над серией больших частотных словарей английского языка.
Завершился их четвертьвековой труд выпуском крупнейшего в мире частотного
словаря. Обработав различные тексты общим объемом в восемнадцать миллионов
слов, ученые привели в своем словаре тридцать тысяч слов, которые
встретились в этих текстах.