"Михаил Ахманов. Заклинатель джиннов " - читать интересную книгу автора

двуязычную надпись на какой-нибудь стеле вроде Розетского камня, где
сообщается об одном и том же на двух языках, знакомом и неизвестном. Но если
вы имеете дело с древней Америкой и Океанией, то этот метод неприменим -
ведь в те края не добирались ни финикийцы, ни эллины, ни латиняне.
Тут надо идти тропинками поизвилистей, сплетая точный математический
метод с эмпирикой и счастливой догадкой. На первом этапе неведомый текст,
представленный набором символов, подвергают кластерному анализу, цель
которого - распознать устойчиво повторяющиеся кластеры или смысловые группы.
Предположим, что это слова или числа; чем больше таких кластеров вы
ухитритесь найти, тем более полный словарь получится в результате.
Разумеется, вам неизвестно, что означают все эти слова, но одни из них
повторяются часто, другие - реже, а третьи - совсем редко. Это, само собой,
примитивное качественное описание, а количественным будет частотная
характеристика распределения кластеров, их статистический вес в текстах.
Когда такая функция получена, вы можете предположить, что чаще всего
повторяются слова "царь", "бог", "маис", "жертва" и, к примеру, "зарезать".
Сообщив о своих догадках компьютеру, отправляйтесь пить кофе, ибо теперь
начнется долгий и муторный процесс: перестановка значений между словами, их
идентификация и попытка на этой основе разобраться с предложенным текстом.
Возможно, через пару часов или суток вы получите одну-единственную
осмысленную фразу, что-то вроде: "царь... бог... маис... жертва". Пляшите -
ведь это великое достижение! Теперь вам осталось только заполнить пропуски
между словами (конечно, от фонаря) и прочитать: "Царь возблагодарил богов за
щедрый урожай маиса и повелел принести им жертву".
К сожалению, ваш коллега, пессимист и старый циник, интерпретирует эту
надпись совсем иначе: "Царь неугоден богам, и солнце по их велению сожгло
маис, несмотря на щедрые жертвы". Выяснить, кто же прав, можно только одним
способом - снова запустить тексты в программу и посмотреть, в каком из двух
вариантов получится больше осмысленных фраз. Итак, вы повторяете этот
процесс снова и снова, и наконец коллега посрамлен: боги все-таки не
поскупились на маис для индейцев. Теперь сядьте за стол и напишите дюжину
статей.
Но у Бянуса - то есть у доцента Бранникова - дела до статей не дошли,
так как он застрял на самом первом этапе, на поиске символьных групп. Он
клялся и божился, что перекодировал свои узелки в символьную запись с
величайшим тщанием, учитывая их расположение, размеры, способ вывязки, цвет
и даже фактуру нитей. В результате каждый узелок был описан десятком
признаков, а узлов этих насчитывалось двадцать тысяч без малого. С одной
стороны, хорошо - большой исходный массив гарантировал приличную статистику;
с другой, катастрофически плохо - ведь с матрицей двадцать на двадцать
тысяч, заданной в десятимерном пространстве признаков, не справилась бы ни
одна программа кластеризации.
Ни одна в мире, кроме моего Джека Потрошителя. Не буду
распространяться, как он умудрялся это делать, - надежды на медаль Вавилова
или иной приятный знак отличия меня еще не оставляют. Я совершенствовал свою
методу уже шесть лет, еще со времен стажировки в Кембридже, где хитрый
старый Томас Диш подкинул мне одну проблемку. Вопрос касался классификации
химических связей в солидной выборке веществ; выделение аналогов позволило
бы прогнозировать синтез других соединений со сходными свойствами, что
являлось весьма непростым и хорошо финансируемым промышленным заказом. Мне