"В.Н.Щеглов. Модели признаков смерти от злокачественных новообразований для населения," - читать интересную книгу автора

(незарегистрированных) переменных, медленно эволюционирующих во времени. Для
того, чтобы сделать К мало зависящими от этих переменных, сам алгоритм
построен на сопоставлении каждой целевой строки со своей окрестностью не
целевых строк при вычислении каждой целевой модели; аналогично вычисляются и
модели "контроля" (не целевые).
Отметим еще способ вычисления АМКЛ в случае так называемых "редких"
множеств целевых состояний. Предположим, что массив данных содержит сотню
целевых и тысячу не целевых состояний (контрольных измерений). В этом случае
стандартное решение приводит к целевой АМКЛ, в которой многие К встречаются
лишь по одному разу (т. е. с минимальной оценкой) и ранги (число переменных
в К) велики, что влечет трудности при интерпретации таких К. Этого и
следовало бы ожидать: при весьма большом числе не целевых состояний почти
всегда найдется состояние, сходное с целевым, и для "отделения" целевого
состояния от не целевых, приходится увеличивать ранг К* . Пространства
целевых и не целевых строк иногда оказываются в этом случае неотделимыми:
наблюдается совпадения этих состояний объекта (неотделимость пространств К*
и К). Подобные пары строк приходится удалять в основном из-за ограниченности
используемого "словаря" Х.
Следует иметь в виду, что основная цель вычисления логических моделей
заключается в поиске их семантики, которая с точки зрения исследователя
каким-то образом согласовывалась бы с уже известными данными или была бы
интересна с какой-либо иной точки зрения. Такое согласование могло бы быть
достигнуто после специального обзора литературных или иных данных, например,
после использования информационной поисковой системы. Другими словами, цель
логического моделирования заключается в наилучшем согласовании
информационных каналов субъекта (исследователя) и объекта. Логические модели
на используемых массивах всегда истинны в случае отделимости исследуемых
пространств. Массив данных был предоставлен В.А. Хромушиным и А.В.
Черешневым.
Для удобства обзора моделей (списки выводов К* и отдельно К) эти
конъюнкции нумеровались в порядке убывания их частоты встречаемости (или Г)
в массиве, далее записывалась их частота и затем соответствующий каждой
конъюнкции набор Хi. Для краткости записи моделей в данной статье (она имеет
в основном методический характер) из общего списка упорядоченных по оценкам
Г К* была отобрана лишь их половина (с большими Г), всего 14 К*, причем, при
одинаковых Г предпочтение отдавали К* с меньшим рангом r, они более
информационные (обратный пример - для генератора случая r стремится к n).
Поскольку К* имели вообще сравнительно малые частоты, общую
интерпретацию было решено провести следующим образом. Просматривался список
К*, затем, начиная с К* с наибольшей частотой, к ней подбиралась наиболее
близкая К, которая имела совпадающий индекс для Хi, желательно по первой
переменной (за неимением таковой - вторая совпадающая Х и т. д.). В этих
вычислениях список К просматривался также, начиная с наибольших частот (К,
которые встречались лишь по одному разу, не рассматривались; всего
выбиралось также 14 К). Для анализа была взята выборка за 2002 - 2003 годы,
вся выборка была упорядочена по дате смерти.
Семантика обозначений и индексов для Х частично приведена также в
тексте п. 2 при интерпретации К и К*.