"В.Н.Щеглов. Логические модели структур заболеваний за 1986 - 1999 годы участников ликвидации аварии на ЧАЭС" - читать интересную книгу автора

& ... &(аr < xr < бr), & - логическая связка конъюнкция ("и"), r - число
открытых интервалов (а, б), т. е. ранги К, V - логическая связка дизъюнкция
("или"), -> - логическая связка импликация (" если, то") и Z - цель
исследования (обычно в булевом виде). В данной работе все переменные хi
будут булевыми, при обнаружении болезни хi = 1, при ее отсутствии хi = 0 (i
= 1, 2, ... , 100 групп болезней). Для удобства обозрения булеву М можно
записать, в качестве примера, в виде следующих наборов К (лишь первые из них
раскроем более детально):
х1 х"2 ... хr1 V К2 ... V Кm1 V -(x"3 x4 ... xr2 V K" ... V K"m2) -> Z,
где интервалы между х означают связки &, все х со штрихами х" имеют значение
0, без штрихов x = 1. Все К в левой части модели (до символа -) относятся к
целевой модели ЦМ, после символа - относятся к не целевой модели или "модели
контроля" МК, где - константа "ложь", "отрицание". Штрихи у К" означают
лишь, что эти К" относятся к МК. Индексы m1, m2, ..., означают порядковых
номер К.
После вычисления К рассчитываются их оценки Г - число (повторяемость)
каждой К в выборке и множества, соответствующие Г (номера ликвидаторов),
затем упорядочиваются все К по их Г. Начиная с К с наибольшей Г строится
объединение множеств, соответствующих этим упорядоченным К. Отбрасываются те
из них, множества (соответствующие Г) которых входят в объединенное
множество всех ранее отобранных более "мощных" К. В итоге строится тупиковая
дизъюнктивная форма. Ошибка М рассчитывается следующим простым способом.
Известно, что идеальному генератору случая соответствует АМКЛ, где все Г =
1. Если после вычисления М удалить из исходного массива какую-либо одну
строку - ее Z все равно будет распознана с помощью К, для которых Г = 2 или
больше; однако возможна ошибка, если у некоторой К Г = 1 (полагаем также,
что структура М мало меняется при удалении одной строки для достаточно
большой выборки). Будем называть максимальной ошибкой p для М суммарное
число К, для которых Г = 1, отнесенное к общему числу строк (570 Л) выборки.
Программа построения АМКЛ предназначена для исследования сложных систем
в динамике. Предполагается, что эти системы зависят также и от "скрытых"
(незарегистрированных) переменных, медленно эволюционирующих во времени. Для
того, чтобы сделать К мало зависящими от этих переменных, сам алгоритм
построен на сопоставлении каждой целевой строки со своей окрестностью не
целевых строк при вычислении ЦМ; аналогично вычисляется и МК.

Логические модели структур заболеваний

В данной работе для краткости приводится запись лишь трех К с
наибольшими Г для МК и трех для соответствующей ей ЦМ. В случайной (но
упорядоченной по времени) выборке из 570 Л обнаружено лишь 19 Л, имеющих
злокачественные новообразования органов дыхания. Для ЦМ большинство оценок Г
= 1, поэтому для выборки в ЦМ трех К применялись следующие приемы.
Помечались переменные хi, совпадающие по индексу i как в ЦМ, так и в МК
(большинство таких х в ЦМ имеют инверсные, т. е. обратные значения по
отношению к МК, их помечали звездочкой * справа, как в МК, так и в ЦМ).
Затем выбирались те К, которые имели наибольшее число таких инверсий (И),
поскольку содержательная интерпретация таких К более проста, далее они
записывались в порядке уменьшения числа И. В случае одинакового их числа
предпочтение для записи оказывалось тем К, для которых И ближе по записи к