"В.Н.Щеглов. Логические модели смерти от злокачественных новообразований" - читать интересную книгу автора Отметим еще способ вычисления АМКЛ в случае так называемых "редких"
множеств целевых состояний (то же может относиться и к обратному случаю). Предположим, что массив данных содержит сотню целевых и десятки тысяч не целевых состояний (например, контрольных измерений). В этом случае стандартное решение приводит к целевой АМКЛ, в которой почти все К встречаются лишь по одному разу (т. е. с минимальной оценкой) и ранги (число переменных в К) весьма велики, что влечет громадные трудности при интерпретации таких К. Этого и следовало бы ожидать: при весьма большом числе не целевых состояний почти всегда найдется состояние, сходное с целевым, и для "отделения" целевого состояния от не целевых, приходится увеличивать ранг К. Пространства целевых и не целевых строк часто оказываются в этом случае неотделимыми: наблюдается большое число полных совпадений этих состояний объекта. Наилучший выход из этого положения заключается в упорядочивании исходного массива во времени (ближайшие состояния более похожи между собой по значениям медленно эволюционирующим и часто нерегистрируемым переменным). Далее для каждого целевого состояния подбирается заведомо приемлемое (по скорости счета, по рангу вычисляемых импликаций, т. е. по практической приемлемости сложности для дальнейшей интерпретации) число "контролей" из не целевых состояний. Для каждого целевого состояния в данном исследовании было решено отбирать по 5 - 6 таких контрольных состояний (т. е. включающих в себя смерть от злокачественных новообразований в непораженной зоне). Следует иметь в виду, что основная цель вычисления логических моделей заключается в поиске их семантики, которая с точки зрения исследователя каким-то образом согласовывалась бы с уже известными данными или была бы достигнуто после специального обзора литературных или иных данных, например, после использования информационной поисковой системы. Другими словами, цель логического моделирования заключается в наилучшем согласовании информационных каналов субъекта (исследователя) и объекта. Логические модели на используемых массивах всегда истинны ("точны") в случае отделимости исследуемых пространств (что и наблюдалось в данном исследовании; массив данных был предоставлен В.А. Хромушиным и А.В. Черешневым). Для удобства обзора моделей (выводов К) они нумеровались в порядке убывания их частоты встречаемости в массиве, далее записывалась частота и затем К. Номера конъюнкций К*, относящихся к пораженной местности, помечены далее звездочкой. Поскольку они имели сравнительно малые частоты (чаще всего в исходном массиве встречались по 2 раза), общую интерпретацию было решено провести следующим образом. Из множества К (т. е. для непораженной местности, каждый из которых имел сравнительно большую частоту) отбирались лишь те К, частота которых была равна или превышала среднюю их частоту. Всего, таким образом, было выбрано лишь 13 упорядоченных по большим частотам К - для краткости отображения моделей в данной статье. Затем, начиная с К с наибольшей частотой, к ней подбиралась наиболее близкая К*, которая имела совпадающий индекс для Хi хотя бы по первой по записи в списке xi (за неимением таковой - второй совпадающий индекс и т. д.). В этих вычислениях список К* просматривался также, начиная с наибольших частот (К*, которые встречались лишь по одному разу, не рассматривались, всего выбиралось также 13 К*). Для анализа была взята выборка за 2002 - 2003 годы, состоящая из свидетельств о смерти 981 человека по Тульской области, умерших от |
|
|