Статистические методы анализа результатов
Статистически анализ данных выполнен под руководством к.т.н., доцента Леонова В.П. (Центр «БИОСТАТИСТИКА», е-mail: leo.biostat@gmail.com). Процедуры статистического анализа выполнялись с помощью статистических
пакетов SAS 9.3, STATISTICA 10 и SPSS-21.
Критическое значение уровня статистической значимости при проверке нулевых гипотез принималось равным 0,05. В случае превышения достигнутого уровня значимости статистического критерия этой величины принималась нулевая гипотеза.По массиву данных предварительно проводился разведочный анализ, основной целью которого было выявление латентных групп наблюдений, с последующим созданием новых группирующих признаков. С этой целью проводился кластерный анализ с использованием всех количественных признаков. Учитывая разномасштабность шкал анализируемых признаков, все количественные признаки перед проведением кластерного анализа предварительно стандартизовались. В результате этого все признаки в новых шкалах имели нулевое среднее и единичное стандартное отклонение. Для проведения кластерного анализа с этими новыми признаками вначале использовали иерархический алгоритм кластеризации. Процедура иерархического кластерного анализа с построением дендрограмм позволяла визуально определить количество выделяемых кластеров, идентификация которых производилась далее с помощью метода k-средних. В обоих случаях использовали алгоритм Варда и евклидову метрику [34].
Проверка нормальности распределения количественных признаков в отдельных группах сравнения проводилась с использованием критериев Колмогорова-Смирнова, Шапиро-Уилка, Крамера-фон-Мизеса и Андерсона- Дарлинга. Для сравнения центральных параметров групп использовались параметрические и непараметрические методы: дисперсионный анализ, в т.ч. с критерием Краскела-Уоллиса и ранговыми метками Вилкоксона, медианный критерий и критерий Ван дер Вардена [3, 34].
Для всех количественных признаков в сравниваемых группах производилась оценка средних арифметических и среднеквадратических (стандартных) ошибок среднего, а также коэффициента вариации, медианы, определение 25 % и 75 %процентилей. Дескриптивные статистики в тексте представлены как M ± SD, где М - среднее, а SD - стандартное отклонение при нормальном
распределении признака, или Med (НКв, ВКв) при ненормальном распределении признака.
Исследование взаимосвязи межу парами дискретных качественных признаков проводилось с использованием анализа парных таблиц сопряжённости. Помимо оценок критерия Пирсона Хи-квадрат и достигнутого уровня статистической значимости этого критерия, вычислялись оценки интенсивности связи анализируемых признаков, такие как коэффициент Фи, коэффициент контингенции и V-коэффициент Крамера [3, 18, 19].
Анализ взаимосвязи между одним качественным признаком, выступающим в роли зависимого, результирующего показателя, и подмножеством количественных и качественных признаков проводился с использованием модели логистической регрессии с пошаговым алгоритмом включения и исключения предикторов [20, 133]. Результаты оценки уравнений логистической регрессии представлены набором коэффициентов регрессии, достигнутыми уровнями значимости для каждого коэффициента, а также оценкой показателя согласия (Concordant) фактической принадлежности пациента к той или иной из групп, и теоретической принадлежности, полученной по уравнению логит-регрессии. Всего было получено несколько десятков уравнений логит-регрессии, из которых производился отбор уравнений, имеющих самые высокие значения (более 80 %) этого показателя. Ранжирование выделенных предикторов по степени связи с зависимой переменной производилось путём сортировки предикторов по модулю стандартизованных коэффициентов регрессии [20, 85]. Для интерпретации структуры уравнений использовались результаты анализа таблиц сопряжённости и результаты сравнения центральных мер для групп зависимого признака.
Для создания шкалы прогнозирования коронарного атеросклероза в качестве регрессионной модели была выбрана регрессия с оптимальным шкалированием (Regression with Optimal Scaling (CATREG)), которая реализована в статистической программе SPSS.
Взаимосвязь между количественными признаками проводилась с помощью корреляционного анализа по Спирмену. При анализе взаимосвязи между двумя подмножествами количественных признаков, отражающими различные аспекты анализируемого массива данных, использовался метод канонических корреляций [3]. В том случае, когда коэффициент канонической корреляции оказывался статистически значимым, массив данных пополнялся двумя каноническими осями первого решения, и в них строились двумерные диаграммы рассеяния анализируемых наблюдений.
Для исследования множественных связей между одним количественным признаком и подмножеством количественных признаков использовался метод множественной линейной регрессии. Оценки уравнений множественной регрессии проводилась с помощью алгоритмов пошагового отбора предикторов.
3
Еще по теме Статистические методы анализа результатов:
- Методы статистического анализа данных
- 2.3. Методы статистического анализа данных
- Методы статистической обработки результатов
- Методы сбора и математико-статистической обработки результатов исследований
- Методы статистической обработки результатов
- Методы статистической обработки результатов исследований.
- Корреляционный анализ результатов исследования активации лимфоцитов, полученных методами КФМ и МЭФ
- Статистический анализ данных
- 2.3. Методика статистического анализа полученных данных
- 2.6. Статистическая обработка результатов
- 2.3 Статистическая обработка результатов.
- Статистическая обработка полученных результатов
- 2.3 Статистическая обработка результатов исследования
- Статистическая обработка результатов исследования
- Статистическая обработка результатов исследования
- 2.3. Статистическая обработка результатов исследования.
- 2.2.3. Статистические методы
- Статистические методы
- 2.4. Методы статистической обработки