WWW.MASH.DOBROTA.BIZ
БЕСПЛАТНАЯ  ИНТЕРНЕТ  БИБЛИОТЕКА - онлайн публикации
 

Pages:   || 2 |

«образовательное учреждение высшего образования «Челябинский государственный университет» КЛАССИЧЕСКОЕ УНИВЕРСИТЕТСКОЕ ОБРАЗОВАНИЕ Д. Ю. Нохрин ЛАБОРАТОРНЫЙ ПРАКТИКУМ ПО БИОСТАТИСТИКЕ Челябинск ...»

-- [ Страница 1 ] --

Министерство образования и науки Российской Федерации

Федеральное государственное бюджетное

образовательное учреждение высшего образования

«Челябинский государственный университет»

КЛАССИЧЕСКОЕ УНИВЕРСИТЕТСКОЕ ОБРАЗОВАНИЕ

Д. Ю. Нохрин

ЛАБОРАТОРНЫЙ ПРАКТИКУМ

ПО БИОСТАТИСТИКЕ

Челябинск

Издательство Челябинского государственного университета

УДК 57.08

ББК Е.я7

Н858

Серия основана в 2008 году Печатается по решению редакционно-издательского совета Челябинского государственного университета

Р е ц е н з е н т ы:

В. Е. Лазарев, доктор технических наук, доцент, заведующий кафедрой двигателей внутреннего сгорания и электронных систем автомобилей Южно-Уральского государственного университета (национального исследовательского университета);

Л. А. Рязанова, кандидат биологических наук, доцент кафедры общей биологии и физиологии Южно-Уральского государственного гуманитарно-педагогического университета Нохрин, Д. Ю .

Лабораторный практикум по биостатистике / Д. Ю. Нохрин .

Н858 Челябинск : Изд-во Челяб. гос. ун-та, 2018. 289 с. (Классическое университетское образование) .

ISBN 978-5-7271-1487-2 Представлены конспекты 18 лабораторных занятий по программе курса «Основы биометрического анализа и планирования эксперимента», содержащие необходимые сведения теоретического характера. На примерах из области биологии и медицины рассмотрен алгоритм расчётов с использованием статистического пакета, а также даются рекомендации по оформлению результатов исследования в квалификационной работе или научной статье .



Предназначено для бакалавров направления 06.03.01 «Биология», магистрантов направления 06.04.01 «Биология» (направленности — микробиология и вирусология, медико-биологические науки, лабораторная диагностика в клинической практике для биологов, прикладные и фундаментальные вопросы биотехнологии) и аспирантов направления 30.06.01 «Фундаментальная медицина (направленность — клиническая иммунология и аллергология)». Издание будет полезно школьникам старших классов с углублённым изучением биологии и аспирантам медицинских и биологических направлений обучения .

УДК 57.087.1(075.8) ББК Е.с13я73-5 ISBN 978-5-7271-1487-2 © Челябинский государст венный университет, 2018 © Нохрин Д. Ю., 2018

ОГЛАВЛЕНИЕ

Введение............................................... 5 Структура практикума и самостоятельная работа с ним......... 5 Структура лабораторного занятия............................ 11 Как подготовить файл данных для статистического анализа в рамках статьи, дипломного проекта или диссертации.........13 Как получить помощь по статистическому анализу данных.......19

–  –  –

Лабораторная работа № 3 Графические возможности статистических пакетов .

Описательная статистика на графиках...................... 50

–  –  –

Лабораторная работа № 5 Сравнение двух независимых выборок по количественным и порядковым показателям................................ 88

–  –  –

Лабораторная работа № 8 Сравнение трёх и более выборок по количественным и порядковым показателям............................... 117

–  –  –



Лабораторная работа № 10 Сложные модели дисперсионного анализа.................. 144 Лабораторная работа № 11 Анализ связей между показателями .

Графическое представление связей........................ 157 Лабораторная работа № 12 Анализ зависимостей. Линейная регрессия................. 167 Лабораторная работа № 13 Анализ зависимостей. Нелинейная регрессия............... 177 Лабораторная работа № 14 Специфические задачи в биологических исследованиях на примере анализа выживаемости и оценки диагностической эффективности тест-системы............................. 192 Лабораторная работа № 15 Работа с пространственными данными. Построение карт-схем 212

–  –  –

Лабораторная работа № 17 Многомерные методы разведочного анализа данных для качественных признаков............................. 253 Лабораторная работа № 18 Планирование научного исследования..................... 261

–  –  –

ВВЕДЕНИЕ

Лабораторный практикум разработан с целью повышения эффективности обучения студентов основам биостатистики, а также помощи в написании и оформлении студенческих квалификационных работ и научных статей. В основу практикума положен курс «Основы биометрического анализа и планирования эксперимента», который автор длительное время читает студентам биологического факультета Челябинского государственного университета, поэтому объём и структура издания находятся в полном соответствии с рабочей программой указанной дисциплины. Вместе с тем форма подачи материала в виде развёрнутого конспекта занятия позволяет использовать его для самостоятельного освоения широкого спектра статистических методов школьниками старших классов, студентами и аспирантами, проводящими научные исследования в области естественных наук и медицины .

Структура практикума и самостоятельная работа с ним

Практикум состоит из 18 лабораторных занятий, на которые отводится 36 аудиторных академических часов. В его основе лежит принцип деления практических задач на 7 категорий, а исследуемых признаков (типов данных) — на 3 категории .

Таким образом, значительная часть наиболее востребованных в исследовательской практике статистических методов может быть структурно представлена в виде таблицы 73, которую мы предлагаем заполнить читателю самостоятельно по мере прохождения курса .

Перечислим и кратко охарактеризуем типичные задачи в исследовании .

1. Описание данных. Данная задача решается в подавляющем большинстве работ, поскольку исследователю необходимо представить результаты в компактном виде, должным образом их обобщив. Например, для количественных показателей это может быть среднее значение или медиана, для качественных — частота в процентах; также приводят меры рассеяния или точности оценки показателя по выборке. Поскольку грамотное описание данных подразумевает знание характера распределения признака, этапу описания данных часто предшествует анализ распределения: графический и/или статистический. Эта задача рассматривается на лабораторных занятиях № 2–4 (табл. 1) .





2. Сравнение двух выборок. Очень распространённая задача .

Обычно одна выборка является экспериментальной (в медицине — «основная группа»), а вторая — контрольной (в медицине — «группа сравнения»). Также это могут быть группы разного пола, возраста, разных видов и т. д. Сравнение проводят по мерам положения, рассеяния и форме распределения. На лабораторных занятиях № 5–7 данная задача рассматривается только применительно к мерам положения .

3. Сравнение нескольких выборок. Также распространённая задача. Это могут быть несколько экспериментальных групп и контрольная группа, разные виды, условия и т. д. Если исследуется не один действующий фактор, а несколько — требуется одновременная их оценка для выявления возможных неаддитивных эффектов взаимодействия факторов. Методы для решения этой задачи рассматриваются применительно только к мерам положения на занятиях № 8–10 .

4. Поиск связей. Важная задача, которую часто называют поиском корреляций или ассоциаций между признаками. В этом случае все признаки рассматриваются как равноценные, то есть их отношения по типу «причина — следствие» если и возможны, то не предполагаются строго. Этой задаче посвящено занятие № 11 .

5. Поиск зависимостей. Данная задача подразумевает наличие двух разнокачественных показателей: одни являются независимыми (регрессорами), а другие — зависимыми (откликами). Установление факта наличия зависимости откликов от регрессоров, а также её формы проводится в ходе регрессионного анализа, для которого разработано большое число статистических техник. Также цель может заключаться в прогнозе величины количественного показателя или прогнозе наступления качественного состояния. Ряд техник регрессионного анализа рассматривается на лабораторных занятиях № 12–14. В экологических работах нередко требуется изобразить значения показателей с привязкой к местности и построить карту (загрязнения, распространения видов и т. п.). Задаче интерполяции пространственных данных посвящено занятие № 15 .

6. Многомерный разведочный (эксплораторный) анализ .

Зачастую показателей в работе оказывается так много, а многочисленные связи между ними представляются столь непростыми, что исследователю сложно приступить к анализу: неясно, с чего нужно начинать в первую очередь. Методы эксплораторного анализа помогают обобщить сложный материал, увидеть в нём разнонаправленные тенденции, естественные группировки объектов и сходным образом изменяющиеся показатели. При этом ценность в работе может представлять как достигнутый с применением многомерных техник уровень обобщения, так и напротив — сужение спектра гипотез до 1–2 простых, которые удобнее проверять менее сложными классическими статистическими техниками. Типичные методы разведочного анализа рассматриваются на занятиях № 16–17 .

7. Специфические задачи. В целом таких задач много, хотя в конкретных областях биологии и медицины это единичные специфические случаи. Объём практического курса не позволяет рассмотреть даже по 1–2 таких задач для каждого из направлений обучения, поэтому было решено включить три специальные задачи, выбранные по другим принципам. Анализ выживаемости (занятие № 14) знакомит с таким особым типом данных, как неполные, или цензурированные наблюдения .

Анализ чувствительности и специфичности диагностических методов и тест-систем (занятие № 14) крайне важен в экспериментальной биологии и медицине. На последнем, 18-м занятии рассматриваются необходимые для любого исследования вопросы планирования: выбор экспериментального плана и расчёты объёмов выборок .

Перечислим и кратко охарактеризуем типы признаков и шкалы данных. Все биологические признаки можно разделить на количественные и качественные, представленные четырьмя шкалами (см. теоретический материал и рис. на с. 8) .

С точки зрения анализа данных их удобнее разбить на 3 группы .

I. Количественные признаки с нормальным распределением (шкала отношений и интервальная шкала). Методы анализа таких признаков разработаны очень хорошо и составляют Признаки

–  –  –

направление классической параметрической статистики, задействующей в расчётах параметры известных распределений, главным образом — параметры нормального распределения (математическое ожидаемое «мю» и стандартное отклонение «сигма»). Отметим, что вопреки распространённому заблуждению нормальным распределение должно быть не в выборке, а в генеральной совокупности, откуда данная выборка извлечена .

II. Количественные признаки с ненормальным распределением и порядковые признаки (шкала отношений, интервальная шкала и порядковая шкала). Большинство биологических показателей относится к этому типу.

Если мы не уверены в нормальности распределения признака или точно знаем, что он распределён ненормально, анализ данных можно провести тремя способами:

1) нормализовать данные с помощью специальных преобразований шкалы (логарифмирование, преобразование арксинуса, Бокса — Кокса и др.) и использовать далее параметрические методы;

2) преобразовать шкалы отношений или интервалов в порядковую шкалу и работать далее непараметрическими методами порядковой статистики. Такой способ традиционен и популярен (медианы и квартили, корреляция Спирмена, критерии Уилкоксона — Манна — Уитни, Краскела — Уоллиса, Фридмана и др.). Однако важно отдавать себе отчёт в том, что понижение шкалы до порядковой сопровождается определённой потерей информации;

3) работать с исходными непреобразованными данными методами, устойчивыми к отклонениям от нормальности. Это могут быть либо методы робастной статистики (усечённые средние или отличные от среднего М-оценки, средние абсолютные отклонения вместо среднеквадратичных и т. д.), либо современные ресэмплинг-техники, основанные на вычислительных возможностях компьютеров (складной нож, бутстреп, рандомизационные методы Монте-Карло) .

При решении разных задач мы так или иначе познакомимся со всеми тремя способами. Исключение составят методы робастной статистики, которые в практике биостатистики не являются традиционными и применяются редко .

III. Качественные номинальные признаки (номинальная шкала). Такие признаки представляют собой определённые состояния (вид, пол, цвет, есть или нет, жив или мёртв и т. п.) .

Обычно их описывают частотами, выраженными в процентах от общего числа (а также в промилле, единицах на 10 тыс. и т. п.) .

–  –  –

Обратите внимание на правильное написание названий статистических методов, указанных в примечании. В предстоящем практическом курсе будет много статистических техник, названных в честь их разработчиков. Если разработчиков было два и более, то согласно правилам русского языка такие сложные эпонимы пишутся через знак тире: критерий Уилкоксона — Манна — Уитни, преобразование Бокса — Кокса, регрессия Кендалла — Тейла и т. п. В англоязычном написании таких терминов используется знак дефис: Wilcoxon-Mann-Whitney test, Box-Cox transformation, Kendall-Teil regression. Также математические символы принято писать курсивом: объём выборки n, число степеней свободы df, t-критерий Стьюдента, F-критерий Снедекора — Фишера и т. д. Помните, что ваша печатная работа — это ваше лицо в науке, поэтому грамотно оформляйте свои работы и следите за тем, чтобы ваши старшие наставники или редакции журналов не исправили верное написание на неверное (к сожалению, иногда такое случается) .

В конце практикума представлен указатель статистических терминов и названий методов на русском и английском языках с указанием номера страницы, где они упоминаются. Поэтому быстрый поиск информации по интересующему методу можно также начать с указателя .

Структура лабораторного занятия

Каждое лабораторное занятие состоит из четырёх основных частей .

1. Введение. В нём приводится минимально необходимый для выполнения заданий набор сведений теоретического и/или практического характера, включая термины (выделены полужирным курсивом) и определения (обозначены знаком ). Для облегчения поиска в пакетах и на интернет-ресурсах статистические термины даны также на английском языке и приведены светлым курсивом в скобках: (term). Вводный раздел не заменяет теоретический курс, а призван дополнить его и адаптировать к практике. Указания на необходимость обращения к теоретическому курсу приводятся в соответствующих местах пособия в скобках: (см. теоретический материал). Они подразумевают самостоятельную работу с литературой или чтение лекционного материала. Важные сведения и рекомендации предваряются словом «ВАЖНО!». Поскольку лабораторный курс сильно опережает лекционный, для ряда занятий введение получилось весьма объёмным. Такие лабораторные занятия рационально частично выносить на самостоятельное изучение. Небольшие занятия, оставляющие много свободного времени, можно дополнить опросом и контрольными работами .

2. П р и м е р. Содержит данные для освоения метода и формулировку задания. Небольшие наборы данных представлены в тексте практикума и должны вноситься в статистический пакет самостоятельно. Объёмные данные представлены в виде готовых файлов; их можно найти в папке «Данные» по ссылке:

https://yadi.sk/d/g50i73pt3J6pAa

3. Алгоритм расчётов. Данный раздел содержит пронумерованную последовательность действий c необходимыми скриншотами и комментариями. Для облегчения структуры практикума скриншоты не нумеровались, а ряд небольших рисунков не содержит подрисуночных подписей .

Шаги, требующие работы в программе, начинаются с соответствующей иконки:

Пакет PAST — основной пакет практикума. Бесплатный; не требует установки. URL: https://folk.uio.no/ohammer/past/ Пакет TpX — векторный графический редактор для правки рисунков. Бесплатный (лицензия GNU GPL), не требует установки .

URL: https://sourceforge.net/projects/tpx/ (исходный код) URL: https://ctan.org/tex-archive/graphics/tpx (zip-архив с программой, скомпиллированной под ОС Windows) Электронная таблица Excel из пакета Microsoft Office (коммерческая). Может быть заменена на Calc из пакетов Apache OpenOffice (бесплатный, лицензия Appache; https://www.openoffice.org/ru) или LibreOffice (ru.libreoffice.org, лицензия GNU GPL) Браузер — для расчётов в онлайновых калькуляторах. Можно использовать любой современный браузер .

Пакет 3DField — для интерполяции пространственных данных и построения карт-схем (функционально ограниченная бесплатная версия). URL: http://3dfmaps.com Пакет GPower — для расчётов объёмов выборок, мощности и др .

при планировании исследования (бесплатный) .

URL: http://www.gpower.hhu.de/en.html Часть занятий содержит также расчёты по формулам, которые можно проводить на ручном или виртуальном калькуляторе .

В алгоритмической части имеются вопросы (Вопрос: …), над которыми нужно подумать и дать ответ обязательно до дальнейшего прочтения текста, поскольку далее ответ, как правило, приводится. Также имеются задания для самостоятельного выполнения (Задание: …) .

4. Вариант оформления в квалификационной работе. Обычно приведены краткие формулировки и рекомендации для трёх разделов квалификационной работы или научной статьи: 1) «Материалы и методы»; 2) «Результаты и обсуждение»; 3) «Выводы» .

Представленные шаблоны не являются строгими и должны дорабатываться авторами под конкретные методы и результаты работы .

Некоторые занятия содержат «Комментарий» и пометку «К сведению». Для ряда лабораторных занятий дано обязательДомашнее задание» .

ное к выполнению Как подготовить файл данных для статистического анализа в рамках статьи, дипломного проекта или диссертации Данные (data) — сведения, полученные путём наблюдения, счёта, измерения, а также логических или арифметических операций, представленные в форме, пригодной для хранения, передачи и обработки .

Как показывает практика, несмотря на успешное прохождение курса биостатистики большинством студентов, при работе над дипломным проектом у многих из них возникают сложности, связанные с отсутствием навыков работы с большими массивами разнородных данных. В данном разделе представлен ряд рекомендаций по структурированию собираемых данных для последующего статистического анализа .

1. Сбор данных должен осуществляться строго в той шкале, к которой эти данные относятся (см. выше «типы признаков и шкалы данных»). Недопустимо на стадии сбора материала проводить его классификацию, тем более с понижением шкалы .

Например, если данные получаются в виде какой-то цифры (шкала отношений или интервалов), нельзя записать их как «ниже нормы», «норма» или «выше нормы» (порядковая шкала). На стадии сбора данных должно быть записано конкретное число, тогда как классификация может быть проведена значительно позже — уже при интерпретации результатов.

Придерживайтесь алгоритма:

1) всё, что можно записать числом, записывается числом; 2) что нельзя записать числом, но можно упорядочить — записывается как ранг или упорядоченная категория (1–2–3, мало — средне — много и т. п.); 3) только то, что нельзя записать ни числом, ни упорядочить, фиксируется как номинальная категория (вид, цвет, форма, диагноз и т. п.) .

2. Хранение данных. Данные удобнее всего создать и хранить в формате электронных книг Microsoft Office Excel, OpenOffice Calc или LibreOffice Calc. Они позволяют работать с форматами, которые поддерживают все статистические пакеты: *.xls, *.xlsx, *.csv, *.txt. Вместе с тем они привычны для большинства пользователей и предоставляют весь необходимый инструментарий для подготовки данных к анализу (сортировка, фильтрация и т. п.) .

3. Количество файлов. Файлов с данными не должно быть много, идеально — один файл на один проект. Для студенческих и магистерских работ все собранные данные должны быть размещены на одном листе электронной таблицы. То есть контрольные и экспериментальные группы, мужчины и женщины, здоровые и больные и т. д. — все должны быть размещены на одном листе. Нет ничего страшного в том, если не все ячейки такой большой таблицы будут заполнены, главное — чтобы таблица была одна. Удобно переименовать «Лист 1» созданной таблицы в «Данные» или «Исходные данные» .

4. Структура файла с данными .

4.1. Первый ряд таблицы — шапка таблицы — содержит названия колонок. Все названия необходимо разместить в ячейках только первой строки, при этом объединять ячейки нельзя. Такая шапка может смотреться не очень красиво, названия колонок могут частично дублироваться (например: Показатель 1–24 ч, Показатель 1–48 ч, Показатель 1–3 сут …). Но мы создаём файл не для распечатки в работу, а для хранения данных таким образом, чтобы их можно было легко передать статистическому пакету. Желательно не использовать для шапки какихто особенных шрифтов, но, чтобы она отличалась от остальных данных, строку шапки допустимо залить цветом .

4.2. В каждом ряду таблицы, начиная со второго ряда, располагается информация по одному объекту исследования (животное, пациент, образец и т. п.). Таких строк будет столько, сколько было уникальных объектов в исследовании. В колонку 1 помещаются уникальные метки, которые позволяют однозначно идентифицировать объект. Если файл данных создаётся на основе фрагмента базы данных, картотеки и т. п., поместите в первую колонку именно эти коды: в случае необходимости данные по этому объекту можно будет уточнить. В медикобиологических работах часто вместо кода помещают фамилию, имя и отчество пациента, но следует помнить, что такая информация попадает в разряд врачебной тайны и требует должного обращения. Так или иначе, но все объекты исследования должны иметь подобную уникальную метку, то есть в первой колонке не должно быть пропусков .

4.3. В столбцах таблицы располагается информация об атрибутах объектов, то есть каких-либо их характеристиках, признаках и т. п. Обычно колонку 2 называют «Группа», в неё помещается метка принадлежности объекта к какой-то группе исследования, например, экспериментальной или контрольной. Некоторые пакеты не понимают текстовый и особенно кириллический формат меток, поэтому можно сделать метки цифровыми. Например, в ячейках контрольной группы поместить цифру 1, в ячейках экспериментальной — 2. Чтобы не забыть, какую группу какой цифрой мы обозначили, на втором листе электронной таблицы, который следует переименовать в «Коды», параллельно размещается информация с расшифровкой цифровых кодов первого листа, например: «Группа 1 — контроль, 2 — опыт». Для удобства работы с файлом данных можно строки объектов разных групп выделить разным цветом .

Далее в столбцы 3 и 4 в медико-биологических работах обычно помещают информацию о возрасте и половой принадлежности объекта. Возраст должен быть представлен одной цифрой в одинаковых для всех объектов единицах. Если возраст учитывается с точностью до месяца, то в ячейке нельзя написать, например: «2 года 4 месяца» или «2; 4» или «2,4» (в году 12 месяцев, то есть 4 месяца это не 0,4, а 4/12 = 0,333(3)). В этом случае под возраст нужно создать 3 колонки: «Возраст полные годы», «Возраст месяцы к годам» и итоговую колонку «Возраст», куда поместить формулу для расчёта возраста в годах по колонкам с годами и месяцами. В случае «2 года 4 месяца»

по колонкам со значениями 2 и 4 здесь будет вычислено значение 2,3 (2 + 4 : 12 = 2,333). Все три колонки полезно оставить даже после таких расчётов, поскольку в официальной статистике возраст обычно считается в годах, и колонка «Возраст полные годы» далее может также понадобиться. Пол можно закодировать цифрами 1 и 2, которые нужно расшифровать на втором листе .



Заполняйте колонку «пол» непосредственно в процессе внесения данных, так как восстановить пол позже по фамилиям не всегда возможно (например, в случае украинского, французского (и т. д.) и иного происхождения фамилии — Ковальчук, Порте, Шмидт, Русских и пр.) .

В последующих столбцах располагается информация о других атрибутах объектов. В версиях Excel до Office 2007 максимальное число столбцов в листе было 256, и их иногда не хватало;

начиная с Office 2007 количество столбцов было увеличено до 16 385 .

5. Данные в ячейках могут быть цифровыми или те стовыми. Категорически нельзя смешивать эти типы данных. Например, в ячейках колонки «Размер опухоли» нельзя написать «241,5» — ни одна программа не обработает такую ячейку как цифровую. В этом конкретном случае следует создать 3 столбца под каждый из линейных размеров опухоли, а в четвёртом поместить ту интегральную характеристику, которую планируется использовать (максимальный из трёх размеров или рассчитанный по формуле объём опухоли). Аналогично поступают с данными по артериальному давлению (систолическое и диастолическое), шкале Апгар (на 1-й и 5-й минутах с момента рождения ребёнка) и другим показателям, совмещающим сразу несколько цифровых значений .

5.1. В некоторых случаях кодировать цифрами текст на листе 1 и расшифровывать всё на листе 2 слишком трудоёмко, поэтому какую-то информацию можно оставить текстовой, особенно если пока нет уверенности в том, что её потребуется статистически обрабатывать. Тем не менее для текстовых переменных следите за тем, чтобы одинаковые названия были везде прописаны одинаково. То есть недопустимо, чтобы, например, хронический холецистит в разных ячейках был записан как «Хр. Холецистит», «Хр. холецистит», «Хронич. холецистит» — нужно выбрать строго одну форму записи и скопировать её во все нужные ячейки для унификации. Это позволит при необходимости фильтровать и сортировать текстовую информацию, а также легко заменять её цифровыми кодами .

5.2. Альтернативные признаки (обычно — наличие (+) или отсутствие (–) какой-либо характеристики) кодируются как 1 и 0 .

Имеет смысл расписать таким образом все сложные характеристики. Например, видовой состав сообщества следует представить столбцами с названиями видов, а в соответствующих ячейках поместить цифры 0 — если данный вид не был обнаружен, 1 — если был обнаружен. Аналогично в медицинских исследованиях как 0 или 1 кодируются различные сопутствующие заболевания и осложнения .

Если проводился количественный учёт видов, то вместо цифры 1 следует указать конкретные численности, например 28, 100,

528. В микробиологических работах численности организмов обычно велики: 105, 106, 107 и т. п. Для таких случаев можно указывать в ячейках только степени: 5, 6, 7 (то есть десятичные логарифмы численностей), однако на листе «Коды» об этом следует оставить напоминание .

5.3. Пустые ячейки — это не ноли! Пустые ячейки означают, что данных для этой ячейки нет и она не будет участвовать в расчётах. Соответственно, везде, где регистрация признака проводилась, но интересующей характеристики обнаружено не было, следует написать 0, а пустыми оставить только те ячейки, для которых данные по какой-то причине не были собраны. По окончании заполнения таблицы станет видно, для каких объектов и атрибутов есть пропуски и какова их доля. Решение по таким случаям следует принимать вместе с научным руководителем или специалистом по анализу данных, поскольку в разных случаях и для разных задач возможны все три варианта действий:

1) удалить строку или столбец с большим числом пропусков целиком; 2) оставить с пропусками и далее так и обсчитывать;

3) заменить малочисленные пропуски медианой или специально подобранными с помощью техник множественной импутации (multiple imputation) значениями .

5.4. Цензурированные данные (censored data) — особый и неудобный тип данных, сочетающий количественные и качественные характеристики. Цензурированные данные типа «более чем»

типичны для исследований в области медицины и некоторых областях экспериментальной биологии, где они образуют особое направление — анализ выживаемости (см. лабораторное занятие № 14). Цензурированные данные типа «менее чем» появляются вследствие ограниченной разрешающей способности аналитических методов, когда часть значений измеряемого показателя оказывается ниже границы чувствительности метода .

На стадии заполнения таблицы их можно вносить как текстовые, например «0,02». Но для статистической обработки их потребуется заменить цифрой. Обычно это 0 (ноль), однако в ходе работы специфическими для таких данных методами эти значения не будут учтены как простые нули. Иногда, такие значения вносят как половину чувствительности метода, то есть не «0,02», а количественное значение «0,01», однако это не вполне корректно .

Способы анализа таких данных в пособии не рассматриваются, поэтому здесь также рекомендуем консультироваться с научным руководителем или биостатистиком .

По окончании внесения данных мы должны иметь один файл в формате *.xls или *.xlsx из двух листов: «Данные» и «Коды» .

6. Передача файла статистическому пакету и верификация данных. Созданный файл нужно попытаться открыть из статистического пакета, в котором предполагается провести бльшую часть обработки данных. Любой пакет ищет по умолчанию именно свой тип данных, поэтому нужно выбрать соответствующее файлу данных расширение (*.xls, *.xlsx), в качестве листа указать Лист 1 — «Данные» и отметить опцию, чтобы названия переменных были взяты из первой строки. Если статпакет не поддерживает открытие файлов электронных таблиц, можно вставить в него предварительно скопированный в буфер обмена Лист 1 .

Часто сразу после этого статистический пакет начинает выдавать какие-либо предупреждающие сообщения. Не закрывайте их сразу, а внимательно читайте, английский текст — переводите: помните, что наша цель — не побыстрее открыть данные в статпакете, наша цель — верифицировать данные, и этап их портирования в другой пакет является первой стадией такой проверки. Типичными предупреждающими сообщениями являются сообщения об отсутствии данных в каких-то ячейках, о наличии текстовой информации в ячейках, о каких-либо несоответствиях, например, конфликте десятичных разделителей (некоторые пакеты «не понимают» русского стиля с запятой в качестве десятичного разделителя, а не точки). Убедитесь, что всё, что «не понравилось» статпакету, не содержит ошибок .

Если же ошибки были обнаружены — устраните их обязательно сразу же, не откладывая, также в исходном файле с данными .

Открытый в статпакете файл следует сохранить в формате этого пакета и провести 1–2 анализа: получить описательную статистику (обязательно с минимумом и максимумом) и/или посмотреть гистограммы распределения. В данном практикуме эти задачи рассматриваются, соответственно, на лабораторных занятиях № 2 и 4. Это необходимо сделать для того, чтобы исключить грубые ошибки набора данных. Например, максимальный возраст 115, это, скорее всего, лишняя цифра при наборе 11 или 15 лет, масса 875 кг — пропущенная запятая в 87,5 и т. п .

Гистограммы распределения также помогают обнаруживать выбросы и ещё дают представление об однородности выборки и форме распределения .

7. Данные нельзя потерять! Созданный и верифицированный файл данных сохраните в нескольких местах (в компьютере, на флеш-карте, отправьте себе на электронную почту и т. д.) .

Держите исходный файл неизменным. Для работы сохраните файл под другим именем, например, «Диплом для анализа» или «Диплом_26.03.2018». Это позволит не потерять исходные данные в непредвиденных ситуациях .

Как получить помощь по статистическому анализу данных

Как уже было сказано, в настоящем пособии не представлен ряд направлений анализа данных, а решение подавляющего большинства задач продемонстрировано в одном из множества пакетов — пакете PAST. Другие направления, методы и пакеты потребуют самостоятельного освоения. Кроме того, бывают случаи, к статистическому анализу которых можно подойти с использованием разных техник, а требуется выбрать: 1) наиболее эффективную в плане достижения цели; 2) наиболее мощную в статистическом смысле этого термина; 3) достаточно традиционную в конкретной области науки. Поэтому рано или поздно любой исследователь оказывается в ситуации, когда осознаёт ограниченность своих знаний и необходимость применения новых методов, которыми не владеет он сам и коллеги в его ближайшем окружении. Приведём несколько практических советов, как рационально действовать в такой ситуации .

1. «Я — биолог (я — врач), а не статистик». Такая не всегда верная установка тиражируется в некоторых медицинских, педагогических и даже научных коллективах, а потому встречается не так уж редко. Она справедлива до тех пор, пока человек не приступает к выполнению научной квалификационной работы. Статистический анализ данных является неотъемлемой частью современной научной методологии. Поэтому если человек работает над школьным научным проектом, дипломной работой бакалавра, магистерской, кандидатской или докторской диссертацией, он должен предъявить соответствующие данному квалификационному уровню умения грамотно получать данные и выделять из них наиболее существенные закономерности с использованием статистических методов .

Следовательно, пока вы занимаетесь научной работой, вы — статистик .

2. Начните поиск информации самостоятельно. К настоящему времени русскоязычный сегмент Интернета существенно наполнился биостатистической информацией, поэтому формулируйте запросы в поисковике и просматривайте первые 3–5 страниц .

Ищите такие материалы, которые изложены понятным для вашего уровня языком, и такие статьи, где всё описано логично, хорошо прописан анализ данных и указаны программы для статистических расчётов .

3. Если вы попадаете на форум — сначала ознакомьтесь с имеющимися на нём материалами, воспользовавшись поиском по форуму. Категорически не рекомендуется начинать сразу задавать вопросы: примитивные и одинаковые вопросы новичков у опытных участников форумов вызывают только раздражение, а те, кто поспешит вам ответить, скорее всего знают немногим больше вашего. Хорошие биостатистические форумы Рунета:

– http://forum.disser.ru, раздел «Медицинская статистика»;

– http://molbiol.ru/forums, раздел «Биофизика и матметоды в биологии» .

Пользуясь случаем, автор выражает свою благодарность А. Г. Ви ноградову, И. П. Гайдышеву, Е. И. Драгомирецкой, С. В. Пет рову, С. Л. Плавинскому, Ю. А. Тукачёву, А. Б. Шипунову и другим создателям и активным консультантам статистических форумов за возможность развиваться в русскоязычной (био)статистической среде .

4. Ознакомившись с новой информацией, попробуйте выполнить расчёты самостоятельно. Если при этом что-то не получается, убедитесь, что вы ознакомились с «помощью» к пакету (разделы «Помощь» или «Help», описания, инструкции, manual). Многие просто забывают про этот источник информации, а именно он обычно и содержит ответы технического характера. Для самых популярных статистических пакетов также имеется специализированная литература, которую можно найти в сети .

5. Если, проделав шаги 2–4, вы всё ещё не справились с проблемой, сомневаетесь в полученном результате или его интерпретации — обращайтесь за помощью к специалистам в вашем окружении или на форумах. К этому моменту вы уже будете достаточно осведомлены об интересующем предмете, поэтому сможете грамотно и лаконично изложить суть вопроса. При этом нужно кратко описать шаги, которые вы уже предприняли, — это покажет собеседникам, что они имеют дело не с лентяем, который хочет, чтобы его задачу решили за него, а с младшим коллегой, которому действительно нужна помощь .

6. Если на каком-то этапе вам потребуется платная помощь биостатистиков, старайтесь находить такие формы взаимодействия со специалистами, когда вас научат чему-то новому, а не просто сделают вашу работу .

Желаем успехов в вашем дальнейшем профессиональном росте!

ЛАБОРАТОРНАЯ РАБОТА № 1

–  –  –

Тема 5. Описательная статистика .

Количество часов: 2 .

Цель: познакомиться с интерфейсом и основными приёмами работы с данными в бесплатном статистическом пакете для ПК. Работа на ПК .

Статистический анализ данных можно проводить в пакетах трёх типов: электронных таблицах, математических пакетах и статистических пакетах .

I. роцессорыэлектронныхтаблиц П (электронныетаблицы) Электронные таблицы — это программы, позволяющие проводить операции и вычисления с данными, представленными в виде двумерных массивов, имитирующих бумажные таблицы .

Исторически первой такой программой была VisiCalc Дэниела Бриклина, написанная в 1978 г. на ассемблере для Apple-2.

В настоящее время наиболее распространены и известны следующие пакеты:

1) для ОС Windows: Microsoft Office Excel;

2) для OC Linux: GNOME Office Gnumeric, KOffice KSpread;

3) кроссплатформенные: Apache OpenOffice Calc и LibreOffice Calc .

Рабочее пространство таких программ представляет собой развёрнутый разлинованный лист (spreadsheet), в ячейки которого можно вводить различные данные и формулы для организации автоматических вычислений. Пакеты имеют обширный раздел статистических формул и логических операций для программирования расчётов .

В пакете Excel Запустите MS Excel, вбейте в первую колонку пять произвольных значений (например, 1, 2, 3, 4, 5), а в произвольной ячейке — знак равенства и нажмите на значок функции fx. Посмотрите, какие есть категории функций и выберите «Статистические» .

Первые две функции задействуют F-распределение Снедекора — Фишера, далее следуют: показатель корреляции Пирсона, z-критерий (площадь под кривой стандартного нормального распределения), функции с бета-распределением, биномиальным распределением и т. д .

Пролистайте список далее, найдите и прочитайте описание для функций МАКС, МЕДИАНА, МИН, СРЗНАЧ .

Выберите СРЗНАЧ, оттащите мышью форму правее, чтобы она не загораживала данные, выделите введённую область значений и нажмите OK. В выбранной ячейке появится среднее значение (для нашего примера — число 3) .

Вы увидели в списке большое количество функций и распределений, с помощью комбинаций которых можно задать подавляющее число известных статистических методов для анализа данных. У такого подхода к анализу есть свои плюсы и минусы .

Плюсы: понимание принципа того, как считает программируемый статистический метод .

Минусы:

1) отсутствие умения грамотно перенести формулы из статистической литературы в расчётный блок электронной таблицы;

2) затраты времени на устранение ошибок и отладку расчётного блока. Даже известные коммерческие пакеты содержат ошибки и недоработки, что уж говорить о качестве программы обычного пользователя ПК! Поэтому, если в научной статье в разделе «Материалы и методы» вы встречаете фразу «Статистический анализ данных выполнен стандартными методами вариационной статистики в пакете MS Excel», вы имеете полное право не доверять автору. Скорее всего, он не обладает требуемой квалификацией и либо использовал для расчётов нелицензионный «пиратский»

софт, либо вообще не знает, как были проанализированы кем-то его данные (к сожалению, такое встречается);

3) статистические библиотеки даже самых известных процессоров электронных таблиц вроде Excel считают неточно .

Неточность проистекает от недостаточной точности вычислений и несовершенства расчётных алгоритмов. Это известно давно, и попытки исправить ситуацию предпринимаются;

однако по мере устранения старых ошибок в новых версиях пакетов появляются новые ошибки. Специалистами в области статистического программирования разработаны специальные тесты на правильность статистических вычислений. Наиболее известен тестовый набор Statistics Quiz, называемый также тестом Вилкинсона (Wilkinson’s test). С ним в разной степени не справляются почти все статистические пакеты, включая известные коммерческие разработки, а тем более процессоры электронных таблиц. Поэтому даже если статистические расчёты в пакетах типа Excel или Calc запрограммированы правильно, их использование в качестве статистических пакетов указывает на некий непрофессионализм, поскольку не гарантирует правильности сложных расчётов и построенных на их основе выводов .

Исключение составляют программы-надстройки (add-on), большинство из которых написано для MS Excel. Такие пакеты представляют собой самостоятельные программы, использующие лишь интерфейс электронных таблиц, поэтому их качество должно оцениваться самостоятельно.

Наиболее известны:

XLSTAT, PopTool, AtteStat .

В целом процессоры электронных таблиц представляют собой удобную среду для ввода, хранения и операций с данными, а также для автоматизации вычислений, создания деловой и несложной научной графики и др. Однако они не могут быть использованы в качестве полноценного самостоятельного средства для статистического анализа данных. По ходу нашего курса мы будем использовать электронные таблицы Excel, но лишь в качестве дополнения к статистическому пакету .

II.Математическиепакеты Наиболее мощными математическими пакетами являются системы компьютерной алгебры (СКА). СКА — программные комплексы для символьных вычислений. Они служат для работы с математическими выражениями в аналитической (символьной) форме. Первой успешной СКА была разработка голландского физика, нобелевского лауреата по физике 1999 г. Мартинуса Велтмана, который в 1963 г. создал программу Schoonschip для символьных вычислений в области физики высоких энергий .

Современные СКА позволяют проводить весь цикл разработки математической модели: от поиска и просмотра необходимой литературы до численного или аналитического решения задачи и подготовки отчёта, публикации. Наиболее известные и распространённые СКА: Maple, Mathematica, MATLAB, Mathcad .

Такие программные комплексы могут: упрощать сложные математические выражения, разлагать их на множители, дифференцировать и интегрировать функции, проводить операции с матрицами и многое другое, включая даже автоматическое доказательство теорем. Естественно, они позволяют программировать любые статистические функции и проводить по ним расчёты с высокой точностью. До появления программно- статистической среды R ряд передовых (advanced) статистических техник был доступен пользователям исключительно в виде программного кода к СКА .

Работа в СКА требует высокого уровня математической подготовки, а также навыков работы в подобных системах, включая владение языками программирования. Естественно, что они не подходят для подавляющего большинства биологов и врачей, вследствие больших затрат времени на сложные непрофильные работы в области математики и программирования, которые к тому же не застрахованы от ошибок .

III.Статистическиепакеты Статистический пакет — программный продукт, предназначенный для статистической обработки данных. Рассмотрим классификацию таких пакетов .

1. По назначению: универсальные или специализированные .

Универсальные пакеты позиционируются разработчиками как средства для анализа данных в самом широком диапазоне научных исследований .

Плюсы:

а) обычно — многоплатформенность (под Windows, Linux, Mac);

б) относительно высокое качество алгоритмов;

в) в целом стандартный интерфейс: пользователь, знакомый с одним таким пакетом, без большого труда найдёт нужные опции и методы в другом универсальном пакете .

Минусы:

а) большой размер;

б) сложность интерфейса. Попытка угодить исследователям разных направлений приводит к увеличению размеров пакета, а также усложнению интерфейса: в них действительно содержится много методов, но нужно уметь найти их в пакете и выбрать из перечня оптимальный;

в) как правило, универсальные пакеты — коммерческие .

Специализированные пакеты нацелены на решение узкого диапазона вычислительных задач и/или небольшую область науки. Как правило, они имеют небольшой размер, зачастую — нестандартный интерфейс, но содержат методы, отсутствующие в больших универсальных пакетах .

2. По типу интерфейса: с графическим интерфейсом или с текстовым интерфейсом. Большинство статистических пакетов имеют кнопочный графический интерфейс. Это удобно для рядовых пользователей, но одновременно является ограничением для профессионалов, поскольку здесь имеется возможность лишь следовать алгоритмам разработчиков в ущерб скорости и гибкости. Профессионалы используют пакеты с консольным текстовым интерфейсом, что позволяет быстро оперировать данными и проводить расчёты, вводя определённые команды с клавиатуры. Однако для этого необходимо знать соответствующий программный язык .

Наиболее популярные пакеты сочетают графический и текстовый интерфейс. Такие пакеты либо представляют собой среду для вычислений на определённом программном языке, поверх которого надстраивается кнопочный графический интерфейс, либо изначально имеют графический интерфейс, но с возможностью программировать команды на специальном сценарном языке (scripting language) — с помощью скриптов. Это даёт возможность работать в пакете как начинающим пользователям — через систему меню, так и продвинутым пользователям — путём непосредственного набора команд в специальном окне программы .

3. По цене для пользователя: платные или бесплатные. Независимо от рассмотренных выше классификаций пакеты могут быть платными или бесплатными .

Как правило, платные коммерческие пакеты до покупки лицензии работают в режиме демо-версии, демонстрирующей возможности пакета. Такая демо-версия является полноценным продуктом, но содержит обратимые ограничения: либо функциональные — по спектру доступных методов, либо временные — по времени использования (обычно 30 дней), которые после покупки лицензии снимаются. Платный пакет может иметь модульную структуру, когда наряду с базовым пакетом продаются отдельные специализированные модули .

Бесплатные пакеты очень разнообразны. Это могут быть «младшие» версии коммерческих разработок — академические версии для некоммерческого использования или старые версии флагманского пакета. Такие пакеты имеют закрытый программный код, а лицензия позволяет только ограниченно использовать пакет. Также это могут быть написанные энтузиастами программы или расчётные блоки онлайновых калькуляторов без каких-либо ограничений или лицензий. Однако чаще всего бесплатные пакеты поставляются с так называемой GPL-лицензией .

GNU General Public License — универсальная общедоступная лицензия на свободное программное обеспечение с сохранением авторских прав. Она позволяет использовать программу в любых целях, модифицировать её, свободно распространять копии и модификации, но запрещает включать программу в частные коммерческие разработки .

Перечислим самые популярные в России статистические пакеты:

STATISTICA — универсальный пакет, имеющий разный набор модулей в зависимости от комплекта поставки. Интерфейс — графический, начиная с версии 6.1 — русскоязычный;

установлен поверх языка STATISTICA Visual Basiс. Пакет — коммерческий, с сильно функционально урезанной демо-версией .

Популярность пакету обеспечили широкодоступные пиратские копии во время массового перехода пользователей с операционной системы DOS на Windows в середине 1990-х гг.: какое-то время это был самый доступный в России статистический пакет под Windows c большим набором методов и отличной графикой .

SPSS (Statistical Package for the Social Sciences) — универсальный пакет с долгой историей (с 1968 г.) и модульной структурой. Интерфейс — графический, начиная с версии 18 — русскоязычный. Написан на Java. Встроенный язык позволяет гибко работать с данными и писать самостоятельные программы-макросы. Пакет — коммерческий, с полноценной демо-версией .

SAS/STAT (Statistical Analysis System) — универсальный пакет с долгой историей (с 1976 г.). Мощный коммерческий продукт с текстовым интерфейсом, написанный на SAS programming language. До появления R (см. далее) был почти единственным инструментом для отечественных статистиков-профессионалов (популярные за рубежом коммерческие пакеты STATA и Origin не распространены в России) .

MedCalc — универсальный пакет, с акцентом на анализ данных в области медицины. Интерфейс — графический, начиная с версии 15.2 — русскоязычный. Пакет — коммерческий с полноценной демо-версией .

R — программно-статистическая среда с интерфейсом командной строки и открытым исходным кодом (лицензия GNU GPL). В доступном онлайн-депозитарии CRAN (Comprehensive R Archive Network) находятся дистрибутивы пакета, а также многочисленные (тысячи) пакеты, создаваемые энтузиастами и профессионалами со всего мира. Есть ряд весьма успешных реализаций графического интерфейса к R, что облегчает использование среды новичками, но лишает гибкости. В настоящее время среда R становится стандартом в области математической статистики и анализа данных .

*** При выборе статистического пакета для данного лабораторного курса мы руководствовались его бесплатностью и лёгкостью в освоении для практического использования при написании курсовых и дипломных работ. Среда R помимо знаний в области статистики требует неплохого знания английского языка и навыков программирования. Поэтому для короткого начального курса был выбран бесплатный пакет с графическим интерфейсом — PAST. Полагаем, что его освоение послужит хорошей базой для дальнейшего профессионального роста .

PAST (Paleontological Statistics) — универсальный пакет с акцентом на анализ данных в палеонтологии. Разработчиками пакета являются учёные из трёх европейских университетов: Эйвинд Хаммер из Палеонтологического музея университета Осло (Норвегия), Дэвид Харпер из Геологического музея университета Копенгагена (Дания) и Пол Райан из Геологического департамента Национального университета Ирландии (Ирландия). Помимо основных статистических методов в пакете представлены методы для морфометрического анализа размеров и формы, а также для анализа сообществ организмов, несложных генетических расчётов и др. Это делает его полезным инструментом для биологов (особенно экологов) и медиков. Особенностью пакета является внедрение в большинство модулей современных ресэмплинг-техник (рандомизационная техника Монте-Карло, бутстреп, точные перестановочные критерии), отсутствующих даже в популярных коммерческих пакетах. К недостаткам пакета можно отнести англоязычный интерфейс и довольно бедные графические возможности; однако по ходу курса мы переведём основные термины и научимся дорабатывать графики до совершенства во внешнем графическом редакторе .

В пакете PAST Запустите программу. Вы видите, что интерфейс пакета представляет собой разлинованный лист, похожий на лист Excel .

Кратко познакомимся с меню и отметим наиболее важные для предстоящего практического курса разделы .

File — файл. Стандартное меню. В данном модуле собраны основные операции с файлами. Также здесь можно узнать данные о программе, включая номер версии, адрес сайта, имена разработчиков и правила оформления ссылки на программу в публикациях .

Edit — правка. Стандартное меню. Полезные элементы:

Undo — откатиться назад, Redo — вернуться вперёд .

Cut — вырезать, Copy — копировать, Paste — вставить, Select all — выделить всё (эти команды вынесены также в отдельное графическое подменю Edit) .

Find — найти, Replace — заменить .

Rearrange (изменение порядка)

– Transpose — транспонировать (поменять строки и колонки местами);

– Observations to contingency table — наблюдения в таблицу сопряжённости;

– Value pairs to matrix — пары значений в матрицу .

Transform — преобразовать. Преобразования данных. Полезно:

Log — логарифм десятичный;

Box-Сox — преобразование Бокса — Кокса .

Plot — график. Будем активно использовать этот модуль для построения графиков .

Univariate — одномерные методы. В модуле собраны наиболее распространённые статистические методы для описания данных, выборочных сравнений и поиска связей. Будем активно использовать этот модуль .

Multivariate — многомерные методы, включая проекционные техники (главные компоненты, анализ соответствий и др.), кластерный анализ, индексы сходства и расстояний .

Model — модель. В модуле представлен широкий выбор регрессионных техник для поиска зависимостей и сглаживания рядов данных .

Diversity — разнообразие. Методы для анализа видового богатства и биоразнообразия .

Timeseries — временные ряды. Специфические методы работы с рядами динамики .

Geometry — геометрия. Модуль анализа формы и размеров с использованием техник геометрической морфометрии .

Stratigraphy — стратиграфия. Раздел со специальными палеонтологическими методами биостратиграфии — анализа распределения ископаемых объектов по геологическим пластам .

Script — скрипт. Окно написания скриптов .

Help — помощь. Загружает с сайта проекта руководство к текущей версии пакета в формате *.pdf .

Создадим небольшой файл данных. Для этого в подменю Show (Показать) поставим галочку в Column attributes (Атрибуты колонки) и вместо буквы A в строке Name (Имя) введём название колонки — Длина стопы. Это будут данные по длине стопы 49 восточноевропейских полёвок Microtus rossiaemeridionalis (Оgnev, 1926) из первого поколения лабораторной колонии. Далее снимаем галочку в Column attributes. Если название не уместилось в ширину колонки — раздвигаем колонки, как в Excel: подводим указатель мыши к границе колонок «Длина стопы» и «В» (указатель меняет вид на двустороннюю стрелку) и, удерживая правую кнопку мыши, раздвигаем колонку .

Вводим данные. Привычка работать на ноутбуке замедляет процесс ввода данных. Имея полноразмерную клавиатуру, полезно научиться вводу данных в её правом цифровом блоке (рис. 1.1) .

–  –  –

Рис. 1.1. Полноразмерная клавиатура с блоком ввода данных На клавиатуре должен светиться индикатор Num Lock. Пальцами правой руки набиваем данные. Кнопка десятичного разделителя [. ] находится здесь же. В Excel вносить данные удобнее, поскольку ввод значения осуществляется расположенной с краю клавишей [Enter], на которую можно нажимать также пальцем правой руки. В PAST ввод значения осуществляется кнопкой [ ], нажимать на которую удобно левой рукой .

Введите в строчках 1 и 2 число 15 .

Далее со строки 3 по 9 — число 15,5 .

С 10 по 26 — число 16 .

С 27 по 31 — число 16,5 .

С 32 по 43 — число 17 .

С 44 по 48 — число 17,5 .

В последнюю строчку 49 вносим число 18 .

Сохраняем файл. Как и во всех пакетах, при первом сохранении файла ему нужно дать название, а далее можно сохранять изменения, используя комбинацию клавиш [Ctrl + S] .

Путь: File — Save as… — находим нужную папку — называем файл «Длина стопы» — [OK] .

В верхнем левом углу рядом с пиктограммой пакета название Untitled (Неназванный) изменится на Длина стопы.dat .

ЛАБОРАТОРНАЯ РАБОТА № 2

Описательная статистика Тема 5. Описательная статистика .

Количество часов: 2 .

Цель: освоить расчёт показателей описательной статистики в статпакете. Научиться грамотно округлять данные и представлять их в табличном виде. Работа на ПК .

В некоторых областях науки, при работе с крайне редкими или уникальными случаями, считается допустимым приводить все собранные данные целиком, без обобщения. В качестве примера можно привести такое редкое генетическое заболевание, как детская прогерия (синдром ускоренного старения). В каждый момент времени на планете одновременно проживает лишь несколько индивидов с таким заболеванием, и поэтому вполне уместно исследование только одного — единственного случая, а также публикация его результатов. В эту же категорию попадают уникальные или редкие виды животных и растений. Но эти примеры — исключение из общего правила. В подавляющем большинстве исследований размер генеральной совокупности (population) очень велик, выборки (samples) из неё также не слишком малы, а потому нет никакой возможности публикации в работах развёрнутых индивидуальных данных. Более того, компактное описание данных позволяет выделить в них ряд закономерностей, которые не видны в наборе цифр исходных данных (raw data). Для компактного описания и обобщения данных используются методы описательной статистики (descriptive statistics, summary statistics) .

Данные можно кратко охарактеризовать с использованием трёх групп мер: мер положения, мер рассеяния и мер формы распределения (см. теоретический материал).

В публикациях и квалификационных научных работах обычно используют первые две группы мер:

1. Меры положения, или меры оценки центральной тенденции показывают положение центра, вокруг которого группируются данные. В качестве таковых для количественных признаков используют среднее значение и медиану, а для качественных номинальных — частоту .

2. Меры рассеяния, или меры масштаба показывают разброс значений относительно центра. В качестве них используются: стандартное отклонение, размах, межквар тильный размах .

Раньше вместо меры рассеяния часто приводилась стандартная ошибка среднего, а в настоящее время обычно приводится интервальная оценка среднего значения или частоты — доверительный интервал (ДИ), как правило, 95%-ный ДИ .

Существуют стандарты представления мер описательной статистики. Рассмотрим их для трёх разных типов данных: I — количественных признаков с приблизительно нормальным распределением, II — количественных признаков с ненормальным распределением и порядковых признаков, III — качественных признаков .

В пакете PAST Откройте файл «Длина стопы»: File — Open — найти свой файл .

Выделите область значений: мышью или стрелками на клавиатуре при удерживании нажатой клавиши [Shift]. Также можно кликнуть на название колонки, чтобы выделить её целиком .

–  –  –

Комментарий. В статистической литературе советского периода преобладало употребление термина «квартиль» в женском роде, иногда — с ударением на последний слог. В настоящее время термин часто используется в мужском роде (нижний или верхний квартиль). В пособии используется вариант написания согласно словарям А. М. Микиша и В. Б. Орлова (1989), а также «Энциклопедии статистических терминов» (2011) .

I. оличественныепризнаки К снормальнымраспределением Сведения о нормальности распределения показателя в генеральной совокупности (популяции) берутся из литературы, предыдущих исследований или непосредственно из результатов проверки данных на нормальность, если это позволяет объём выборки (30 и более наблюдений). Приблизительно нормально распределённые данные можно получить с помощью подходящих нормализующих преобразований (логарифмирование, преобразование Бокса — Кокса, угловые преобразования для частот и др. — см. теоретический материал) .

СТАНДАРТ 1. Среднее ± стандартная ошибка среднего Знак «±» читается как «плюс-минус» .

В символьной форме: x ± m («икс среднее плюс-минус эм») .

Англ. Mean ± Standard error of mean .

В публикациях встречаются обозначения: М± m, Mean ± SE, Mean ± SEM .

Среднее (арифметическое) — мера положения, или центральная тенденция набора данных. Рассчитывается суммированием всех значений в наборе данных и делением суммы на объём выборки: x = xi n. Выборочное среднее является несмещённой оценкой математического ожидаемого µ генеральной совокупности .

Стандартная ошибка среднего значения выборки — теоретическое стандартное отклонение всех средних значений выборок размера n, извлекаемых из генеральной совокупности .

Рассчитывается как отношение выборочного стандартного отклонения к квадратному корню из объёма выборки: m = s n .

Почти весь XX в. этот стандарт доминировал в науке, но в последнее время считается устаревшим. Центральные зарубежные журналы с высоким импакт-фактором не принимают статьи с такими данными, рекомендуя использовать среднее и 95%-ный доверительный интервал (95% ДИ) для него [2; 12].

Причины отказа от стандарта:

1) знак «±» подразумевает симметричное нормальное распределение, а исследователи далеко не всегда могут быть уверены в этом или проверяют данное требование;

2) стандартную ошибку, в отличие от 95% ДИ, неудобно использовать для визуальной оценки степени различий средних между выборками и оценки значимости этих различий;

3) не все учёные принимают подход с оценкой значимости по показателю P (p-value). Для некоторых из них сопоставление 95% ДИ в выборках является альтернативой расчёту P .

Тем не менее в некоторых областях науки данный стандарт до сих пор используется и его можно встретить в современных научных журналах .

В пакете PAST Выписываем Mean ± Std. Error: 16,37755 ± 0,1036439 .

Результат нужно правильно округлить. Есть несколько вариантов округления:

1) как принято в данной области науки (см. публикации в центральных журналах — там за этим следят рецензенты);

2) среднее привести на знак точнее точности измерений, ошибку — ещё на знак точнее. Например, если рост человека измеряется с точностью до сантиметра, среднее можем привести с точностью до десятых;

3) учесть вариабельность признака и объём выборки: результат для жёстких признаков и/или для больших выборок приводить точнее, а для пластичных признаков и/или для малых выборок — менее точно. В качестве меры вариабельности и объёма выборки используется непосредственно значение стандартной ошибки, формула которой включает как стандартное отклонение, так и объём выборки (см. выше) .

Алгоритм из учебника Сокала и Рольфа [21]:

а) разделить стандартную ошибку на 3;

б) определить место после запятой первой цифры, не равной нулю;

в) с такой точностью округлить среднее, а ошибку привести на знак точнее;

г) если при делении стандартной ошибки на 3 получается число больше 1, то среднее нужно округлить до целых, стандартную ошибку — до десятых. Этого пункта в оригинале не было, но на практике такие ситуации встречаются .

В нашем случае:

а) 0,1036439/3=0,03454;

б) первая цифра, не равная нулю, — 3; подчеркните её;

в) она стоит на месте сотых, поэтому округляем среднее до сотых, стандартную ошибку — до тысячных. Обведите рамкой окончательный результат:

16,38 ± 0,104

К сведению. Чтобы правильно округлить число, нужно оставить требуемое количество цифр после запятой и смотреть только на следующую:

если она 5, то предыдущая цифра округляется в большую сторону, если 5 — отбрасывается .

Данный алгоритм не следует использовать фанатично. Если у вас много выборок, достаточно проверить 1–2, но в таблице результатов значения для всех выборок обязательно приводить с одинаковой точностью. ВАЖНО! Если для данного показателя мы решили округлять значения, например, до десятых, то с такой точностью должны быть представлены все однотипные данные, например: не 12,4; 13,22; 18, а 12,4; 13,2; 18,0. Внимательно следите за этим, иначе у грамотного читателя вашей работы сложится впечатление, что вы получили данные по одному показателю с разной точностью для разных групп (что вызывает лишние вопросы) или неаккуратны в оформлении (а может быть, и всей своей работе вообще) .

СТАНДАРТ 2. Среднее; стандартное отклонение В символьной форме: x ; s .

Англ. Mean; Standard deviation .

В публикациях может обозначаться немного иначе: Mean; SD, M; s. d., приводиться со скобками x (s) или в соседних столбцах таблицы описательной статистики для набора показателей .

Часто даже в зарубежных статьях приводится через знак «±»:

x ± s, но лучшими учебниками по биостатистике такая форма записи не рекомендуется .

Стандартное, или среднеквадратическое отклонение — мера изменчивости, или дисперсии набора данных, представляющая собой среднее расстояние отдельных наблюдений от среднего значения выборки .

Рассчитывается как положительное значение квадратного корня из дисперсии выборки:

s = s2 .

Является смещённой оценкой станРис. 2.1. Кривая дартного отклонения генеральной нормального распределения совокупности. с двумя его параметрами В случае нормального распределения стандартное отклонение имеет геометрическую интерпретацию: это расстояние от перпендикуляра, опущенного с вершины на среднее значение, до точки перегиба гауссовой кривой (рис. 2.1) .

Стандартное отклонение имеет тот же масштаб, что и среднее, поэтому округляется с той же точностью .

В пакете PAST Выписываем Mean; Stand. Dev; округляем.

Окончательный результат:

16,38; 0,73 СТАНДАРТ 3. Среднее [Доверительный интервал] В символьной форме: х [ ДИ; ДИ ], х (95% ДИ: от ДИ до ДИ ), где ДИ — нижняя граница доверительного интервала; ДИ — верхняя граница интервала. Такая форма записи ДИ рекомендуется рядом организаций по унификации представления статистики в публикациях (American Medical Assosiation, American Psychological Assosiation). В журнальных публикациях также встречается форма х ( ДИ – ДИ ) и другие .

Англ. Mean (Confidence Interval, CI), нижняя граница — Lower Confidence Limit (LСL, LL), верхняя граница — Upper Confidencе

Limit (UСL, UL). В публикациях встречаются обозначения:

M [ CI, CI ], Mean (95% CI : CI to CI ), Mean (CI – CI ), М (LL – UL) и т. п .

Доверительный интервал (ДИ) не является собственно мерой рассеяния, но часто её заменяет. ДИ — интервал, который покрывает неизвестный параметр с заданной надёжностью. Для среднего значения обычно рассчитывают 95%-ный ДИ, который будет содержать 95 % средних значений выборок, извлекаемых из бесконечной генеральной совокупности. Таким образом, ДИ — интервальная оценка среднего, дополняющая точечную оценку. ВАЖНО: чем выше надёжность, тем ДИ шире, т. е .

95% ДИ шире чем 90% ДИ (см. теоретический материал). Вариантов расчёта несколько .

3.1. Строго для нормального распределения Если распределение признаков в популяции нормальное, то при расчёте ДИ можно задействовать t-распределение Стьюдента (Student’s t-distribution), которое стремится к нормальному распределению с ростом объёма выборки .

В пакете PAST такой 95% ДИ можно получить в модуле сравнения выборочного среднего с параметром генеральной совокупности .

Файл «Длина стопы» открыт, область значений выделена .

Путь: Univariate — Оne-sample tests — Закладка по умолчанию t-test .

В графе параметра генеральной совокупности Given mean (задаваемое среднее) оставить значение по умолчанию — ноль и нажать кнопку [Compute] .

Из результатов выписать 95 % conf. interval, округлить границы ДИ с той же точностью, что среднее:

16,38 [16,17; 16,59] или 16,38 (95% ДИ: от 16,17 до 16,59)

3.2. Для любого распределения, включая нормальное ДИ можно построить с использованием ресэмплинг-техник (resampling): методом складного ножа (см. теоретический материал) или более современным методом бутстрепа .

Бутстреп (bootstrap, bootstrapping) — это современная ресэмплинг-техника, то есть техника, основанная на взятии повторных (rе…) выборок (…sample). Представьте, что мы выписываем все 49 значений длины стопы полёвок на отдельные карточки, перемешиваем их и достаём одну. Выписываем значение (например, 18), возвращаем карточку в колоду и снова перемешиваем .

Затем достаём новую случайную карточку и выписываем второе значение. Вопрос: может оказаться, что это тоже значение 18?

Затем третью и т. д. столько раз, сколько наблюдений в выборке, то есть в нашем случае 49 раз. Вопрос: может ли оказаться, что вся такая выборка будет состоять только из значений 18? Теоретически — может, хотя это и маловероятно. Таким образом, из исходных данных мы сгенерировали выборку с возвратом значений. Далее в сгенерированной выборке рассчитывается интересующая статистика, в нашем случае — среднее значение .

Так делается много раз: 10–500 тысяч. Следовательно, имея изначально только 49 значений в одной выборке и одно среднее значение, мы получаем тысячи средних значений. Далее строится распределение этих средних значений (это мы научимся делать в ходе лабораторной работы № 4) и с его концов отрезается по 2,5 % площади распределения, т. е. по 2,5 процентиля .

В результате остаётся непараметрический 95% ДИ для среднего, вычисленный с помощью процедуры бутстрепа процентильным методом. Кроме него есть и другие методы бутстрепа, один из лучших — метод BCa (Вias Сorrected accelerated — ускоренный бутстреп с поправкой на смещение) .

В пакете PAST Файл «Длина стопы.dat» открыт, область значений выделена .

Путь: Univariate — Summary statistics .

В меню Bootstrap type выбрать метод [BCa] .

Число бутстреп-выборок N можно увеличить: добавьте ещё одну девятку — 99 999. Вопрос: почему лучше брать нечётное число?

Поставьте галочку в Bootstrap и программа проведёт расчёт .

Пересчитайте несколько раз, нажимая на кнопку [Recompute] .

Некоторые значения в таблице результатов изменяются. Вопрос:

почему?

–  –  –

ВАЖНО: техника бутстрепа достаточно универсальная, рекомендуется считать ДИ именно бутстрепом .

К сведению. Во введении мы рекомендовали хранить свои данные в электронных таблицах Excel с двумя листами: «Данные» и «Коды». Проведя в пакете PAST расчёт описательной статистики, можно нажать на кнопку [Copy] под таблицей результатов, а в Excel создать третий лист «Описательная статистика» (или «Статистика» — если предполагается продолжение наполнения листа результатами статобработки) и вставить в него результаты из буфера обмена. Таким образом, результаты статистического анализа окажутся сохранёнными вместе с данными и будут легко доступны в случае необходимости .

II. оличественныепризнакисненормальным К распределениемипорядковыепризнаки

1. Если распределение ненормальное и известно, какое именно, то данные можно нормализовать с помощью подходящего преобразования (логарифм, квадратный корень, преобразование Бокса — Кокса, угловое фи-преобразование и т. д.) .

На рис. 2.2 принцип нормализующего преобразования показан на примере преобразования степенной функцией .

В результате преобразования данные становятся приблизительно нормально распределены. По ним рассчитывают среднее и границы ДИ, которые затем ретрансформируют в исходную шкалу с помощью обратного преобразования .

Так, например, работая с признаком «площадь», следует извлечь из площадей квадратный корень, провести расчёт среднего и границ ДИ, а полученные числа возвести в квадрат. Работая с приблизительно логнормально распределёнными данными (например, численности организмов, скорости реакций, концентраПреобразованные данные

–  –  –

2. Если распределение ненормальное или неизвестное, можно использовать ресэмплинг-техники: складной нож или бутстреп .

ВАЖНО! Но для сильно асимметричных распределений получаемые в результате ДИ оказываются не слишком точны, то есть не обеспечивают заданного покрытия истинного среднего значения генеральной совокупности.

Поэтому данный подход можно сочетать с предыдущим, то есть работать по алгоритму:

1) преобразование; 2) расчёт среднего и ДИ бутстрепом; 3) обратное преобразование .

3. Если распределение ненормальное, неизвестное или признаки порядковые, часто переходят к порядковым статистикам, то есть рассчитывают медиану, квартили, процентили .

Медиана (нижняя квартиль — верхняя квартиль) В символьной форме: Me (Q1 – Q3) .

Англ. Median (Q1 – Q3), Median (IQR = Q1 – Q3), Median (q1 to q3) и др .

Медиана (50-й процентиль) — это значение в центре упорядоченного по возрастанию или убыванию ряда. Так, например, если группу студентов построить в ряд по увеличению роста, то рост оказавшегося в центре человека и будет медианой. Нижняя квартиль Q1, или 25-й процентиль, отсекает 25 % наблюдений начиная от минимума, а верхняя квартиль Q3, или 75-й процентиль, отсекает 25 % в конце ряда, включая максимум (рис. 2.3) .

Таким образом, в межквартильном размахе (interquartile range, IQR) между Q1 и Q3 находится 50 % наблюдений .

Рис. 2.3. Показатели центральной тенденции и размаха для асимметричного распределения В отличие от среднего значения порядковые статистики очень устойчивы к отклонениям распределения от нормального — робастны (robust). Так, если в ряду студентов последнего человека с ростом 185 см заменить на гиганта k с ростом 230 см, то среднее значение выборки сразу увеличится. Вопрос: а как изменится медиана? Медиана в данном случае не изменится, поскольку в центре ряда будет находиться тот же самый студент. В силу таких свойств, медиана и квартили популярны в некоторых областях биологии и медицины, где распределения показателей сильно асимметричны .

В пакете PAST выписываем: Median, 25 prcntil, 75 prcntil .

Медиана и квартили имеют такую же точность, как и сами наблюдения, поэтому естественно приводить их с тем же числом знаков, что и исходные наблюдения, хотя пакеты обычно выдают их с большим числом знаков.

Окончательный результат:

16 (16–17) К сведению 1. Не существует единой точки зрения на то, как рассчитывать порядковые статистики в случае, когда в центре ряда оказывается не одно значение (в случае нечётного объёма выборки), а два (в случае чётного) .

Есть сторонники подхода с использованием интерполяции между соседними значениями в центре, то есть, например, если в центре окажутся цифры 5 и 6, то следует брать их среднее — 5,5 (так считают и авторы PAST). Другие считают это неправильным: поскольку порядковая статистика дискретна, то следует брать конкретное значение, например, большее из двух центральных, то есть не 5,5, а 6. Разные программы могут использовать разные подходы, поэтому в части медиан, квартилей и процентилей результаты расчётов в разных пакетах могут отличаться .

К сведению 2. Представленный стандарт написания является менее обоснованным по сравнению с ДИ. В отечественной технической литературе для обозначения подобных диапазонов и интервалов используется форма (a…b). Межквартильный размах также представляет собой интервал (между нижней и верхней квартилями), причём сами значения квартилей в него не входят. Поэтому, вероятно, правильнее будет представлять медиану и квартили в форме Me (Q1…Q3) или Me (Q1; Q3) .

***

Разные стандарты можно сочетать: например, в ячейке таблицы привести над чертой среднее и 95% ДИ, а под чертой медиану и квартили:

16,38 [16,16; 16,57] 16 (16–17) Указание на это следует привести в конце названия таблицы или в примечании под таблицей .

III.Качественныеноминальныепризнаки Такие признаки нельзя упорядочить естественным образом .

Примеры: вид организма, цвет венчика цветка, сорт сельскохозяйственной культуры, диагноз пациента. Эти данные представляют собой частоты:

1) абсолютные (в штуках) или

2) относительные (в долях единицы, в процентах, в промилле и др.) .

Раньше такие данные обычно выражали в процентах, изредка снабжая стандартной ошибкой процента, вычисленной по формуле Вальда (для больших выборок). В настоящее время принято приводить и абсолютные, и относительные частоты, а последние снабжать 95% ДИ. 95% ДИ можно вычислить разными способами; лучшие методы: метод Джеффриса (Jeffreys’ CI for proportion), метод Уилсона (Wilson…), метод Агрести — Коулла (Agresti-Coull…, откорректированный метод Вальда). Традиционен, но несколько более консервативен точный метод Клоппера — Пирсона (Clopper-Pearson…). Метод Вальда (Wald CI for proportion), который описан во всех учебниках по статистике, в настоящее время не рекомендуется использовать даже для больших выборок (Brown et al., 2001). Все эти методы редки в пакетах, но есть в многочисленных онлайновых калькуляторах .

П р и м е р. Из 100 проанализированных клеток 5 содержали хромосомные аберрации. Задание: найти среднюю частоту аберрантных клеток и 95% ДИ для неё .

–  –  –

Воспользуемся расчётным файлом Excel из набора материалов к лабораторному практикуму «Доверительный интервал для долей.xls» .

Изменяем значения в жёлтых полях: в поле [N] вносим объём выборки 100, в поле [k] — абсолютную частоту 5. Выписываем частоту P и ДИ методом Клоппера — Пирсона .

Задание. Посмотрите, как изменяется ширина ДИ и его значения для разных методов с изменением объёма выборки. Давайте оставим относительную частоту 5 %, но рассчитаем её как 1 случай из 20, 5 из 100, 50 из 1000, 500 из 10000.

Обратите внимание:

– при 1/20 методы Вальда и Агрести — Коулла дают невозможное отрицательное значение нижней границы ДИ;

– при 50/1000 (большая выборка) все методы дают очень близкие значения ДИ, а при 500/10 000 — одинаковые .

Способ 2. В пакете PAST Путь: Univariate — Single proportion test .

В поле [Observed proportion] (Наблюдаемое отношение) вбить относительную частоту в долях единицы, а в поле [Sample size N] — Размер выборки и нажать [Compute] (Вычислить) .

Границы 95% ДИ по Клопперу — Пирсону взять из строки 95% conf. interval (exact) .

Обратите внимание, что в пакете PAST вводить данные менее удобно, и мы не можем выбрать иной интервал, кроме 95% ДИ .

Зато пакет предоставляет возможность оценить статистическую значимость отклонения эмпирической доли от теоретической .

Если таковая известна, её следует ввести в поле [Hypothetical proportion] и после расчёта выписать значение р (same) .

Проценты обычно округляют до десятых, но в случае очень больших выборок (тысячи) можно округлять до сотых .

Итак, окончательно средняя частота клеток с аберрациями [95% ДИ] составила:

5,0 % [1,6; 11,3] или 5,0 % (95% ДИ: от 1,6 до 11,3) Оформление в квалификационной работе (вариант) .

4.1. Статистическая часть раздела «Материалы и методы» .

При описании данных для количественных признаков рассчитывали средние значения с 95% ДИ, вычисленными процедурой бутстрепа (метод BCa, n = 99 999), а также медиану с квартилями .

Для качественных признаков находили абсолютные и относительные (в %) частоты; последние снабжали 95% ДИ, вычисленными по Клопперу — Пирсону. Расчёты выполнены в пакете PAST (v. 3.19; Hammer et al., 2001) .

4.2. Раздел «Результаты и обсуждение» .

Даются таблицы с абсолютными и относительными частотами с 95% ДИ .

*** Домашнее задание. Найдите и выпишите в тетрадь в продолжение этого практического занятия адреса четырёх онлайновых калькуляторов. Рассчитайте в них среднее и ДИ для одного случая из 100 и одного случая из 1000. Сформулируйте фразы для оформления в квалификационной работе .

В браузере В строке поиска браузера нужно напечатать «Clopper-Pearson CI calculator», а в калькуляторе — выбрать 95% ДИ или 0,95, объём выборки N и число интересующих событий в этой выборке X или K .

Посмотрите, какими ещё методами возможен расчёт ДИ. Обратите внимание на пакеты, которые позволяют рассчитать наиболее рекомендуемый в настоящее время байесовский ДИ Джеффриса (Jeffreys’ CI for proportion). Он всегда находится внут ри ДИ Клоппера — Пирсона, а потому менее консервативен .

Выделите в тетради подчёркиванием или цветом адрес самого, на ваш взгляд, удобного и/или информативного калькулятора .

В печатных работах на онлайновые калькуляторы и другие интернет-ресурсы можно ссылаться; ссылки на них должны быть грамотно оформлены в соответствии с ГОСТ или требованиями журнала .

ЛАБОРАТОРНАЯ РАБОТА № 3

Графические возможности статистических пакетов .

Описательная статистика на графиках Тема 5. Описательная статистика .

Количество часов: 2 (примечание: по причине большого объёма теоретической части, разделы I и II выносятся на самостоятельное изучение) .

Цель: Познакомиться с графическими возможностями статпакета и освоить построение столбчатых и коробчатых графиков для характеристики центральной тенденции и рассеяния данных. Работа на ПК .

Средний исследователь пишет в год 3–5 научных статей и участвует в одной конференции. Одна статья содержит обычно 1–3 рисунка, презентация — немного больше — 3–5, поскольку включает фотографии, карты, блок-схемы, схемы и т. п. Научные отчёты в расчёт можно не брать, так как там, как правило, будут те же самые иллюстрации. Таким образом, за год получается около 5 3 = 15 рисунков в статьях и 5 в презентациях, то есть около 20 рисунков. Даже новичок в состоянии по инструкции подготовить за 1–2 часа в день один добротный рисунок, причём с навыком время будет сокращаться. Таким образом, затратив всего около двух рабочих дней в году, исследователь полностью иллюстрирует свою научную работу. Читатели вашей квалификационной работы или статьи могут не знать, насколько вы хороший работник (грамотный, ответственный, аккуратный и т. д.) и будут составлять впечатление о вас, ваших соавторах, а возможно, и всей организации, где вы учитесь или работаете, по косвенным признакам. То есть они будут оценивать: владение темой исследования, актуальность и новизну работы, приборное обеспечение лаборатории, методологическую и статистическую грамотность, логику изложения результатов, а также удобство подачи информации в таблицах и рисунках. Если исследователь не в состоянии одинаково округлить и отформатировать данные в таблице, забывает подписать оси на графиках, использует в оформлении 10 шрифтов и т.

п., значит, и работник он такой же:

торопится, не следует методикам, что-нибудь забывает и вообще занимается не наукой, а художественным творчеством. ВАЖНО!

Поэтому не экономьте время на качестве иллюстраций к своей работе, пусть они выглядят строго, добротно и будут выполнены в едином стиле .

На этом занятии мы познакомимся с принципами создания качественной научной графики, научимся строить графики средствами статистического пакета, а также, при необходимости, доводить их до совершенства в графических редакторах .

I. сновныепринципысоздания О качественнойнаучнойграфики График должен помогать восприятию информации, но никак не отвлекать от неё. Сейчас у вас мало опыта для восприятия более «тонких» рекомендаций, поэтому придерживайтесь нескольких главных .

1. Полный отказ от ложного третьего измерения!

Посмотрите на рис. 3.1 — каждый из вас видел такие столбчатые диаграммы (Bar chart) в статьях, в презентациях, а может быть, строил сам. На этом рисунке собрано сразу несколько типичных ошибок, но главной из них является ложное 3D. Задание: скажите, какие значения иллюстрируют эти три столбца .

Выпишем все варианты: {18, 6, 1}, {19, 7, 2}, {20, 8, 3} .

В действительности здесь отображены значения {20, 8, 3}. А раз существуют разные мнения, значит, неуместное 3D вводит в заблуждение и мешает восприятию информации .

Существует и более глубокая причина, по которой серьёзные исследователи избегают подобных графиков. Дело в том, что Концентрация

Ряд1 Расстояние

Рис. 3.1. Уменьшение концентрации меди в почве с расстоянием от источника загрязнения помимо точности наука также «любит» экономность. Если мы хотим отобразить изменение одного показателя в зависимости от изменения другого, значит мы вправе потратить на эти два показателя только два измерения графика. Третье измерение, придающее рисунку объём, в данном случае является лишним, поскольку на него не приходится никакого содержательного третьего показателя. Это относится и к круговым диаграммам (Pie chart), которые часто строят в виде объёмной таблетки или разрезанного на куски торта. Получается, что за кажущейся солидностью такого 3D-графика кроется непонимание одного из основных методологических принципов науки, известного как бритва ккама: не следует множить сущее без необходимости. Данный принцип экономии упоминается обычно в связи с научной трактовкой явлений, но может быть применен и к нашей ситуации. Помните, что если вы строите графики с ложным третьим измерением, часть грамотного научного сообщества уже только по этой причине будет оценивать вас не как равных себе, в лучшем случае — снисходительно .

2. Рациональное использование пространства рисунка .

График должен, по возможности, занимать всё пространство рисунка. Следите за тем, чтобы слева, справа и сверху не оставалось больших пустот. Избавиться от пустот поможет правильная настройка разметки осей: обычно это настройка минимума и максимума, но может потребоваться также логарифмическая шкала. Если, в силу особенностей отображаемой информации, остаётся большая пустая область, в неё можно поместить легенду .

В первую очередь, это относится к рисункам квалификационных работ, отчётов и презентаций, поскольку центральные журналы не любят большие легенды и потребуют доработать график так, чтобы легенда была минимальной, а как можно больше информации из неё было перенесено в подрисуночную подпись .

3. Простота при информационной насыщенности: «максимум информации при минимуме чернил!» Для новичка это более сложное требование по сравнению с первыми двумя. Пока рассмотрим три варианта повышения информационной ёмкости .

3.1. Рекомендация 1: указывайте 95% ДИ и аналогичные меры .

Любая статистическая оценка получается нами на основе изучения выборки, а потому подвержена ошибкам. Эти ошибки будут тем больше, чем меньше объём выборки и/или выше вариабельность признака. Поэтому точечные оценки отображаемых параметров желательно снабжать интервалами, отражающими степень нашей уверенности в этой точечной оценке. Обычно это 95%-ные доверительные интервалы (ДИ) для средних значений, 95%-ные доверительные границы для линий регрессии, 95%-ные доверительные эллипсы для корреляций. Оцените, насколько более точным, информационно ёмким, «научным»

является график на рис. 3.2 по сравнению с 3.1. Он не только не допускает вариантов интерпретации значений 20, 8 и 3, но также позволяет ориентировочно оценить статистическую значимость различий. ВАЖНО! Если 95% ДИ не перекрываются, значит, с вероятностью 95 % средние относятся к разным генеральным совокупностям, то есть различия статистически значимы (P0,05). Если 95% ДИ перекрываются, значит, скорее всего, они относятся к одной совокупности, то есть не различаются (P0,05) (почему «скорее всего» — см. в теоретическом материале). На нашем рисунке концентрация меди в первой точке статистически значимо превосходит таковую в точках 2 и 3, а различия между точками 2 и 3 при данном способе проверки статистически незначимы (о том, почему правильнее говорить «статистическая значимость», а не «достоверность», см. комментарий 2 на с. 82) .

Рис. 3.2. Изменение концентрации меди в почве с расстоянием от источника загрязнения. Усы: 95% ДИ

3.2. Рекомендация 2: совмещайте несколько графиков в одном, когда это уместно. Возможно, в статьях вы встречали графики, где помимо привычной оси слева есть ещё и правая ось, на которой отложен ещё один показатель. В нашем примере с медью таким третьим показателем могло быть, например, видовое разнообразие. Если сделать столбцы рис. 3.2 более узкими и дать разную штриховку для концентрации меди и индекса разнообразия, то получим сдвоенный график. Если мы хотим продемонстрировать, что снижение разнообразия вызвано именно загрязнением медью, такой график будет удачным решением .

Также на одном рисунке можно привести гистограмму распределения с кривыми плотности распределения, несколько линий регрессии, рассчитанных по разным моделям и т. п. ВАЖНО!

Обращайте внимание на сложные графики в научных статьях, подмечайте и перенимайте приёмы повышения информационной насыщенности графиков .

3.3. Рекомендация 3: старайтесь не использовать столбчатые графики, если по оси Х находится количественный показатель .

Если независимый группирующий показатель измерен в количеРис. 3.3. Изменение концентрации меди в почве с увеличением расстояния от источника загрязнения. Усы — 95% ДИ, пунктир — интерполяция полиномом 2й степени ственных и порядковых шкалах, то зависимый показатель лучше изобразить точками или аналогичными символами (квадраты, треугольники, ромбы, звёзды и др.). Их можно соединить между собой ломаной линией профиля или обобщить зависимость в ходе регрессионного анализа. Наш пример как раз подходит под эту категорию, поскольку по оси Х здесь — расстояние, то есть количественный показатель в шкале отношений. Поэтому рис. 3.2 также нельзя считать удачным .

Посмотрите на рис. 3.3, в котором применены все три рекомендации:

1) согласно рекомендации 1 средние значения изображены с 95% ДИ. Обратите внимание, что на этом графике ДИ асимметричны. Это значит, что распределение концентрации меди, вероятно, также имеет положительную асимметрию. Дополнительно это указывает и на квалификацию автора рисунка, который знает, что концентрации часто распределены ненормально, а потому нашёл способ грамотного расчёта ДИ и сумел отобразить результат на графике;

2) согласно рекомендации 2 повышена информативность рисунка: поверх средних с ДИ наложена кривая, интерполирующая значения концентрации между изученными точками. Интерполяция (interpolation) — это нахождение промежуточных значений по имеющемуся дискретному набору известных значений .

В отличие от столбчатой диаграммы рис. 3.2 кривая линия лучше визуализирует процесс снижения концентрации меди с удалением от источника. Вообще говоря, со статистической точки зрения, для демонстрации зависимостей более уместной техникой была бы регрессия. Но выбор какой-либо формы нелинейной регрессии при наличии всего трёх точек сложно назвать обоснованным .

Возможно, именно поэтому автор рис. 3.3 не стал использовать регрессию, однако нашёл способ помочь нам увидеть форму нелинейной зависимости. В подписи к рисунку указано, что интерполяцию он проводил полиномом 2-й степени, то есть отрезком ветви параболы. Теоретически это неоправданный, но часто используемый на практике способ приближения неизвестных нелинейных зависимостей с одним изгибом кривой. Поэтому к рис. 3.3 и его автору у нас нет никаких претензий .

ВАЖНО! Соединять точки на графиках плавной линией могут разные пакеты, в том числе часто используемый новичками MS Excel, и такие графики нередко можно увидеть в публикациях. Тем не менее в помощи к пакету Excel невозможно найти указание на используемый алгоритм сглаживания, а значит, полученными графиками нельзя иллюстрировать научную работу .

Всегда указывайте в работе способ сглаживания нелинейных зависимостей! Некоторые способы сглаживания мы рассмотрим на лабораторной работе № 13;

3) согласно рекомендации 3 средние значения приведены не в виде столбцов, а указаны точками. Это позволило гармонично наложить интерполирующую функцию, не перегружая при этом изображениями график .

4. Грамотное оформление осей графика .

4.1. Все оси должны быть подписаны, обязательно (!) с указанием единиц измерения. Если установить единицы измерения сложно или невозможно, следует писать: «у. е.» (условные единицы), «единицы шкалы прибора» и т. п .

4.2. Количество цифровых значений на осях не должно быть слишком большим. Лучше, если эти значения кратны 10n или 5, например: 10, 20, 30, 40, 50…, или 5, 10, 15, 20…, или 1, 10, 100, 1000 (логарифмический масштаб оси). Значение 0, как правило, отображается статистическим пакетами, но редакции центральных журналов рекомендуют его не отображать (см. рис. 3.3) .

4.3. Следите за тем, чтобы число малых меток (minor tick marks) внутри большой метки (major tick mark) было адекватным, поскольку автоматически построенные в статпакетах графики не всегда удачны. Например, если между большими метками 5 и 10 стоит только одна малая метка, то она отображает непонятное число 7,5. Если малых меток в интервалe (5, 10) будет четыре, то они будут соответствовать единицам: 6, 7, 8 и 9, что логично и удобно для восприятия (см. рис. 3.3, ось Y) .

4.4. Использование десятичной запятой. В английском и других европейских языках в качестве десятичного разделителя принято использовать точку, в то время как в русском языке — запятую .

Многие статистические программы строят графики по западным стандартам и могут вместо запятой выдавать точку, например,

2.5 вместо 2,5. Если мы пишем работу на русском языке, то необходимо найти средства, чтобы изображать на осях именно запятую. Тем не менее ряд отечественных центральных журналов также требует десятичную точку вместо запятой на графиках и даже в тексте. Однако это не говорит о правильности такого формата — редакции просто облегчают себе работу по подготовке переведённых статей для англоязычной версии своего журнала в ущерб грамотности .

5. Шрифты .

5.1. В идеале шрифт на графике должен быть один. Зарубежные научные издания предпочитают строгий шрифт Arial, который относится к бессерифным (от serif — засечка) шрифтам, то есть к шрифтам без декоративных засечек на концах букв. Большинство отечественных центральных журналов по неясным причинам требуют серифный шрифт Times New Roman — помните об этом, готовя рисунки для публикаций .

5.2. Если необходим второй шрифт, то следует выбирать такой же, но только жирный или курсивный. Латинские видовые названия обычно дают курсивом. Жирным шрифтом можно дать названия осей — это хорошо смотрится в презентациях и отчётах, но редакциям центральных журналов не нравится .

5.3. Размер шрифта на рисунке и в тексте должен визуально восприниматься одинаково. Допускается, чтобы шрифт текста рисунка был на 1–2 пункта меньше шрифта основного текста .

Например, если текст написан шрифтом с кеглем 14 пунктов, то шрифт на вставленном в текст рисунке может быть 12–14 пунктов. Готовя рисунок к публикации в конкретном журнале, подберите его размер под страницу или колонку, распечатайте и приложите к странице журнала — это поможет увидеть, нуждается ли размер шрифта в изменении .

6. Соотношение сторон рисунка .

Ра н ьше г рафи к и с т рои л и исход я из восп ри н и мае мой человеком гармоничной пропорции золотого сечения 5 1 = 0,618 : 0,382 1,62 или из соотношения : 1 = 2 сторон листа международного стандарта ISO 216 (формат А4 и производные), в котором сложенный вдвое лист сохраняет пропорции сторон (1 : 1 / 2 = 1,41). То есть ширина графика была примерно в 1,5 раза больше высоты .

В настоящее время научные графики чаще строят квадратными: это удобно и для презентаций, и для научных журналов с двумя колонками на странице. Самый популярный в мире статистический пакет R по умолчанию строит именно квадратные графики .

6.1. Презентации. Если подпись к рисунку расположить под прямоугольным рисунком, то рисунок нужно будет уменьшить;

изображения на нём будут приплюснуты и мелковаты (рис. 3.4, слева). Если текст расположить справа от квадратного рисунка, то пространство будет использовано более полно (рис. 3.4, справа). Текст на таком рисунке будет лучше читаться, а сам рисунок будет крупнее .

Нежелательно: Желательно:

Рис. 3.4. Расположение рисунка в окне презентации

6.2. Публикации. Вариант 1 (рис. 3.5) редакция журнала постарается не допустить, поскольку это слишком неэкономно (дорого). Прямоугольный рисунок будет скорее всего уменьшен до ширины колонки и будет мелким и приплюснутым (вариант 2). Если мы представим в редакцию квадратный рисунок, то в печать пойдёт относительно крупный, хорошо читаемый рисунок (вариант 3) .

7. Форматы для сохранения научной графики .

Для цифровых изображений разработаны растровые и векторные графические форматы .

Растровые форматы сохраняют изображения попиксельно с использованием различных алгоритмов сжатия. Примеры форматов: *.bmp, *.gif, *.png, *.tif, *.jpeg. Если мы будем увеличивать такой рисунок, то качество его фрагментов будет всё более снижаться, и, в конце концов, мы увидим мозаику из квадратных Рис. 3.5. Расположение рисунка в тексте статьи областей — увеличенных пикселей.

Поэтому для растровых форматов важно разрешение, с которым сохраняется рисунок:

от этого зависит чёткость форм и детализация его элементов. Для качественного отображения рисунка в распечатанной на принтере работе достаточно разрешения 300 dpi (dots per inch — точек на дюйм, то есть на 2,54 см). Редакции журналов требуют обычно большего качества рисунков — не менее 600 dpi. Минусом растровой графики является их плохая редактируемость или отсутствие таковой. Например, если мы захотим увеличить шрифт, то в графическом редакторе придётся стирать весь (!) текст, заново его набивать (предварительно подобрав размер и тип шрифта) и разносить по областям рисунка. Плюсом растровых форматов является их неизменность: во всех программах и операционных системах они будут отображаться идентично .

Векторные форматы сохраняют изображения в виде набора формул для геометрического описания объектов. Это такие форматы, как *.svg, *.wmf, *.emf, *.eps, *.cdr. Если мы будем увеличивать данные рисунки, то по мере увеличения фрагментов программа будет заново пересчитывать форму объектов по формулам. В результате качество изображения не будет снижаться .

К минусам векторной графики относится недостаточно полная совместимость между программами. Например, рисунок, сохранённый в одной программе в формате *.svg, в другой программе может выглядеть несколько иначе: линии могут стать тоньше или толще, пунктирная линия может стать набором отдельных чёрточек, буквы текста могут отображаться не как текст, а как сложные графические объекты и т. п. Тем не менее чаще такие различия легко устранимы, а потому плюсом векторных форматов является их относительно хорошая редактируемость .

7.1. Многие статистические пакеты помимо основных растровых и векторных форматов позволяют сохранять рисунки также и в собственных форматах, что полностью снимает проблему редактируемости при необходимости внесения изменений. Вне зависимости от того, в какую работу готовится рисунок, если пакет позволяет — обязательно сохраняйте рисунок дополнительно в формате этого пакета. Это облегчит его редактирование в будущем .

7.2. Для печатных работ и публикаций сохраняйте рисунки с разрешением 600 dpi. Из растровых форматов редакции центральных журналов предпочитают формат *.tif. Для квалификационных работ и презентаций по соотношению «размер файла / качество изображения» хорош формат *.png .

Из векторных форматов в последнее время редакции отечественных журналов предпочитают формат *.cdr коммерческого пакета Corel Draw. Из бесплатных редакторов, позволяющих работать с форматом *.cdr, следует отметить пакет Inkscape (https:// inkscape.org/ru), имеющий собственный открытый формат *.svg (со сжатием *.svgz) .

7.3. Для фотографий используйте формат *.jpeg, но никогда (!) не используйте его для научной графики. Данный формат разрабатывался именно для компактного хранения фотографий .

В силу специфики алгоритма в данном формате невозможно качественно сохранить чёрную линию или буквы на белом фоне:

они будут несколько размыты, строгость и качество графики пострадают .

7.4. Далеко не все статистические пакеты имеют развитый модуль настройки графики либо эти настройки слишком сложны .

ВАЖНО: это не является оправданием примитивной научной графике в работе! Старайтесь доводить графики до совершенства, используя другие пакеты. Например, уже знакомый нам пакет PAST строит весьма передовые (advanced) с точки зрения статистики, но примитивные с точки зрения качества графики .

Поэтому мы научимся сохранять их в векторном формате *.svg и дорабатывать в другой программе — векторном редакторе TpX .

Домашнее задание. Найдите в Интернете 10 научных статей разных авторов из разных журналов по своей специальности с графиками. Проанализируйте их на предмет соответствия научной графики критериям, с которыми мы познакомились. На следующем занятии мы объединим результаты и рассчитаем долю исследователей, качественно иллюстрирующих свою работу .

II.Описательнаястатистиканаграфиках Для графической характеристики выборок используются преимущественно те же меры, что и при их табличном описании, то есть либо меры оценки центральной тенденции и рассеяния, либо меры точечной и интервальной оценки центральной тенденции .

1. Количественные показатели (шкала интервалов и шкала отношений) чаще изображают точками с усами. Точка соответствует положению среднего значения, а усы по обе стороны от точки отображают либо стандартное отклонение (мера рассеяния), либо доверительный интервал (интервальная оценка среднего, обычно 95% ДИ):

Вместо точек могут использоваться и другие символы:

* и т. д .

Часто, в случае нескольких выборок, значки средних значений соединяют отрезками ломаной линии. Такие выборки могут представлять собой определённую последовательность, например, динамику изменения показателя. Однако отрезками могут быть соединены не только последовательности, но и разнородные группы или даже разные показатели — в этом случае полученная ломаная называется профилем (рис. 3.6) .

Рис. 3.6. Пример графика с изображением профиля

При анализе литературных данных обязательно находите, что именно автор обозначал усами. Помните, что, в отличие от ДИ, стандартное отклонение не столь удобно для констатации статистической значимости различий. Более того, стандартное отклонение имеет геометрический смысл только в случае нормального распределения. С особым подозрением следует относиться к графикам с одним усом: отсутствие второго уса предполагает зеркальное отображение первого, что справедливо только для симметричных распределений (рис. 3.7). Поэтому даже в случае симметричных усов отображайте оба: это укажет на то, что вы по крайней мере знаете о возможной асимметрии распределения .

Также должны вызывать подозрения слишком узкие усы: возможно, на них изображено среднее ± стандартная ошибка. С точки зрения визуальной оценки значимости различий они намного хуже даже стандартного отклонения, поскольку вообще не позволяют её провести .

ВАЖНО: в своих научных работах обязательно указывайте в легенде графиков или в подписях под ними, что именно вы обозначаете усами; лучше, если это будет 95% ДИ .

2. Порядковые показатели (порядковая шкала), а также количественные показатели, которые описывают порядковыми стаНЕПРАВИЛЬНО: ПРАВИЛЬНО:

–  –  –

Рис. 3.8.

Коробчатые, или ящичковые диаграммы Такие графики дают отличное представление о форме распределения показателя в выборке, однако с ними связаны три проблемы, которые потребуют от вас внимания:

1) в отличие от 95% ДИ они не позволяют обнаруживать статистически значимые межгрупповые различия. Поэтому для обозначения значимых различий на коробчатых графиках можно встретить скобки, с указанием значимости различий для интересующих пар выборок (см. рис. 8.2 на с. 132);

2) существует неопределённость в показателях, обозначаемых усами. Американский статистик Джон Тьюки, предложивший этот тип графика, обозначал усами 1,5 межквартильных размаха, которые вычитаются из значения нижней квартили или прибавляются к значению верхней. Однако в настоящее время ими часто обозначают минимальное и максимальное значения, а иногда можно встретить также 5-й и 95-й процентили. Если программа позволяет выбрать показатели для усов — рекомендуем привести минимум и максимум: эти показатели понятны и дают хорошее представление о размахе варьирования признака в выборке;

3) большинство пакетов по умолчанию расценивают экстремальные значения как выбросы (outliers), которые обозначают отдельными значками (точки, круги, звёздочки). При этом часто такие значения исключаются из набора данных и показатели описательной статистики для коробчатой диаграммы рассчитываются уже без них, что приводит к противоречиям с описательной статистикой в таблицах. Для беглого знакомства с данными и их проверкой на наличие ошибок графики с потенциальными выбросами являются удобным инструментом. Однако категорически не рекомендуется давать такие графики в работу!

В настройках программ следует искать опции отказа от детекции потенциальных выбросов. Если в научной статье вы видите графики с потенциальными выбросами, значит, скорее всего, автор просто не знает, что многие биологические показатели распределены резко асимметрично, и позволяет программе считать за выбросы далеко отстоящие значения в хвостах распределений. Также такого автора не смущают различия между медианой и квартилями в таблицах и на графиках. Возможно, он просто не разобрался с настройками статистического пакета и строит графики «по умолчанию». В любом случае это характеризует его не с лучшей стороны и только вызывает вопросы к работе .

3. Качественные номинальные показатели (номинальная шкала) приводятся в основном на столбчатых и круговых диаграммах. Чаще всего такие данные представлены относительными частотами, выраженными в процентах .

3.1. Столбчатые диаграммы (Bar chart) строятся для демонстрации различий выборок. Так, на рис. 3.9 изображена частота некоего показателя в трёх группах, для которых она составляет 10, 50 и 90 %. Для демонстрации эффекта объёма выборки на рис. 3.9 эти частоты были рассчитаны для 25, 50 и 100 наблюдений .

Рис. 3.9. Изменение ширины и симметрии доверительных интервалов для частот Обратите внимание на усы, которыми обозначены 95% ДИ, вычисленные здесь методом Клоппера — Пирсона .

Во-первых, чем меньше объём выборки, тем шире ДИ — в этом ДИ для частот ничем не отличаются от ДИ для количественных показателей. Для выборок в 25 наблюдений 95% ДИ соседних групп перекрываются, а значит, различия между группами 1–2 и 2–3 сомнительны. На выборках в 50 и 100 наблюдений различия между всеми тремя группами не вызывают сомнений: они статистически значимы .

Во-вторых, ДИ симметричны для 50 %, но резко асимметричны как для 10 % (положительная асимметрия), так и для 90 % (отрицательная асимметрия). Это всегда свойственно частотам, поскольку они «зажаты» между границами 0 и 1 (в долях единицы) или 0 и 100 %, а варьирование в сторону границы ограничено математически. С ростом объёмов выборок асимметрия становится менее заметной, но она визуально присутствует и для объёма выборки в 100 наблюдений .

Поэтому при анализе литературных данных обращайте внимание на симметрию/асимметрию ДИ для частот. Асимметрия может быть практически незаметна в интервале от 30 до 70 % для любых объёмов выборок или во всём диапазоне от 0 до 100 %, но при больших выборках (сотни и тысячи наблюдений). Если автор приводит симметричные ДИ в области 0–30 % и 70–100 % для небольших и средних объёмов выборок, то, возможно, он не разобрался в программе, а значит, вместо ДИ может быть приведено что угодно. Либо он использовал для построения ДИ метод Вальда, который основан на нормальной аппроксимации и применим только для больших выборок*. В любом случае к таким результатам следует относиться с недоверием .

*К сведению: как уже указывалось выше, в настоящее время профессионалы вообще отказались от использования метода Вальда для расчётов ДИ .

3.2. Круговые диаграммы (Pie chart) очень распространены при описании качественных композиционных данных (compositional data), то есть таких, композиция которых в сумме составляет 100 %. Например, из 150 изу ченных объектов у 90 (60 %) отмечалось отсутствие признака, у 45 (30 %) — слабое развитие признака, у оставшихся 15 (10 %) — нормальное развитие признака .

Круговая диаграмма для этих данных может выглядеть так, как представлено на рис. 3.10 .

Ещё раз напомним: никакого ложного третьего измерения!

Лучше снабдить относительные частоты в процентах 95% ДИ и привести их в скобках.

Это позволит повысить истинную информативность рисунка, а возможно — также и цитируемость вашей работы, поскольку такой график позволит вашим коллегам провести статистическое сравнение собственных данных с вашими, не прибегая к расчётам, а только сопоставляя ДИ:

будут они перекрываться или нет .

–  –  –

Задание. Построить графики, характеризующие центральную тенденцию и рассеяние показателя в выборках двух видов .

В пакете PAST Ввести данные в две колонки, дать колонкам названия (плотва, окунь) и выделить область данных .

Путь: Plot — Barchart/Boxplot. Plot type: Bar chart — Столбчатая диаграмма. Также можно выбрать тип Mean and Wisker .

Задание: выберите его, опробуйте все остальные типы и вернитесь на Bar chart .

По умолчанию усы на графике означают стандартное отклонение. Мы отмечали, что более полезным является доверительный интервал, поэтому в Whisker length (Длина усов) ставим радиометку в положение 95% interval .

Вопрос 1: Глядя на рисунок, что мы можем сказать: 1) о средних значениях содержания никеля в мышечной ткани двух видов; 2) об изменчивости этого показателя; 3) о статистической значимости различий?

Вопрос 2: Чем плох автоматически построенный график, то есть в каких доработках он нуждается?

1) построенный график содержит много пустого пространства, то есть требует доработки по оси Y. Максимальное значение можно установить в районе 1,2, а далее настроить метки;

2) ось Y не подп иса на, знач и т, пока не понятно, что вообще изображено на рисунке;

3) в качестве десятичного разделителя стоит точка вместо десятичной запятой .

Редактирование графика. Входим в настройки рисунка — Graph settings .

Познакомимся с этой формой. Задание: записывайте в тетрадь английские названия, рядом — перевод на русский и пробуйте применить/отменить данную опцию .

Appearance — Внешний вид Colors — Цвета. Снимаем галочку .

Thick lines — Толстые линии .

Filled regions — Закрашенные области. Недоступно в данном графике .

Frame — Рамка. Снимите, затем верните .

Point symbols — Символы меток. Недоступно в данном графике .

Font — Шрифт. Выберите Arial, 14 пунктов .

Symbol size — Размер символов. Недоступно в данном графике .

Font rotation — Вращение шрифта. Попробуйте уменьшить до 0, затем верните 90. Для скорости можно сразу набить цифру и нажать [Enter] .

Conc. ellipce% — доверительные границы корреляционного эллипса. Недоступно в данном графике .

Viewport — Видимая область Здесь можно задать начало (X start) и конец (X end) для оси X и ниже — для оси Y.

Установите:

X start 0,5 X end 2,5 Y start 0 Y end 1,21. ВАЖНО: для удобства последующей разметки осей лучше брать не требуемое значение, а немного больше, то есть не 1,2, а 1,21) .

Axes — Оси Centered axes — центрированные оси .

Grid — сетка. Сетка обычно помогает восприятию графиков, поэтому её можно задать для графика в квалификационную работу и презентацию. Но, к сожалению, редакции крупных журналов требуют сетку убирать .

Minimal tick marks x — количество меток на оси x. Попробуйте разные варианты. Ничего не изменяется, поскольку у нас по этой оси находятся не количественные, а номинальные показатели — названия видов рыб .

Minimal tick marks y — количество меток на оси y. Попробуйте разные варианты, затем установите 8 .

X label — название оси Х. Для нашего графика оставляем поле пустым .

Y label — название оси Y. Пишем: Концентрация, мг/кг сух .

вещ-ва. Подтверждаем клавишей [Enter] .

Size (pixels) — Размер рисунка в пикселях Сделаем график квад ратным. Для этого выставим ширину (Width) 400, подтверждаем [Enter], и высоту (Height) 400, [Enter] .

–  –  –

Export — Экспорт рисунка в графический формат Мы будем использовать векторный формат по умолчанию — *.svg .

Нажмите [Save as…] и сохраните файл под названием Мояфамилия_рыбы.svg .

*** Доведём этот график до совершенства в графическом редакторе TpX. Это простой векторный редактор, очень удобный для работы именно с научной графикой. Создавался для облегчения внедрения графики в документы LaTeX — популярного макропакета системы компьютерной вёрстки TEX. Пакт бесплатный, англоязычный. Автор — Александр Анатольевич Цыплаков, кандидат экономических наук, доцент кафед ры применения математических методов в экономике и планировании Новосибирского государственного университета .

В пакете TpX Запустите программу. При первом запуске под указателем мыши будет передвигаться центр синего креста, который мешает работе. Поэтому зайдите в View и снимите галочку с опции Show crosshair .

Откроем сохранённый файл: File — Open — Тип файлов:

Scalable Vector Graphics (*.svg; *.svgz) — Мояфамилия_рыбы.svg .

Удерживая левую кнопку мыши, обведите квадратом весь рисунок для его выделения. Вы видите, что появилось много квадратиков, обозначающих отдельные элементы рисунка — их можно редактировать. Чаще всего не устраивают толщина линий рисунка и размер шрифта. Их можно изменить сразу на всём рисунке, когда он выделен. Кликните мышью в стороне от рисунка, чтобы снять выделение .

Кликните дважды на границе или внутри столбца для плотвы. Откроется окно редактирования этого элемента:

Line — Линия. Тип (None — нет, Solid — сплошная, Dotted — точечная, Dashed — пунктирная), цвет и толщина линии. Оставляем по умолчанию Solid .

Наtching — Штриховка. Тип штриховки и её цвет. Изменяем тип None на BDiagonal, цвет на black .

Fill — Заливка. Заменяем светло-серый lightgray на Default .

Нажимаем [ОК]. Для презентации можно использовать цветную заливку, в пакете достаточно большой выбор цветов и оттенков .

Задание. Точно с такими же настройками оформите столбец для окуня. Если бы групп было несколько, мы бы использовали разную штриховку или заливку цветом. В случае двух групп это будет только отвлекать .

Настройка шрифтов. Кликните дважды на названии «Плотва». Откроется меню, в котором нужно снять галочку с Custom font и нажать [ОК]. Шрифт должен измениться на Times New Roman. Если этого не произошло, значит галочку нужно вернуть на место и выбрать из списка нужный шрифт (Times New Roman). Кстати, здесь же можно изменить шрифт на жирный или курсивный .

Задание. Измените весь шрифт на рисунке на Times New Roman. Также при редактировании значений оси Y изменяйте десятичную точку на запятую .

Поворот текста. Можно сделать двумя способами:

– убрать угол 90 в меню настройки текста. Кликните дважды на названии «Плотва» и в открывшейся уже знакомой форме напротив Angle (угол) сотрите число 90;

– через меню Transform. Кликните однократно на названии «Окунь». Путь: Transform — Rotate — Rotate clockwise 90 deg или можно просто нажать сочетание [Alt + Стрелка вправо] .

Подровняем текст так, чтобы названия видов встали на один уровень (в этом помогают линии сетки редактора) и находились строго под центром столбцов. Для этого выделяем текст и перемещаем его стрелками на клавиатуре, удерживая клавишу [Ctrl] .

Вспомнить сочетания горячих клавиш можно, зайдя в соответствующее меню, в данном случае путь: Transform — Move .

Сохраняем рисунок в формате редактора: File — Save as — Мояфамилия_рыбы.TpX, а затем в растровом формате Мояфамилия_рыбы.png. Последний рисунок готов для вставки в текстовый редактор или презентацию (рис. 3.11). Если вам покажется, что строгий чёрно-белый рисунок слишком скучен для презентации, вы всегда можете открыть файл TpX и сделать его ярче, раскрасив столбцы. Но, во-первых, не используйте слишРис. 3.11. Содержание никеля в мышечной ткани рыб оз. Чебакуль .

Усы — 95% ДИ ком много цветов, а во-вторых, эти цвета должны сочетаться со стилем шаблона презентации .

ЛАБОРАТОРНАЯ РАБОТА № 4

Анализ распределения признаков Тема 2. Базовые понятия статистического оценивания .

Тема 4. Статистический критерий .

Количество часов: 2 .

Цель: овладеть приёмами анализа распределения количественного признака с использованием графических средств (гистограмма распределения) и специальных критериев проверки на нормальность. Научиться обнаруживать гетерогенность выборки по количественному показателю и проводить разделение смеси непрерывных распределений. Работа на ПК .

Распределение (функция распределения) — функция, характеризующая распределение случайной величины. Часто такие функции изображаются в виде графика распределения частот или вероятностей. Классические статистические процедуры основаны на предположении, что данные имеют эмпирическое распределение, которое близко аппроксимируется каким-либо теоретическим распределением (нормальным, логнормальным, биномиальным, пуассоновским и т. д.) .

Знание о характере распределения (distribution) признака в популяции крайне важно:

1) для выявления резко отклоняющихся наблюдений — выбросов (outliers). (Но здесь нужно быть внимательным, чтобы не спутать выброс со значением в конце резко асимметричного распределения!);

2) обнаружения неоднородности выборки. Выборка может быть представлена не одной группой, а несколькими подгруппами со своими средними значениями. В этом случае будет наблюдаться смесь распределений;

3) для правильного описания данных и выбора способа их дальнейшего анализа при решении задач поиска различий, связей или зависимостей. Если распределение приблизительно нормальное или может быть приближено к нормальному с помощью преобразований, то в анализе можно использовать наиболее разработанные и мощные параметрические методы .

ВАЖНО: нормальное распределение должно быть не в выборке, а в популяции, откуда эта выборка извлекается — эта информация берётся из литературы и из теоретического анализа явления (см. теоретический материал). Непосредственно оценивать нормальность распределения признака в популяции по данным выборки имеет смысл при её достаточном объёме (n 30). Последний способ справедливо критикуется некоторыми статистиками с теоретических позиций [например, 10], однако он очень распространён в исследовательской практике, поскольку часто выборка является единственным источником информации о распределении признака .

Проверка нормальности распределения признака проводится сначала графически, а затем подтверждается статистически .

Рассмотрим эти этапы .

ЭтапI.Графическийанализраспределения Графический анализ основан на визуальной оценке формы распределения по специфическим графикам: гистограмме (histogram), полигону частот ( frequency polygon) или кумуляте (графику накопленных частот). Принцип их построения одинаков для всех графиков: интервал от минимального значения xmin до максимального xmax разбивается на заданное число k интервалов и подсчитывается количество наблюдений nk, попавших в каждый интервал. Далее эта информация откладывается на графике с интервалами признака по оси Х и частотами (абсолютными или относительными) — по оси Y .

Вопрос.

Как вы думаете, сколько интервалов нужно сделать, чтобы отчётливо увидеть форму распределения? Если мы выберем очень узкий интервал, то в некоторые не попадёт вообще ни одного значения и форму мы не увидим:

Если, напротив, выбрать мало интервалов, например 3, то картинка будет слишком грубая:

В действительности, удобное число интервалов зависит от объма выборки: для больших выборок можно нарезать много узких интервалов, а для небольших выборок — мало широких.

Сокал и Рольф рeкомендуют [22]:

Объём выборки, n Число классов, k 25 5–6 40–50 до 12 100 более более 20 Полезно ориентироваться на эмпирическое правило Стургеса (Стёрджеса, Sturges’ rule):

k = 1 + 3,322 lg n .

П р и м е р. Рассмотрим построение распределения на примере с длиной стопы восточноевропейской полёвки из 1-го поколения лабораторной колонии .

Подготовительные расчёты. Из результатов предыдущего занятия имеем: n = 49; xmin = 15 мм; xmax = 18 мм. Точность измерения (шаг измерения) — 0,5 мм .

Определение числа классов по Стургесу .

k = 1 + 3,322 lg 49 = 6,61, то есть 6–7 классов; лучше взять нечётное 7 — будет лучше виден центр распределения .

Определение ширины межклассового интервала i.

Делим расстояние от xmin до xmax на k частей, то есть в нашем случае на 7:

i = (xmax – xmin) / k = (18 – 15) / 7 = 0,43 .

Вычисление границ классов. Границы классов находятся последовательным добавлением к xmin величин межклассового интервала i, 2i, 3i и т. д. до xmax .

–  –  –

Подсчёт числа попавших в классы значений. Можно заметить, что, так как в нашем случае точность измерений (0,5 мм) очень близка к межклассовому интервалу (0,43 мм), в каждом из классов окажутся строго одинаковые значения: в первом — только 15, во втором — 15,5, в третьем — 16 и т. д. Поэтому в нашем случае можно сформировать классы в соответствии с шагом измерения, приняв i = 0,5. Строим таблицу. Задание. Заполните все колонки таблицы.

Получаем:

–  –  –

Построение графиков. Отложим на графике по оси абсцисс — границы класса (в нашем случае просто значение этого класса), а по оси ординат — абсолютную частоту. Если оформить график в виде столбчатой диаграммы, то получим гистограмму распределения, если соединим центры столбиков ломаной линией, получим полигон частот. Задание. Постройте в тетради вручную оба графика и подпишите рисунок.

Помните о принципах качественной графики и обратите внимание на следующие детали:

1) обе оси должны быть обязательно подписаны с указанием единиц измерения;

2) цифр на осях не должно быть слишком много;

3) сетка на рисунке хорошо смотрится на рабочих графиках (удобно), в презентациях и квалификационных работах (удобно, солидно). Однако, как уже отмечалось ранее, центральные журналы требуют её убирать. Поэтому, если по материалам работы планируется публикация, рисунки лучше сразу строить без сетки .

Рис. 4.1. Распределение длины стопы восточноевропейской полёвки

В пакете PAST Открыть файл «Длина стопы.dat» и выделить колонку значений .

Путь: Plot — Histogram. Число интервалов Bins выставляем равным выбранному k, то есть в нашем примере 7. Задание: поизменяйте это число в большую и меньшую сторону и посмотрите, как меняется график. Вернитесь к значению 7 .

Ставим галочки:

Fit normal — подгонка к нормальному распределению. Программа строит кривую нормального распределения с параметрами (среднее и стандартное отклонение), вычисленными по выборке .

Kernеl density — плотность распределения. Рассчитывается методом Сильвермана (см. помощь к пакету) и не зависит от выбранного нами числа классов. Видно, что, в отличие от унимодального (одновершинного) нормального распределения, наше распределение отчётливо бимодальное (двухвершинное) .

Доработка графика. Опция Graph settings. Подберите Minimal tick marks x и y (минимальное количество насечек на осях х и у), чтобы график было удобно читать. Измените шрифт на Times New Roman, подобрав размер шрифта так, чтобы в окончательном документе его размер выглядел аналогично шрифту основного текста или был меньше его на 1–2 пункта .

Сохранение. Сохраните правленый рисунок в растровом формате (*.png, *.bmp, *.tif, но не *.jpg(!)). Для чистовой доработки в векторном графическом редакторе сохраните его также в формате *.svg .

Предварительный вывод 1. Графический анализ показал, что эмпирическое распределение длины стопы полёвок существенно отличалось от теоретического нормального: оно было отчётливо бимодальным .

ЭтапII. татистическаяпроверкараспределения С нанормальность Графический анализ необходимо подтверждать статистически — с помощью критериев, поскольку в зависимости от объма выборки, компетенции и опыта исследователя разные люди могут по-разному интерпретировать график, а нам необходим объективный вывод. Для проверки распределения на нормальность предложено более 20 критериев, которые относятся или к критериям согласия (так как проверяют согласие эмпирического распределения с заданным, в данном случае — с нормальным), или непосредственно к критериям проверки нормальности. Они отличаются мощностью по отношению к разным типам отклонений от нормальности: асимметрии, эксцессу и их сочетаниям [5]. В большинстве ситуаций высокую мощность демонстрирует критерий Шапиро — Уилка (критерий нормальности, Shapiro-Wilk test). Что такое «мощность» в статистическом смысле — см. теоретический материал.

В статпакетах обычно также распространены:

1) критерий хи-квадрат (Chi-square test) — критерий согласия;

сравнивает ряд предварительно сгруппированных наблюдаемых частот с рядом сгруппированных ожидаемых частот, вычисленных в предположении нормального распределения показателя .

Мы познакомимся с этим критерием позже и для другой задачи (см. лабораторную работу № 6);

2) критерий Колмогорова — Смирнова (Kolmogorov-Smirnov test) — критерий согласия; сравнивает наибольшее отклонение ряда накопленных частот от ряда накопленных частот любого распределения, в том числе нормального. Модифицированный вариант этого критерия для проверки именно нормальности называется критерием Лиллиефорса (Lilliefors test);

К сведению. Используя статистику Колмогорова, А. Н. Колмогоров и Н. В. Смирнов разработали очень близкие непараметрические подходы .

В статистических пакетах в качестве критерия Колмогорова — Смирнова представлен критерий однородности Колмогорова .

3) критерий Андерсона — Дарлинга (Anderson-Darling test) — популярный критерий согласия, основанный на вычисляемой с использованием натуральных логарифмов весовой функции:

чем дальше от центра распределения находится наблюдение, тем больший вес имеет его отклонение .

В пакете PAST Файл «Длина стопы.dat» открыт, колонка значений выделена .

Путь: Univariate — Normality tests .

В окне результатов N — объём выборки, а далее следуют критерии и соответствующие р для них: Шапиро — Уилка, Андерсона — Дарлинга, Харке — Бера (проверяет нормальность посредством объединённой проверки асимметрии и эксцесса) .

Для последних двух методов значение р рассчитывается двумя способами: 1) асимптотически (корректно для больших выборок) — р (normal); 2) c помощью рандомизационной процедуры Монте-Карло — р (Monte Carlo), что более предпочтительно .

Интерпретация. Мы впервые столкнулись с результатом статистического критерия, поэтому рассмотрим подробнее цепочку наших рассуждений для принятия вывода .

Значение Р (p-value) — вероятность наблюдать имеющееся и ещё более экстремальное значение статистики при условии справедливости нулевой гипотезы Н0. То есть Р — непрямая оценка вероятности Н0. Нулевая гипотеза — гипотеза об отсутствии проверяемых предположений, в данном случае Н0: эмпирическое распределение не отличается от нормального. Если её вероятность, оцениваемая по Р, мала, например 0,05 и менее (Р0,05), то велика вероятность альтернативной гипотезы НА: распределение отличается от нормального. В нашем случае для критерия Шапиро — Уилка р = 0,004826. По существующей в рамках частотного подхода ( frequentist approach) к принятию статистических решений договорённости для большинства ситуаций малым считается значение P 0,05 (см. теоретический материал). Поскольку р = 0,004826 — очень малая вероятность для нулевой гипотезы, поэтому такую маловероятную Н0 мы отклоняем и делаем вывод о статистической значимости (statistical significance) отличия распределения от нормального или даже о высокой статистической значимости, так как P 0,01 .

В ситуации Р0,10 мы бы оставили Н0 в силе: отличий от нормального распределения нет. В промежуточных ситуациях, когда 0,05 P 0,10, принять однозначное решение сложнее: при небольшом увеличении объёма выборки, скорее всего, Р станет меньше 0,05, но пока формально — больше. Учитывая договорной характер граничного значения 0,05, в таких ситуациях можно обсуждать тенденцию к наличию обсуждаемого эффекта (хотя, возможно, некоторые редакторы статей с этим и не согласятся) .

Комментарий 1. Как правильно писать: р или Р? В литературе можно встретить оба варианта написания р-значения: строчное р и прописное Р. Стандарты стилей American Medical Assosiation и American Psychological Assosiation рекомендуют прописное написание: Р. Прописное написание несколько чаще встречается в книгах, включая лучшие учебники по биостатистике Сокала и Рольфа и Зара [21; 22]. Карл Пирсон, впервые предложивший использовать Р для оценки гипотез, использовал прописную P, а Рональд Фишер, разработавший концепцию проверки статистических гипотез, в посвящённой этому статье использовал строчную р. Строчное написание чаще встречается в журнальных публикациях и статистических выкладках самых известных статистических пакетов. Поэтому в прописном или строчном написании нет ошибки, но более академическим является прописное написание курсивом: Р. В настоящем пособии используются оба варианта написания: р — при описании работы со статистическим пакетом PAST, где принято именно строчное написание, и Р — в разделах, посвящённых оформлению результатов в публикациях и квалификационных работах .

Комментарий 2. Как правильно писать: «статистическая значимость» или «достоверность»? Во-первых, математическая статистика базируется на теории вероятности, где достоверным называется событие, вероятность которого равна 1. При принятии статистических решений мы не имеем ни невозможных событий с P(E) = 0, ни достоверных событий с P(E) = 1, поскольку всегда 0 P 1. Мы можем лишь относиться к ним как к практически достоверным или практически невозможным исходя из выбранного уровня значимости («альфа»). Использование уже занятого термина «достоверность» с другим смыслом некорректно. Во-вторых, концепция уровня значимости — исключительно английская разработка, а в английском языке используется термин «significance» — «значимость». Поэтому грамотным является употребление сочетания «статистическая значимость». Наукометрический, лингвистический и семиологический анализ некорректного использования термина «достоверность» — см. в работе [4] .

Выписываем значение критерия и округляем его до сотых:

W = 0,93. Какую букву использовать для критерия, программы нам часто подсказывают. Также выписываем объём выборки: n =

49. Далее выписываем соответствующее значение р и округляем до тысячных, поскольку трёх знаков после запятой достаточно для самых строгих выводов: р = 0,005. Если число р очень маленькое, например, как в критерии Андерсона — Дарлинга и его рандомизационном варианте (соответственно: 0,0001438 и 0,0003), то обычно достаточно записать просто р0,001 (хотя это и не совсем правильно — см. теоретическую часть о проблемах синтетического подхода к проверке статистических гипотез) .

Предварительный вывод 2: обнаружено высоко статистически значимое отличие распределения длины стопы восточноевропейской полёвки от нормального: критерий Шапиро — Уилка W(49) = 0,93; p = 0,005 .

*** Таким образом, и графический анализ, и использование статистического критерия указало на отличие распределения нашего признака от нормального. Задание. Подумаете, чем может быть вызвано это отличие. Порассуждайте как биологи: исходя их своих знаний о полёвках, длине стопы и т. д .

Обычно студенты высказывают следующие гипотезы:

1. Истребление хищниками наиболее активных средневозрастных животных. Например, самые маленькие (малая длина стопы) и самые старые (большая длина стопы) животные сидят преимущественно в норах, а бегают и истребляются хищниками преимущественно животные среднего возраста со средней длиной стопы. Гипотеза отпадает, поскольку, во-первых, эти животные были получены в виварии, а во-вторых, образ жизни полёвок иной .

2. Сильные возрастные различия: первый пик распределения — молодые животные, второй пик — более возрастные. Возраст действительно может обусловить резкую неоднородность размеров признака, но только в случае развития с метаморфозом .

То есть если бы полёвки осенью окукливались, а по весне скидывали старую шкуру, мы бы наблюдали резкий скачок в размерах, в том числе и в размерах стопы. Но у млекопитающих развитие протекает без метаморфоза .

3. Мутация, обусловливающая неоднородность в размере стопы .

Родители этих животных действительно были завезены в виварий из района Тоцкого радиоактивного следа (место в Красногвардейском районе Оренбургской области, где в 1954 г. были проведены тактические общевойсковые учения «Снежок» с реальным применением атомного оружия). Однако крайне маловероятно, что в этой популяции закрепилась такая странная мутация .

4. Половой диморфизм длины стопы. Может оказаться, что самцы и самки отличаются размерами стопы и наблюдаемое распределение — смесь распределений животных разного пола .

Из всех возможных гипотез наиболее разумной является именно эта гипотеза: она вполне укладывается в наши представления о развитии млекопитающих, половом диморфизме размеров стопы, свойственного, кстати, и человеку. А значит, в отсутствие дополнительных данных рационально придерживаться именно такой гипотезы .

На самом деле наша выборка действительно состояла из самцов и самок, а полёвкам свойствен половой диморфизм размеров стопы: как и у человека, женские особи имеют меньшие размеры стопы. Этот пример был выбран для того, чтобы показать, насколько важно проводить анализ распределения, какую информацию он может дать. На предыдущих занятиях мы научились рассчитывать показатели описательной статистики и строить графики. Но можно ли отнести эти результаты к восточноевропейской полёвке? Предположим, мы захотим сравнить этот вид с другим видом, но в нашей выборке окажется больше самок, а в выборке другого вида — самцов. Различия в средних значениях будут обусловлены не только, а может быть, и не столько межвидовыми различиями размеров, но и соотношением полов в выборках. Таким образом, не разбив выборки по полу (расслоение, или стратифицикация выборки) и не сравнив самок с самками, а самцов с самцами, мы не сможем сделать никаких определённых выводов о различиях видов. ВАЖНО! Поэтому, если объём выборки позволяет пытаться строить распределение (30 и более наблюдений), это всегда необходимо делать, чтобы обнаружить возможную неоднородность, попытаться её объяснить и, по возможности, устранить для дальнейшего анализа .

ЭтапIII.Разделениесмесираспределений Поскольку неоднородность распределения признака получила хорошее биологическое объяснение, можно попытаться разделить распределения самцов и самок статистически. В пакете PAST для этого есть передовая, или продвинутая (advanced) процедура, выполняемая по современному EM-алгоритму .

К сведению. EM-алгоритм (Expectation-maximization (EM) algorithm) — алгоритм, используемый в математической статистике для нахождения оценок максимального правдоподобия параметров вероятностных моделей, зависящих от некоторых скрытых переменных. Каждая итерация алгоритма состоит из двух шагов. На E-шаге (expectation) вычисляется ожидаемое значение функции правдоподобия, при этом скрытые переменные рассматриваются как наблюдаемые. На M-шаге (maximization) вычисляется оценка максимального правдоподобия, таким образом, увеличивается ожидаемое правдоподобие, вычисляемое на E-шаге. Затем это значение используется для E-шага в следующей итерации. Алгоритм выполняется до сходимости .

В пакете PAST Файл «Длина стопы.dat» открыт, колонка значений выделена .

Путь: Model — Mixture analysis (Анализ смеси) .

По умолчанию: Distribution — Normal (нормальное распределение) .

По умолчанию: Groups=2, то есть алгоритм постарается разделить распределение на две группы. В данном случае нас это устраивает .

Выставляем число классов Bins=7 — только для удобства графического восприятия, поскольку разделение смеси не зависит от этого нашего выбора. Можно также поставить галочку в Kernel density, чтобы убедиться в бимодальности распределения. Если число мод будет больше — следует пытаться разделить смесь на большее число распределений, изменяя количество групп (Groups). Рисунок можно сохранить, доработать через [Graph settings] и/или TpX и вставлять в работу .

Переходим на закладку и смотрим параметры разNumbers делённых программой распределений (среднее — Mean и стандартное отклонение St dev) и вероятную (Prob) долю этого распределения в смеси (доли единицы удобнее умножить на 100 и получить результат в процентах) .

Теперь мы можем обоснованно предполагать, что выборка состояла из 59,9 % самок, со средней длиной стопы 15,9 мм, и 40,1 % самцов, со средней длиной стопы 17,1 мм .

Оформление в квалификационной работе (вариант) .

4.1. Статистическая часть раздела «Материал и методы» .

Для оценки однородности выборки и проверки распределения на нормальность использовали графический анализ гистограмм распределения и статистический критерий Шапиро — Уилка .

Количество классов для построения гистограмм рассчитывали по формуле Стургеса, плотность распределения определяли методом Сильвермана, а разделение смеси распределений проводили по ЕМ-алгоритму. Статистически значимым считали отклонение от нормального распределения при Р 0,05. Расчёты и графические построения выполнены в пакетах PAST (version 3.19, Hammer et al., 2001) и TpX (Дать ссылку на источник) .

4.2. Раздел «Результаты и обсуждение» .

Распределение длины стопы восточноевропейских полёвок высоко статистически значимо отличалось от нормального: критерий Шапиро — Уилка W(49) = 0,93; p = 0,005. Как видно из рис. 4.2, оно было бимодальным и, вероятно, представляло собой смесь двух близких к нормальному распределений .

Рис. 4.2. Гистограмма, плотность распределения и разделение смеси распределений длины стопы восточноевропейской полёвки Разделение смеси распределений позволило установить, что выборка состояла из двух групп животных: 59,9 % её составляли животные со средней длиной стопы 15,9 мм, а 40,1 % — с длиной стопы 17,1 мм. Полагаем, что первая группа была сформирована самками, а вторая — самцами полёвок. Действительно, из литературы известно, что… (далее про половой диморфизм размеров у млекопитающих, желательно — у полёвок, желательно — конкретно у восточноевропейских полёвок) .

4.3. Раздел «Выводы» .

Распределение длины стопы полёвок было отчётливо бимодальным и высоко статистически значимо отличалось от нормального: критерий Шапиро — Уилка W(49) = 0,93; p = 0,005. Наиболее вероятной причиной этого был половой диморфизм размеров стопы восточноевропейской полёвки .

Комментарий 3. В научных публикациях выводы иногда подкрепляют статистическими выкладками с указанием р-значения, иногда — нет. Чаще информация о результатах статпроверки приводится и обсуждается в разделах, предшествующих выводам, исходя из цели исследования. Здесь и далее в практикуме выводы всегда содержат статистические выкладки, поскольку наша цель — изучение методов биостатистики, тогда как в предметных областях, откуда выбраны примеры, мы специалистами не являемся .

ЛАБОРАТОРНАЯ РАБОТА № 5

Сравнение двух независимых выборок по количественным и порядковым показателям Тема 7. Выборочные сравнения для случая двух групп .

Количество часов: 2 .

Цель: Освоить стратегию выбора статистических критериев для сравнения двух групп с применением критериев Снедекора — Фишера и Левене. Научиться использовать t-критерий Стьюдента (в том числе в модификации Уэлча) и критерий Манна — Уитни. Работа на ПК, решение задач .

Сравнение двух выборок — очень распространённая в исследовательской практике задача. Обычно одна выборка является экспериментальной или опытной (в медицине — «основная группа») и сравнивается со второй — контрольной (в медицине — «группа сравнения»). Также это могут быть выборки особей разного пола, разных видов и т. д. Отметим, что методы для сравнения двух выборок не подходят для попарных сравнений нескольких выборок (см. теоретический материал); также нужно отличать независимые выборки от зависимых. Методы сравнения нескольких независимых выборок, а также зависимых выборок будут рассмотрены позже .

Объёмы сравниваемых выборок могут отличаться — вопреки распространённому заблуждению это вовсе не является препятствием для анализа. Иногда исследователи специально делают большую контрольную выборку, так как: а) её проще набрать, б) контроль может пригодиться для дальнейших исследований. За счёт большого контроля увеличивается мощность анализа и становится возможным обнаружить изменения в небольшой экспериментальной группе. Иногда, напротив, небольшой контроль призван служить лишь ориентиром границ условной нормы, а большая экспериментальная группа позволяет исследовать явление во всём многообразии контролируемых и неконтролируемых факторов (например, в медицине: пол, возраст, сопутствующие заболевания, профессиональные вредности и др., в экологии — химические и физические факторы среды) .

Все методы для сравнения двух выборок делятся на параметрические (parametric), которые задействуют в расчётах параметры нормального распределения (математическое ожидаемое и стандартное отклонение ), и непараметрические (nonparametric). Также важно помнить, что сравнение мы можем проводить с целью обнаружения различий: 1) центральной тенденции (наиболее частая задача); 2) рассеяния; 3) формы распределения .

На этом лабораторном занятии мы познакомимся с критериями оценки только центральной тенденции для разных шкал данных .

I. оличественныепризнаки К снормальнымраспределением Информация о нормальности распределения берётся из литературы, предыдущих исследований или проверяется непосредственно по данным, если позволяет объём выборки (n 30) .

Если данные распределены ненормально, можно попытаться их нормализовать с помощью подходящих преобразований (логарифмирование, преобразование Бокса — Кокса, угловые преобразования для частот и др.) .

Для сравнения средних значений показателя в выборках, извлечённых из популяций с нормальным распределением признака, используется параметрическая техника — варианты t-критерия

Стьюдента (Student’s t-test):

1. Классический или обычный t-критерий для независимых выборок. Требует равных дисперсий признака в популяциях .

2. t-критерий в модификации Уэлча (критерий Уэлча, Welch’s t-test). Используется для сравнения средних значений независимых выборок в случае различия дисперсий .

3. t-критерий для сравнения единственного наблюдения с выборкой .

П р и м е р. Изучалось генотоксическое действие нового инсектицида (опыт) по сравнению с препаратом предыдущего поколения (контроль). Мух обрабатывали препаратами, рассаживали 16 пар (8 — опыт, 8 — контроль) в изолированные пробирки и подсчитывали число живых потомков.

Получены следующие данные (в шт.):

Контроль 36 7 49 14 52 22 40 48 Опыт 10 6 3 17 18 22 5 39 Задача. Определить, отличаются ли препараты генотоксическим воздействием, то есть различаются ли они средним числом выживших потомков мух .

Решение. Поскольку данные представляют собой численности, есть основания сомневаться в нормальном распределении признака. Такие данные обычно распределены приблизительно логарифмически нормально, а потому t-критерий лучше использовать для логарифмов численностей. Проведём расчёт сначала для исходных данных, а затем самостоятельно — для преобразованных .

В пакете PAST Данные для разных групп вбиваются в соседние столбцы, столбцы именуются («Контроль» и «Опыт»), область значений выделяется .

Путь: Univariate — Two-sample tests (F, t, …) .

Сначала нам нужно выбрать, какой вариант t-критерия использовать: обычный для равных дисперсий или подход Уэлча для неравных дисперсий. Поэтому переходим на закладку F test и проверяем равенство дисперсий (variance) F-критерием Снедекора — Фишера (Snedecor’s F-test, Fisher’s F-test, Fisher-Snedecor distribution). Выписываем F, р для него, рассчитываем степени свободы как df1 = n1 – 1; df2 = n2 – 1, оформляем как F(df1; df2). Если р для F-критерия 0,05, значит дисперсии отличаются статистически значимо и нужно использовать подход Уэлча; если р 0,05, будем использовать классический t-критерий .

В нашем случае F(7; 7) = 2,08; р = 0,355. Поскольку р 0,05, значит, дисперсии не различаются статистически значимо (Внимание!

Не различаются именно значимо, хотя по самим значениям они отличаются более чем в два раза: 293,71 для контроля / 141,14 для опыта = 2,08). Поэтому для сравнения средних значений будем использовать обычный t-критерий .

Переходим на закладку. Для обычного t-критерия t test выписываем t и р для него; степень свободы рассчитываем как df = n1 + n2 – 2 .

Для модификации Уэлча выписываем Uneq.var.t (Unequal variance t), р для него; степень свободы рассчитываем как

–  –  –

где s2 — дисперсия, n — объём выборки 1 (контроль) или 2 (опыт) .

Возможно, последующие версии PAST будут выдавать в результатах и степени свободы (degree of freedom, df ), но пока (версия 3.19) их приходится считать вручную .

Если р для t-критерия 0,05, значит средние значения отличаются статистически значимо; если р 0,10 — не отличаются .

В промежуточных случаях (0,05 р 0,10) можно обсуждать тенденцию к различиям или ориентироваться на результаты точного рандомизационного критерия — смотреть р для Exact permutation .

В нашем случае df = 8 + 8 – 2 = 14. t(14) = 2,51; p = 0,025, то есть выборки отличаются статистически значимо .

Видно, что, кроме описательной статистики и t-критериев, пакет выдаёт также различия между средними с 95% ДИ — Difference between means, которые можно использовать в качестве показателя величины эффекта (effect size). 33,5 – 15 = 18,5, то есть число потомков у мух, обработанных новым препаратом, было в среднем на 18,5 меньше, а значит, новый препарат был эффективнее, хотя — нужно признать — не намного .

Оформление в квалификационной работе (вариант) .

5.1. Раздел «Материал и методы» .

Сравнение двух выборок по количественным признакам с нормальным распределением проводили с помощью t-критерия Стьюдента. В случае различий выборочных дисперсий использовался метод Уэлча. Эффекты считали статистически значимыми при при Р 0,05, незначимыми — при Р 0,10, в промежуточных случаях (0,05 Р 0,10) обсуждали тенденции к различиям. Расчёты и графические построения выполнены в пакете PAST (v. 3.19;

Hammer et al., 2001) .

5.2. Раздел «Результаты и обсуждение» .

Сравнение среднего числа потомков мух, обработанных новым и старым препаратами, проводили с помощью t-критерия Стьюдента. Для выбора нужного варианта этого критерия на первом этапе анализа проверяли равенство дисперсий в выборках.

Было установлено, что они не различались статистически значимо:

критерий Снедекора — Фишера F(7; 7) = 2,08; Р = 0,355. Поэтому на втором этапе анализа для сравнения средних использовали классический вариант t-критерия для равных дисперсий. Также в разделе результатов следует дать таблицу с описательной статистикой и/или график .

5.3. Раздел «Выводы» .

Обнаружено статистически значимое снижение числа потомков у мух, обработанных инсектицидом нового поколения: t(14) = 2,51;

Р = 0,025. Новый препарат снижал число потомков в среднем на 18,5 (95% ДИ: от 5,5 до 32,0) мух больше, чем старый .

II. оличественныепризнакисненормальным К распределениемипорядковыепризнаки Вариантов анализа в этом случае много, рассмотрим наиболее популярные и современные .

Способ 1. t-критерий Стьюдента после нормализующего преобразования .

В большинстве случаев оптимальным преобразованием является преобразование Бокса — Кокса из семейства степенных преобразований. В пакете PAST путь: Transform — Box-Cox. Для данных, выраженных частотами, используют угловые преобразования (-преобразование арксинуса и др.), которых пока нет в PAST .

Способ 2. Рандомизационный вариант t-критерия Стьюдента .

В пакете PAST путь тот же, закладка t test, в результатах нужно смотреть р-значение точного рандомизационного критерия — Exact permutation. Если пакет не выдаёт его значений — смотрим результаты рандомизационного критерия Монте-Карло — Monte Carlo permutation; при этом число перестановок можно увеличить с 9 999 до 99 999 или даже 999 999: при последовательных нажатиях на кнопку [Recompute] третий знак p-значения не должен изменяться. Само значение статистики t можно не приводить .

При этом нужно знать философию рандомизационных критериев и уметь объяснить, почему такой вариант параметрического t-критерия может использоваться для сравнения и ненормально распределённых данных. В нашем случае р = 0,030 .

К сведению. Метод Монте-Карло — общее название группы численных методов, основанных на получении большого числа реализаций стохас тического (случайного) процесса, который формируется таким образом, чтобы его вероятностные характеристики совпадали с аналогичными величинами решаемой задачи. В случае сравнения двух выборок алгоритм будет следующим. На этапе 1 рассчитывается интересующая статистика — например, t-критерий — для исходных выборок 1 и 2, объёмов n1 и n 2. На этапе 2 значения обеих выборок смешиваются, и n1 значений случайным образом назначаются в выборку 1, а оставшиеся n2 значений — в выборку 2. (Формировать случайные выборки мы научимся на последней лабораторной работе № 18, см. рандомизацию.) Таким образом, сами числовые значения в анализе остаются такими же, как были в исходных данных, но их распределение между выборками изменяется на случайное. На этапе 3 для сгенерированных в результате случайных перестановок выборок рассчитывается интересующая статистика. Далее этапы 2 и 3 повторяются многократно, например, 9 999 раз. На последнем, этапе 4 проводится расчёт р, как доли случаев k среди N = 9 999 значений, когда статистика была меньше или равна вычисленной по исходным данным на этапе 1: р = k/N или по скорректированной формуле р = (k + 1)/(N + 1), исключающей возможность р = 0. Это и есть р-значение, вычисленное методом Монте-Карло .

Точное рандомизационное значение р получается сходным образом, однако генерируется не просто большое число различных случайных разбиений данных на 2 группы, а в точности все возможные разбиения. Для больших n это может оказаться непосильной задачей даже для современных компьютеров. В нашем примере для двух групп по 8 наблюдений таких вариантов разбиения будет 16!/(8! 8!) = 12 870. Пакет PAST проводит Exact permutation вплоть до (n1 + n2) 27. (см. Руководство к пакету) .

Рандомизационные критерии можно считать непараметрическими, поскольку независимо от рассчитываемой статистики, для расчёта р вид распределения значения не имеет. Вместо t-критерия мы могли бы использовать другую статистику, например, просто разность средних значений, и получили бы близкое значение р .

Способ 3. По доверительному интервалу для разности средних, рассчитанному бутстрепом: если этот ДИ содержит 0, значит разность между средними может быть нулевая, то есть различий нет .

Если 95% ДИ разности не содержит 0, средние отличаются статистически значимо (p 0,05). Путь такой же, закладка, t test смотрим 95% conf. interval (bootstrap). Число выборок бутстрепа Bootstrap N можно увеличить .

Способ 4. Классические непараметрические критерии, которых разработано очень много .

Наибольшей мощностью обладает критерий нормальных меток ван дер Вардена (van der Waerden normal scores test), однако наиболее популярен U-критерий Уилкоксона — Манна — Уитни, чаще называемый просто критерием Манна — Уитни (Wilcoxon-Mann-Whitney test, Wilcoxon rank sum test, Mann-Whitney U-test). Это прямой ранговый эквивалент t-критерия Стьюдента: если от параметрической статистики перейти к порядковой, то формула t-критерия станет монотонной функцией U-критерия [23].

Хотя он может быть выведен и из других теоретических построений:

1) из вероятностей отнесения наблюдения к одной из двух групп — как частный случай ридит-анализа (ridit analysis) для упорядоченных категорий;

2) из ROC-анализа диагностической эффективности с расчётом площади AUC под ROC-кривой (см. лабораторную работу № 14):

U = n1n2 AUC, если средний ранг первой выбо ольше, чем второй ( R1 R2 ) или U = n1n2 (1 – AUC), если R1 R2 .

Критерий обладает высокой мощностью: асимптотическая эффективность критерия составляет 3/, то есть около 95 %. Это означает, что он только на 5 % уступает в мощности t-критерию, однако не требует нормального распределения в популяции .

Требования: 1) случайные независимые выборки и 2) распределения в обеих группах относятся к одинаковому типу (на практике обычно не проверяется) .

П р и м е р. Рассчитаем критерий Уилкоксона — Манна — Уитни для тех же данных по выживаемости мух двумя способами: вручную — для лучшего понимания философии порядковых статистик — и в пакете PAST.

Заполним следующую таблицу и опишем алгоритм расчётов:

Значение Ранг R Группа (К или О) RК RО

Алгоритм:

1. Значения из обеих групп одновременно выписываются в порядке возрастания; при этом отмечается ранг наблюдения и его принадлежность к группе контроля (К) или опыта (О). Например, минимальное значение было 3, оно стоит на первом месте (ранг 1) и относится к группе опыта (О) .

Значение 3 5 6 7 10 14 17 18 22 22 36 39 40 48 49 52 Ранг R 123456 7 8 9,5 9,5 11 12 13 14 15 16 Группа ОООКОК О О О К К О К К К К (К или О) RК 4 +6 +9,5 +11 +13 +14 +15 +16 =88,5 RО 1 +2 +3 +5 +7 +8 +9,5 +12 =47,5

–  –  –

В пакете PAST Данные уже введены и выделены .

Путь: Univariate — Two-sample tests (F, t, …) .

Закладка. Выписываем значение U, округляMann-Whitney ем до десятых. Выписываем значение р, округляем до тысячных. Лучше взять Exact permutation или Monte Carlo permutation. Также выписываем объёмы выборок: 8 и 8; их поместим рядом с U .

Оформляем результат: U(8, 8) = 11,5; р = 0,031 .

Оформление в квалификационной работе .

Проводится аналогично критерию Стьюдента. В работу можно дать таблицу с описательной статистикой и/или график. В зависимости от области биологии и медицины, а также личных предпочтений автора можно представить либо график средних значений с ДИ, вычисленными бутстрепом, либо коробчатую диаграмму с порядковыми мерами (см. рис. 8.1) .

Вывод: Обнаружено статистически значимое снижение числа потомков у мух, обработанных инсектицидом нового поколения:

критерий Уилкоксона — Манна — Уитни U(8, 8) = 11,5; Р = 0,031 .

Домашнее задание. Как мы уже отметили, имеются теоретические основания сомневаться в нормальном распределении признака. Поэтому перед использованием параметрического t-критерия лучше исходные данные преобразовать. Поскольку численности обычно распределены приблизительно логарифмически нормально, логично использовать преобразование логарифма.

Для этого нужно выделить данные и пройти по пути:

Transform — Log. Если способ нормализации данных неясен из теории, используют степенное преобразование Бокса — Кокса (Box-Cox transformation), которое нормализует данные настолько, насколько они сами это позволяют (см. теоретический материал): Transform — Box-Cox .

Преобразуйте данные примера с мухами с помощью обоих преобразований. Посмотрите, как изменилась оценка равенства дисперсий в F-критерии и результаты сравнения t-критерием .

Оформите результаты .

ЛАБОРАТОРНАЯ РАБОТА № 6

Сравнение двух независимых выборок по качественным показателям Тема 7. Выборочные сравнения для случая двух групп .

Количество часов: 2 .

Цель: Овладеть методами анализа различий между выборками по качественным показателям в ходе анализа таблиц сопряжённости. Научиться представлять результаты анализа с использованием статистики типа хи-квадрат, относительных рисков и отношений шансов .

–  –  –

Далее проводится сравнение, как мы делали на предыдущем занятии .

ВАЖНО! В результате такого анализа будет учтено наличие упорядоченности и статистическое сравнение получится более мощным. Именно таким образом сравнивает упорядоченные категории лидирующий по точным вычислениям пакет StatXact от компании Cytel .

II. Если категории упорядочить нельзя, то есть если данные представлены номинальной шкалой, анализ проводят критериями согласия или современными рандомизационными критериями в ходе анализа таблиц сопряжённости (ТС, contingency

table). Методов анализа ТС предложено много; перечислим основные из них:

1) критерий хи-квадрат Пирсона (Pearson’s Chi-square test), обозначается 2 Пирсона или просто 2. В некоторой статистической литературе обозначается как X 2 («икс-квадрат») — для подчёркивания отличий от теоретического статистического распределения хи-квадрат. Предложен Карлом Пирсоном ещё в 1901 г., но до сих пор популярен. Есть во всех статистических пакетах;

2) критерий Фримана — Тьюки (Freeman-Tukey test). Сам критерий малоизвестен, но отклонения Фримана — Тьюки (Freeman-Tukey deviations), основанные на той же статистике, используются для углублённого анализа больших таблиц сопряжённости;

3) критерий отношения правдоподобия (иногда обозначают,, likelihood ratio test). Также встречается в литературе под другими названиями: G-критерий Вулфа, критерий G2 («джиквадрат»), информационный критерий Кульбака I 2, хи-квадрат максимального правдоподобия 2ML и др. Вопрос: почему один и тот же критерий имеет столько названий? Данный критерий многократно переоткрывался, причём исходя из разных теоретических построений. Таким образом, в отличие от 2 Пирсона он отлично обоснован теоретически и является его более современным аналогом. Сокал и Рольф — авторы одного из лучших в мире учебников по биостатистике — рекомендуют всегда использовать G-критерий вместо 2 Пирсона .

Все три перечисленных критерия имеют теоретическое распределение 2 (см. теоретический материал). Для всех трёх критериев существует проблема допустимого минимального ожидаемого: если в таблице есть ячейки с малыми ожидаемыми (примерно меньше 4), статистика критериев плохо аппроксимируется распределением 2. На практике, если конкретный статпакет не выдаёт в результатах таблицу ожидаемых частот, то можно ориентироваться так: если в таблице есть значения от 0 до 5 включительно, то использовать эти критерии некорректно. Раньше для анализа таких слабонасыщенных таблиц применялся точный метод Фишера;

4) точный метод Фишера (ТМФ, Fisher’s exact test) предложен Р. Фишером в 1954 г. для анализа слабонасыщенных таблиц и до сих пор популярен. Однако теоретически он не очень хорош:

критерий основан на гипергеометрическом распределении, хотя используется для анализа ТС с данными, имеющими биномиальное или полиномиальное распределение. В настоящее время вместо него корректнее пользоваться рандомизационными критериями;

5) рандомизационный критерий Монте-Карло (permutation test, Monte Carlo test), случайным образом генерирует большое число (десятки и сотни тысяч) ТС с такими же краевыми частотами, как у исходной. Доля таблиц со значением статистики, меньшим или равным наблюдаемой от общего числа сгенерированных таблиц, и есть р-значение: р = k / N; или по скорректированной формуле р = (k + 1) / (N + 1);

6) точный рандомизационный (перестановочный) критерий (Exact permutation test) — похож на 5), но генерируются не случайные таблицы с такими же краевыми частотами, а в точности все возможные. Для ТС с большим числом наблюдений это может быть непосильной задачей даже для современных компьютеров, и тогда приходится использовать предыдущий критерий .

Точный рандомизационный критерий — наиболее точный и современный метод, который рекомендуется использовать во всех случаях, а особенно — для анализа слабонасыщенных таблиц .

Он есть в продуктах компании Cytel (StatXact и LogXact); также по лицензии их алгоритм расчёта используется в пакете SPSS .

В пакете PAST есть 1-й, 4-й и 5-й методы. Лучший из них — 5-й: рандомизационный критерий Монте-Карло .

Если с помощью перечисленных критериев обнаруживаются различия, то далее обычно рассчитываются показатели силы различий (величины эффекта): разность рисков, относительный риск или отношение шансов .

П р и м е р. У пациентов клиники определялся уровень общего холестерина в крови. Все измерения были разбиты на две категории: 1) до 6,72 ммоль/л (260 мг/дл) включительно — «норма»; 2) свыше 6,72 ммоль/л — «повышенный» уровень. Параллельно отмечалось наличие заболеваний сердечно-сосудистой системы (ССС). Вопросы: отличаются ли лица с высоким и нормальным холестерином частотами заболеваний ССС? Если отличаются, то насколько сильно?

Данные:

Заболевания ССС Уровень Всего холестерина Есть Нет Повышенный 41 245 286 Норма 51 992 1043 Всего 92 1237 1329 Зарисуйте в тетради эту таблицу и выделите четыре центральные ячейки собственно данных. Такая простейшая ТС называется таблицей 22 («два на два») или четырёхпольной таблицей .

В ней суммы по столбцам и строкам называются краевыми частотами, а общее число наблюдений — общей суммой .

1. Расчёт относительных частот Повышенный холестерин. Доля больных равна: 41 / 286 = 0,143, или 14,3 % .

Нормальный холестерин. Доля больных равна: 51 / 1 043 = 0,049, или 4,9 % .

Доля каких-либо интересующих событий в выборке называется в биостатистике риском; то есть можно сказать, что риск заболеваний ССС в группе с повышенным холестерином составил 0,143, а в группе с нормальным — 0,049 .

Таким образом, доля пациентов с заболеваниями ССС была выше в группе с повышенным уровнем холестерина. Необходимо убедиться, что эти два значения различаются статистически значимо, то есть речь идёт о сравнении двух процентов. ВАЖНО!

Если необходимо сравнить два процента, а абсолютные частоты не заданы, эти частоты нужно рассчитать из процентов и объмов выборок, а далее для анализа свести в ТС .

2. Сравнение двух частот с помощью критерия Познакомимся подробнее с критерием 2 Пирсона: рассчитаем его вручную и в пакете PAST .

Алгоритм:

2.1. Расчёт ожидаемых частот (expected frequencies) .

Проводится в предположении отсутствия различий между группами, то есть считается, что данные в ячейках таблицы 22 являются простым наложением двух отношений: доли больных и здоровых людей в популяции и доли людей с высоким и нормальным холестерином .

Так, по краевым суммам вычислим долю больных людей в популяции как 92 / 1329. Значит, в группе с повышенным холестерином должно наблюдаться 286 92 / 1 329, а в группе с нормальным холестерином — 1043 92 / 1329 больных людей. На практике расчёт вручную удобно проводить по формуле по строке по столбцу .

f= общая Значок «крыша» означает, что данное теоретическое значение вычислено по выборке.

Для первой ячейки таблицы (строка 1, столбец 1) и далее имеем:

f 11 = 286 92 / 1 329 = 19,79834462 19,8 (округлим до десятых);

f 21 = 1 043 92 / 1 329 = 72,2;

f 12 = 286 1 237 / 1 329 = 266,2;

f 22 = 1 043 1 237 / 1 329 = 970,8 .

Сводим полученные значения в таблицу ожидаемых частот:

Заболевания ССС Уровень Всего холестерина Есть Нет Повышенный 19,8 266,2 286 Норма 72,2 970,8 1043 Всего 92 1237 1329 Сравните полученную таблицу с исходной. Обратите внимание, что таблица ожидаемых частот имеет такую же общую сумму и такие же краевые частоты, как исходная, однако сами частоты внутри соответствуют нулевой гипотезе — отсутствию различий между выборками .

2.2. Вычисление критерия 2 Пирсона .

Критерий оценивает согласие наблюдаемых и ожидаемых частот. Вы, вероятно, уже знакомились с ним в курсе генетики, когда оценивали согласие расщепления менделеевского признака по фенотипам во втором поколении (3 : 1 или 9 : 3 : 3 : 1).

Ожидаемые частоты вы рассчитывали иначе, но сам критерий — тот же самый, формула — та же:

( fнаблюдаемая – f ожидаемая)2 .

2 = f ожидаемая

–  –  –

Наше значение оказалось намного больше 10,83, а значит, Р намного меньше 0,001. Для таких случаев можем воспользоваться значком «много меньше».

Таким образом, имеем:

2(1) = 31,07; P 0,001 (различия высоко статистически значимы) .

К сведению. Поправка Йейтса на непрерывность (Yates’ сontinuity correction). При расчёте критерия хи-квадрат Пирсона задействуются дискретные величины — частоты, однако теоретическое статистическое распределение хи-квадрат — непрерывное. Это приводит к неточности, которая будет тем больше, чем меньше объём выборки. Для её коррекции в таблицах с общей суммой 20 ранее использовали поправку, предложенную Фрэнком Йейтсом: уменьшали каждую разность между наблюдаемой и ожидаемой частотами в формуле на 0,5. Данный подход всегда критиковался за излишнюю консервативность. Менее консервативной является поправка Уильямса (Williams’ correction), которая применяется обычно к G-критерию (в некоторых пакетах — по умолчанию). В настоящее время подход с введением поправок можно считать устаревшим, поскольку современные рандомизационные техники, рекомендуемые для анализа слабонасыщенных таблиц, не задействуют теоретическое распределение хи-квадрат при расчёте P, а следовательно, не нуждаются в поправках .

В пакете PAST

Ввести четыре значения данных в соседние ячейки и выделить:

Путь: Univariate — Contingency table. (Если общая сумма велика, пакет не может вычислить точный критерий Фишера, о чём сообщает в окне предупреждения; закройте его.) Выписываем значение критерия (Chi^2), степени свободы (degrees of freedom), p. Если в таблице есть значения 5 и менее — выписываем p, вычисленное рандомизационным критерием Монте-Карло .

ВАЖНО! Во многих статистических пакетах используется экспоненциальная форма записи чисел. p = 2,4738E–08 значит 2,4738 10 –8. Столь малое число можно записать как p 0,001 или р 0,001. Видим, что, несмотря на ошибки округления, ручной расчёт мы провели достаточно точно: 31,07 против вычисленного на компьютере 31,08 .

Вывод краткий: пациенты с повышенным и нормальным уровнем холестерина в сыворотке крови высоко статистически значимо различались частотами заболеваний сердечно-сосудистой системы: критерий хи-квадрат Пирсона: 2(1) = 31,08; P 0,001 .

3. Оценка величины различий Относительные частоты, рассчитанные в п. 1, указали нам, в какой группе частота заболеваний была выше. Критерий хиквадрат указал на то, что различия между группами пациентов были статистически значимы, то есть, вероятно, неслучайны .

Теперь необходимо оценить, насколько же сильны обнаруженные различия. В качестве показателей величины эффекта (effect size) для различий частот используется несколько мер .

3.1. Разность рисков (Risk difference) .

Показывает, насколько риск события в одной группе больше или меньше по сравнению с риском в другой. Рассчитывается как простая арифметическая разность рисков, рассчитанных в п. 1 .

В нашем случае она равна: 0,143 – 0,049 = 0,094 .

3.2. Отношение рисков (или относительный риск, Risk ratio, Relative risk — RR) .

Показывает, во сколько раз риск (частота) события в одной группе больше или меньше по сравнению с риском в другой .

Для равных рисков RR = 1. В нашем случае RR = 0,143 / 0,049 = 2,92 .

Это очень удобная для понимания и интерпретации мера:

с увеличением содержания холестерина в сыворотке крови до 6,72 ммоль/л риск заболеваний ССС увеличивается в 2,92 раза .

3.3. Отношение шансов (Odds ratio — OR) .

Показывает, во сколько раз шанс события в одной группе больше или меньше по сравнению с шансом в другой. Шанс — отношение вероятности события к его альтернативе. В нашем случае при повышенном холестерине вероятность иметь заболевания ССС составляет 41 / 1 329, а не иметь (альтернатива) — 245 / 1 329. Таким образом, шанс иметь заболевания ССС при высоком холестерине составляет : = 0,16735 .

= Знак «:» читается «к», то есть шанс составляет сорок один к двумстам сорока пяти. Аналогично шанс иметь заболевания ССС при нормальном холестерине составляет пятьдесят один к девятистам девяноста двум: 51 / 992 = 0,0514. Следовательно, отношение шансов составляет:

OR = 0,16735 / 0,05141 = 3,26 .

Интерпретация: с увеличением содержания холестерина в сыворотке крови до 6,72 ммоль/л шансы заболеваний ССС увеличиваются в 3,26 раза .

Данная мера не столь понятна, как отношение рисков, но в последние два десятилетия стала очень популярной благодаря использованию в другом статистическом методе — множественной логистической регрессии, где коэффициенты регрессии легко пересчитываются в отношения шансов. С логистической регрессией мы будем знакомиться на лабораторной работе № 13 .

В пакете PAST

Четыре значения введены в соседних ячейках и выделены:

Путь: Univariate — Risk/Odds .

В окне результатов видим все три меры, а также 95% ДИ для них. Пакет выдаёт ещё и значения p, расчёт которых возможен без опоры на статистические критерии типа хи-квадрат, а с использованием стандартного нормального распределения (z-критерий). Для нас они не важны, поскольку вывод о различии частот заболеваемости мы проводили не по данным оценкам величины эффекта, а с использованием критерия хи-квадрат Пирсона. Поэтому выписываем только необходимую меру (все три приводить не следует) с 95% ДИ .

Внимание! Очень ВАЖНО! Для правильного расчёта пакетом рисков и шансов необходимо, чтобы данные были организованы в таблице именно так, как у нас:

в строке 1 — группа для которой проводится оценка рисков/ шансов, в строке 2 — контрольная группа, относительно которой проводится оценка;

в колонке 1 — наличие интересующего признака, в колонке 2 — его отсутствие .

При другом расположении значения в таблице будут соотнесены неправильно!

Оформление в квалификационной работе (вариант) .

4.1. Статистическая часть раздела «Материалы и методы» .

Сравнения двух групп по качественным номинальным показателям проводили в ходе анализа таблиц сопряжённости критерием хи-квадрат Пирсона. Для слабонасыщенных таблиц (имелись ячейки со значениями 5), оценку статистической значимости проводили с помощью рандомизационной процедуры МонтеКарло. В качестве показателя величины эффекта рассчитывали относительные риски RR с 95% ДИ .

Различия считали статистически значимыми при Р 0,05, незначимыми — при Р 0,10, в промежуточных случаях (0,05 Р 0,10) обсуждали тенденции к различиям. Расчёты и графические построения выполнены в пакете PAST (v. 3.19; Hammer et al., 2001) .

4.2. Раздел «Результаты и обсуждение» .

Даются таблицы с абсолютными (в штуках) и относительными (в процентах) частотами. Последние желательно снабдить 95% ДИ, вычисленными по Джеффрису, Вилсону, Агрести — Коулу или Клопперу — Пирсону (см. лабораторную работу № 2) .

В квалификационную работу нужно включить и результаты статистического сравнения. Можно сделать столбчатые диаграммы с 95% ДИ .

4.3. Раздел «Выводы» .

Пациенты с повышенным и нормальным уровнем холестерина в сыворотке крови высоко статистически значимо различались частотами заболеваний сердечно-сосудистой системы: критерий хи-квадрат Пирсона: 2(1) = 31,08; P 0,001.

Для лиц с содержанием холестерина в сыворотке крови 6,72 ммоль/л и выше относительный риск заболеваний ССС составил 2,93 (95% ДИ:

от 1,99 до 4,33) .

ЛАБОРАТОРНАЯ РАБОТА № 7

Сравнение двух зависимых выборок Тема 7. Выборочные сравнения для случая двух групп .

Количество часов: 2 .

Цель: Овладеть методами анализа различий между зависимыми выборками по количественным, порядковым и качественным показателям с помощью парных критериев Стьюдента, Уилкоксона и Макнемара. Познакомиться с работой онлайновых статистических калькуляторов. Работа на ПК .

В теоретической части курса мы рассматривали такую характеристику выборок, когда по способу включения объектов они могут быть независимыми (independent samples) или зависимыми (paired samples, dependent samples). На предыдущих лабораторных работах мы имели дело только с независимыми выборками, когда объекты в двух сравниваемых группах не были никак связаны друг с другом. На этом занятии познакомимся с анализом зависимых выборок .

Чаще всего зависимые выборки образуются одними и теми же объектами, изученными в разное время и/или в разных условиях. Например, одни и те же лабораторные животные, изученные до воздействия и после воздействия. В таком экспериментальном плане каждое животное будет иметь своё собственное контрольное значение. Другой распространённый пример зависимых выборок — части одного образца, исследованные разными методами. Для проверки некоторых гипотез пары могут образовывать разные объекты, например, близнецы, братья и сёстры, мужья и жёны, а также специально подобранные сходные индивиды для исследований типа «случай—контроль» .

Организация зависимых выборок позволяет провести более экономное и/или мощное исследование с возможностями более широкой интерпретации данных (см. теоретический материал и лабораторную работу № 18) .

I. оличественныепризнаки К снормальнымраспределением Информация о нормальности распределения берётся из литературы, предыдущих исследований или проверяется непосредственно по данным, если позволяет объём выборки (n 30) .

Если данные распределены ненормально, можно попытаться их нормализовать с помощью подходящих преобразований (логарифмирование, преобразование Бокса — Кокса, угловые преобразования для частот и др.) .

Для сравнения средних значений показателя в двух зависимых выборках для признаков, изменяющихся по закону нормального распределения, используется параметрическая техника — парный t-критерий Стьюдента (matched-pair t-test, paired sample t-test) .

–  –  –

Задание. Оценить статистическую значимость, а также величину различий между содержанием билирубина общего в сыворотке венозной и капиллярной крови. Можно ли для анализа на этот показатель использовать кровь не из вены, а из пальца пациента?

В пакете PAST Внести данные и сохранить файл «Билирубин.dat». Выделить область данных .

Путь: Univariate — Two-sample paired tests (парные критерии для двух выборок) .

В таблице результатов смотрим раздел t-test. Выписываем значение t-критерия (округляем до сотых) и соответствующее значение р (округляем до тысячных). До n = 27 программа рассчитывает точное (Exact) значение р, предпочтительнее взять его .

В нашем случае р = 0, значит, пишем р 0,001 или даже р 0,001 .

Различия высоко статистически значимы. Вопрос: объясните, почему нельзя написать р = 0?

Рассчитываем степени свободы парного t-критерия как df = nпар – 1. В нашем случае df = 16 – 1 = 15 .

Оформляем результат: t(15) = 7,85; р 0,001. Вопрос: можно ли для анализа на общий билирубин использовать сыворотку капиллярной крови, а не венозной?

При сравнении зависимых выборок оценкой величины эффекта является средняя разность (mean difference). Она рассчитывается как среднее значение разности, вычисленное по n значениям разностей всех n пар, и совпадает со значением разности средних: 16,756 – 9,775 = 6,981. Пакет снабжает среднюю разность 95% ДИ, вычисленным по формуле для нормального распределения. Эти значения округляем с точностью среднего значения. Интерпретация: в капиллярной крови содержание общего билирубина было в среднем меньше на 6,98 (95% ДИ от 5,09 до 8,88) мкмоль/л. Если 95% ДИ средней разности не включает ноль, значит различия статистически значимы на 5%-ном уровне — это другой способ оценки значимости различий .

ВАЖНО! Как и в случае разности средних независимых выборок, среднюю разность зависимых выборок часто приводят не в единицах шкалы признака, а в относительных единицах — в процентах от исходного или референтного значения (иногда их называют «дельта-процент»). В нашем случае стандартная методика предусматривает анализ венозной крови, а значит, референтным значением будет концентрация показателя в венозной крови: 16,756 мкмоль/л. Относительно него в капиллярной крови значение было меньше на 6,981 мкмоль/л, или на 6,981 / 16,756 100 % = 41,7 %. Следует пересчитать в процентах и границы ДИ для разности: 5,0858 / 16,756 100 % = 30,4 % и 5,0858 / 16,756 100 % = 53,0 % .

Вывод. Концентрации общего билирубина в венозной и капиллярной крови различались высоко статистически мо: парный критерий Стьюдента t(15) = 7,85; Р 0,001. В пиллярной крови концентрация была ниже в среднем на 41,7 % (95% ДИ от 30,4 до 53,0 %). Таким образом, анализ венозной крови не может быть заменён на анализ капиллярной крови .

График. Можно представить средние с 95% ДИ для двух групп — как для независимых выборок (ДИ потребуется рассчитать специально). Но лучше представить среднюю разность с 95% ДИ (если важнее относительные единицы — в процентах от референтного значения). Пакет PAST пока не позволяет создать такие графики (для двух и более значений, и только если ДИ симметричен, график можно сделать в Plot — XY with error bars) .

II. оличественныепризнаки К сненормальнымраспределением ипорядковыепризнаки Для количественных признаков с ненормальным распределением можно использовать парный t-критерий Стьюдента после нормализующих преобразований. Но чаще от количественных шкал (интервальная шкала и шкала отношений) переходят к порядковой шкале и рассчитывают значение критерия Уилкоксона для разностей пар (синоним: парный критерий Уилкоксона, Wilcoxon matched pairs test, Wilcoxon signed rank test). Это прямой ранговый аналог парного критерия Стьюдента, причём весьма мощный: асимптотическая эффективность критерия составляет 3/, то есть около 95 %. Рассчитаем его для этих же данных .

В пакете PAST Файл «Билирубин.dat» открыт, область данных выделена .

Путь: Univariate — Two-sample paired tests (парные критерии для двух выборок) .

В таблице результатов смотрим раздел Wilcoxon test. Выписываем значение W (округляем до десятых) и соответствующее р-значение (округляем до тысячных). До n = 27 программа рассчитывает точное (Exact) значение р, предпочтительнее взять его .

Если нет точного значения — лучше использовать р, вычисленное методом Монте-Карло. Для больших выборок можно использовать нормальную аппроксимацию W-статистики: р из строки Normal appr. z; само z-значение не приводим .

Оформляем результат: W(16) = 136,0; р 0,001. Для W-критерия степени свободы не используются, поэтому в скобках просто указываем число пар n = 16 .

В качестве величины эффекта можно также использовать среднюю разность, однако для ненормально распределённых данных мы не имеем права приводить эту разность с 95% ДИ из раздела парного t-критерия. Однако мы можем рассчитать эту разность непосредственно и построить для неё непараметрический ДИ методом бутстрепа. Сделаем это .

В пакете Excel

5.1. Скопируйте выделенные данные и вставьте в Excel, начиная с ячейки А1. В третьем столбце рассчитаем разность между содержанием ОБ. Для этого в ячейке С1 введите формулу: =А1-В1 (метки ячеек лучше вводить не с клавиатуры, а кликая на соответствующей ячейке). По нажатии на [Enter] получим результат (4,8), который нужно скопировать в оставшиеся ячейки столбца С (можно через буфер обмена, можно «протяжкой»). Полученную колонку значений разности копируем в буфер и вставляем в PAST .

5.2. В PAST рассчитываем для разности среднее значение и 95% ДИ бутстрепом (метод ВСа): 6,98 (95% ДИ от 5,31 до 8,68) .

Задание: пересчитайте самостоятельно границы ДИ в процентах от среднего значения ОБ в венозной крови .

Вывод (вариант). Концентрации общего билирубина в венозной и капиллярной крови различались высоко статистически значимо: критерий Уилкоксона для разностей пар W(16) = 136,0;

Р 0,001. В капиллярной крови концентрация была ниже в среднем на 41,7 % (95% ДИ от 31,7 до 51,8 %) .

III.Качественныеноминальныепризнаки В случае качественных номинальных признаков две зависимые выборки сравнивают обычно критерием Макнемара (McNemar test of symmetry). Для не слишком малых выборок статистика критерия имеет распределение хи-квадрат с одной степенью свободы. В случае малых выборок (см. далее) критерий становится слишком либеральным, поэтому вводится поправка Эдвардса на непрерывность (Edwards’ сontinuity correction). Более точным и предпочтительным является использование точного биномиального критерия (Binomial exact test, реже он называется критерием Лидделла — Liddell’s test). В случае его использования достаточно привести только р-значение .

П р и м е р. В клинических испытаниях широко используется схема с назначением плацебо. Она заключается в том, что часть пациентов получают лекарственное средство, а часть — плацебо, то есть пустышку, без явных лечебных свойств (лактоза, мел). При этом пациент не знает, что именно он получает (простой слепой метод), а чаще также и медицинский персонал, дающий препарат, не знает, что они дают пациенту (двойной слепой метод). Это позволяет исключить из результата исследования психологический компонент, связанный с верой пациента в эффективность лекарственного средства .

В небольшом эксперименте участвовало 40 пациентов, оценивавших эффективность двух препаратов, один из которых в действительности являлся плацебо. Пациентам случайным образом (рандомизация; см. лабораторную работу № 18) назначался первый или второй препарат. После паузы в лечении, достаточной для обеспечения независимости оценок препаратов, давался другой препарат. На основании высказываний пациентов врач определял действие препарата как «сильное» или «слабое». Данные находятся в файле «Плацебо.dat»; в строках — пациенты, в колонках — результат: 1 — сильное действие, 0 — слабое действие .

Задание: определить, обладает ли препарат лечебным эффектом? Если да, то какова его сила?

В пакете PAST Открыть файл «Плацебо.dat» и выделить область данных .

Путь: Edit — Rearrange — Observations to contingency table (Наблюдения в таблицу сопряжённости) .

Мы получили таблицу частот, для которой пока в пакете PAST нет нужного критерия, поэтому просто перепишем её в понятном виде, а далее рассчитаем критерий Макнемара вручную или в онлайновом калькуляторе .

Действие плацебо Сильное (1) Слабое (0) Сильное (1) 8 16 Действие препарата Слабое (0) 5 11 Вопрос: помогают ли нам находящиеся на диагонали таблицы (пунктирная линия) значения 8 и 11 определиться с тем, действует препарат или нет?

Восьми испытуемым помог как препарат, так и плацебо, а одиннадцати — не помогло ничего. Поэтому эти стоящие на главной диагонали таблицы ячейки бесполезны для сравнения: они не несут никакой информации о различиях. 16 человек оценили действие препарата как сильное, а плацебо — как слабое, а 5 человек — наоборот. Если бы мы имели числа 16 и 16, то очевидно, что действие препарата не отличалось бы от плацебо: 16 человек «проголосовали» за препарат, 16 — за плацебо. То есть мы наблюдали бы симметрию значений в ячейках над и под диагональю. Именно поэтому критерий Макнемара, а также критерий Боукера (Bowker’s test, см. лабораторную работу № 9) для таблиц больше чем 22, называются критериями симметрии .

В нашем случае симметрия нарушена: 16 и 5; именно эти числа и будут использоваться для сравнения .

Расчёт по формуле. Обозначим ячейки буквами:

a b c d

–  –  –

Число степеней свободы df = 1. Поскольку полученное значение больше критического для 5%-ного уровня значимости (2(1; =0,05) = 3,84), делаем вывод о статистической значимости различий .

К сведению. Как и в случае критериев типа хи-квадрат, использование поправок оправдано лишь в случае, если для расчёта Р-значения будет использоваться непрерывное статистическое распределение хи-квадрат. Поскольку современные программы в состоянии рассчитать точное значение Р, минуя статистическое распределение, именно такой подход будет наиболее точным и современным. Поэтому следует искать ресурсы, которые позволяют провести Binomial exact test или Liddell’s test. С одним таким ресурсом вы познакомитесь в процессе выполнения домашнего задания .

Оценка силы различий. В качестве показателя величины эффекта используется отношение шансов. Оно рассчитывается как отношение наддиагонального и поддиагонального элементов таблицы: OR = b / c .

В нашем случае OR = 16 / 5 = 3,20 (округляем до сотых), то есть шансы выраженного лечебного эффекта препарата в 3,2 раза выше, чем плацебо. Данное значение желательно снабдить 95% ДИ, которые можно рассчитать в онлайновых калькуляторах .

Вывод (неполный вариант). Препарат оказывал статистически значимый лечебный эффект по сравнению с плацебо: критерий Макнемара cMcNemar = 4,76; Р 0,05; отношение шансов OR = 3,20 .

Расчёт в онлайновом калькуляторе .

Домашнее задание

В браузере Введите в строке поисковика браузера: «McNemar test calculator» .

Наиболее популярные ресурсы для онлайновых расчётов будут представлены на первой странице. Опробуйте 3–4 калькулятора.

Обратите внимание на тот, который позволяет рассчитать:

1) 95% ДИ для OR, 2) p-значение точным биномиальным методом:

это лучше, чем использовать поправку Эдвардса. Выпишите его название и адрес в тетрадь для практических занятий, а также выдаваемые им результаты. Сформулируйте и оформите полный вывод в тетради .

ЛАБОРАТОРНАЯ РАБОТА № 8

Сравнение трёх и более выборок по количественным и порядковым показателям Тема 8. Выборочные сравнения для случая трёх и более групп и одного действующего фактора .

Количество часов: 2 .

Цель: освоить стратегию выбора статистических критериев для сравнения трёх и более групп. Научиться использовать однофакторный дисперсионный анализ, критерий Краскела — Уоллиса и соответствующие апостериорные критерии. Работа на ПК, решение задач .

Сравнение трёх и более выборок — распространённая задача в практике исследователя. При этом часто одна выборка служит контролем («контрольная группа», в медицине — «группа сравнения»), в то время как несколько других являются различными вариантами опыта («экспериментальные группы», в медицине — «основные группы») .

Методы статистического анализа в случае двух выборок и в случае трёх и более выборок различны. Наиболее частой ошибкой анализа данных в случае нескольких выборок является их попарное сравнение методами, разработанными для анализа двух выборок, например, t-критерием или критерием Уилкоксона — Манна — Уитни. Такое сравнение статистически некорректно, поскольку увеличивает ошибку I рода: чем больше гипотез проверяется, тем выше вероятность ложноположительных «открытий» (см. теоретический материал) .

Чтобы обойти эту проблему, можно использовать методы для сравнения двух групп, но применять специальные поправки на множественность сравнений типа поправки Бонферрони (Bonferroni correction) (см. теоретический материал). Однако такие поправки, напротив, слишком консервативны и увеличивают ошибку II рода.

Поэтому при наличии нескольких выборок рационально использовать другой — двухэтапный подход к проверке гипотезы:

Этап 1. Омнибусный критерий (omnibus test), проверяющий весь набор («омнибус») гипотез .

Если нулевая гипотеза Н0 об отсутствии различий принимается (р 0,10), то констатируем отсутствие межгрупповых различий.

Если H0 отклоняется (р 0,05), то далее:

Этап 2. Проводят запланированные сравнения (planned comparisons) или незапланированные множественные апостериорные сравнения (post hoc comparisons), призванные обнаружить, за счёт различий каких пар групп или их сочетаний значимым оказался омнибусный критерий .

I. оличественныепризнаки К сприблизительнонормальнымраспределением Информация о нормальности распределения берётся из литературы, предыдущих исследований или проверяется непосредственно по данным, если позволяет объём выборки (n 30) .

В качестве омнибусного критерия используется однофакторный дисперсионный анализ (One-way Analysis of Variance, One-way ANOVA). Далее для модели I дисперсионного анализа (ДА), которая применяется для сравнения средних в группах, проводят запланированные или незапланированные множественные апостериорные сравнения. Критериев для таких сравнений предложено много.

В статистических пакетах распространены:

– метод наименьшей значимой разности Фишера (Fisher’s LSD) — слишком либеральный и даже некорректный метод;

– метод Тьюки (Tukey’s HSD) — строгий и даже несколько консервативный критерий. Есть в пакете PAST;

– метод Бонферрони (не путать с поправкой Бонферрони);

– ранговые методы Дункана (Duncan’s Multiple Range Test) и Ньюмена — Кёйлса (Newman-Keuls test, Student-Newman-Keuls (SNK) test) — хорошо сбалансированные и популярные методы и др .

Для модели II ДА — задача разложения общей изменчивости признака на компоненты — рассчитывают и интерпретируют компоненты дисперсии .

–  –  –

Задание: определить, различаются ли средней длиной щитка личинки, собранные с разных хозяев? Почему?

В пакете PAST

Данные могут быть внесены в пакет двумя способами:

а) данные для разных групп вбиваются в соседние столбцы и выделяются так, чтобы выделенными оказались все значения .

На предыдущих занятиях мы так и поступали, однако когда групп много, более удобен следующий способ;

б) все данные вбиваются в один столбец, и дополнительно создаётся столбец с меткой принадлежности значения к группе. Для этого нужно зайти в свойства колонки: Column attributes, ввести названия столбцов в строке Name и дважды кликнуть в ячейке Type, которая находится выше. При этом появляется выпадающее меню, в котором нужно выбрать Group. После этого рядом с названием колонки появится синий значок, сигнализирующий о том, что данная колонка содержит метки группирующей переменной (grouping variable). Далее галочку Column attributes можно снять, сохранить файл и выделить обе колонки .

Такой способ организации данных является предпочтительным, поскольку ускоряет обработку больших массивов данных .

Путь: Univariate — ANOVA etc. (several samples) — Severalsample tests (ANOVA, Kruskal-Wallis) .

По умолчанию открывается форма на закладке One wayANOVA (Однофакторный дисперсионный анализ):

Проверка требований модели дисперсионного анализа:

3.1. Однородность дисперсий (homoscedasticity). Аналогично тому, как t-критерий Стьюдента требует равенства дисперсий, дисперсионный анализ требует их взаимного равенства, то есть однородности. В пакете она проверяется критерием Левена (Ливина) — Levene’s test … from means. В нашем случае есть лишь тенденция к неоднородности дисперсий (heteroscedasticity): p = 0,094. Поэтому формально можно доверять результатам обычного дисперсионного анализа .

3.2. Нормальное распределение ошибки. Закладка Residuals (Остатки). Это ошибка модели, то есть остатки после последовательного выражения и вычитания из каждого значения в наборе данных всех эффектов модели (общего среднего, группирующих факторов и их взаимодействий; см. теоретический материал) .

Ошибка должна быть нормально распределена со средним равным нулю.

Нормальность распределения проверяется в пакете критерием Шапиро — Уилка, и в нашем случае нет оснований отвергать гипотезу о нормальности распределения остатков:

W(37) = 0,98; р = 0,850. Задание. Посмотрите в этом же разделе распределение остатков в форме гистограммы и кривую плотности распределения на фоне кривой нормального распределения .

В случае невыполнения требований дисперсионного анализа возможны следующие варианты .

1) если распределение ошибки не отличается от нормального (для критерия Шапиро — Уилка р 0,05), но дисперсии неоднородны (для критерия Ливена р 0,05), то можно использовать результаты подхода Уэлча (Вэлча), которые пакет выдаёт чуть ниже: Welch F test … Внимание! В подходе Уэлча получаются дробные степени свободы: их уменьшение — плата за нарушение требований нормальности: чем больше отклонение, тем больше плата. В данном случае вместо df = 33 мы получаем только df = 14,73. Результат дисперсионного анализа с подходом Уэлча мы бы записали так:

F(3; 14,73) = 8,21; P = 0,002;

2) если распределение ошибки значимо отклоняется от нормального, то следует:

а) попробовать нормализовать данные перед анализом с помощью преобразований. Одно из лучших преобразований — преобразование Бокса — Кокса. В пакете PAST путь: Transform — Box-Cox. ВАЖНО! Преобразование нужно применить ко всему набору данных. Часто преобразования устраняют также и неоднородность дисперсий;

б) использовать непараметрический ранговый аналог однофакторного ДА — критерий Краскела — Уоллиса (мы рассмотрим его позже);

в) использовать рандомизационный вариант дисперсионного анализа (нет в пакете PAST) .

В нашем случае требования модели дисперсионного анализа были соблюдены и можно использовать стандартную таблицу результатов дисперсионного анализа с закладки One way ANOVA. Её нужно правильно оформить и вставить в квалификационную работу .

Оформление результатов дисперсионного анализа .

Если дисперсионных анализов в работе не очень много (до 5–7), можно все таблицы результатов привести в основной части работы. Если же таких анализов много, то в тексте приводятся только таблицы средних значений и/или графики, а результаты дисперсионного анализа описываются кратко: только F(df1; df2) = …, Р = … Таблица 1 – Результаты дисперсионного анализа размеров заячьего клеща Сумма Степени Средний Оценка Источник квадратов свободы квадрат значимости F-критерий изменчивости SS df MS P Между груп- 1 807,73 3 602,576 5,26 0,004 пами Внутри групп 3 778,00 33 114,485 – – (ошибка) Общая 5 585,73 36 – – –

–  –  –

сти (для более сложных анализов таких частей будет больше): дисперсию межгрупповых различий и дисперсию внутригрупповых различий. Если сейчас в формуле дисперсии вместо xi подставить групповые средние x k, то SS будет 1 807,73, а df = k – 1, где k — число групп, то есть 4 – 1 = 3. Деля этот SS на df, получим средний квадрат MS, который будет дисперсией для эффекта между группами (МSмежду). Аналогично рассчитывается SS внутри групп; при этом суммируются квадраты отклонений исходных данных от их групповых средних, а df = n – k, то есть 37 – 4 = 33. Деля этот SS на df, получим средний квадрат MS, который будет дисперсией для эффекта внутри групп (MS внутри) .

Таким образом, в ходе анализа общая сумма квадратов разбивается на две части (5 585,73 = 1 807,73 + 3 778), а общее число степеней свободы — также на соответствующие две части (36 = 3 + 33). Средние квадраты, которые рассчитываются как MS = SS / df, представляют собой дисперсии, и теперь мы можем проверить, больше ли дисперсия между группами по сравнению с дисперсией внутри групп. Ранее, проверяя равенство дисперсий, мы делили одну дисперсию на другую и получали значение статистики F-критерия Снедекора — Фишера. Аналогично мы поступаем и теперь: делим МSмежду на MS внутри. Если значение F-критерия будет равно 1, значит вся изменчивость признака объясняется исключительно внутригрупповой изменчивостью, а межгрупповая изменчивость отсутствует. Если же межгрупповая изменчивость статистически значимо больше внутригрупповой, значит для рассматриваемого явления неслучаен компонент изменчивости (дисперсии), обусловливающий межгрупповые различия, или — иначе говоря — группы различаются статистически значимо. Поскольку эффект «между группами»

оценивается относительно эффекта «внутри групп», последний выступает в анализе в качестве ошибки. Чем меньше эта ошибка, тем более слабые различия между группами мы сможем обнаружить .

Таким образом, в ходе дисперсионного анализа мы работаем исключительно с дисперсиями — отсюда и название метода, — однако в результате можем делать вывод о различиях средних значений. В нашем случае различия между средними размерами личинок с разных хозяев были высоко статистически значимыми. Далее в зависимости от задачи исследования приступают либо к множественным апостериорным сравнениям средних, либо к расчёту компонентов дисперсии в процентах от общей .

Вывод по разделу.

ходе однофакторного дисперсионного анализа были обнаружены высоко статистически значимые различия в средних размерах щитков личинок, собранных с разных хозяев:

F(3; 33) = 5,26, P = 0,004 .

Каков биологический смысл этого заключения? Задание: предположите несколько гипотез, объясняющих почему клещи различных хозяев различаются больше, чем клещи любого одного хозяина. Эти различия могут быть обусловлены разным воздействием отдельного хозяина на клеща или генетическими различиями между клещами. Клещи одного хозяина могут быть сибсами — потомками одной пары родителей — и в этом случае различия между выборками разных хозяев представляют собой межсемейные, то есть генетические различия. Исходя из биологии рассматриваемого организма эта возможность кажется наиболее резонным объяснением .

Множественные апостериорные сравнения для модели I .

Поскольку омнибусный критерий обнаружил статистически значимые различия между размерами личинок клещей с разных хозяев, далее может быть полезным оценить, за счёт каких групп эти различия проявились. Наш пример относится к модели II, поэтому здесь это неважно и показано в дидактических целях, но в случае эксперимента с контролем и опытом — важно всегда .

Закладка Tukey’s pairwise (Попарные сравнения групп методом Тьюки). В нижней треугольной матрице — сами значения критерия Тьюки Q (обычно их не приводят в работе), в верхней треугольной матрице — соответствующие значения p; цветом пакет выделяет ячейки для пар со статистически значимыми различиями (р 0,05) .

Вывод по разделу. Апостериорные сравнения методом Тьюки показали, что статистически значимые различия в дисперсионном анализе связаны с различиями средних размеров личинок 1-го и 2-го зайцев (р =0,008) и 1-го и 3-го зайцев (р =0,013) .

График в работу для модели I .

6.1. Данные выделяются .

6.2. Путь: Plot — Barchart/Boxplot .

Изменяем длину усов Whisker length на 95% interval. В «Graph settings» подбираем значение Y start таким образом, чтобы средние значения оказались приблизительно в центре графика и/или чтобы различия по 95% ДИ были хорошо видны (не забываем подтверждать вводимые значения клавишей «Enter»). Удобно начать с какой-нибудь круглой цифры; в нашем случае это число

300. Можно было бы установить Y start в 340, а Y end в 380 — различия стали бы ещё отчётливее. Подбираем количество делений оси у так, чтобы цифр было немного и они были кратны 5 или 10. Внимание! Если при удачном подборе интервалов пропадает максимальное значение шкалы у — схитрите, выставив Y end равным не 400, а 401. Окончательно доработать график можно в векторных редакторах типа TpX .

По графику мы видим, что не перекрываются ДИ 1-го и 2-го зайцев и 1-го и 3-го зайцев, то есть визуальный анализ совпал с результатами сравнений методом Тьюки .

Расчёт компонентов дисперсии для модели II .

Как уже указывалось выше, рассмотренный пример относится к модели II, в которой нас интересует разложение изменчивости на составляющие части — компоненты дисперсии (components of variance). Принципы и формулы такой процедуры хорошо описаны в учебнике Монтгомери [7]. Отметим здесь только, что для расчётов необходимо знание математических ожидаемых средних квадратов, которые, будучи вычисленными как дисперсии, тем не менее могут быть сложными составными выражениями, включающими интересующие дисперсии лишь в качестве членов. После вычисления таких дисперсий их сумма принимается за 100 % и для членов модели ДА рассчитывается соответствующая доля в этой сумме .

Возвращаемся на закладку One way ANOVA и смотрим значения в Components of variance. Для нашего примера компонент дисперсии, привносимый межгрупповой изменчивостью Var(group) = 54,1781, а внутригрупповой — Var(error) = 114,485 .

Таким образом, суммарно 100 % изменчивости признака составляет 54,1781 + 114,485 = 168,6631. Доля межгрупповых различий составляет в этой сумме 54,1781 / 168,6631 = 0,321, или 32,1 % .

Эта величина называется внутриклассовым коэффициентом корреляции (intraclass correlation coefficient, ICC). Он показывает корреляцию между объектами внутри группы относительно различий между группами. В нашем примере интерпретация компонентов дисперсии будет такой: размер щитка личинок заячьего клеща на 32,1 % обусловлен генетически, тогда как доля средовой изменчивости составляет 100 % – 32,1 % = 67,9 % .

График в работу для модели II .

Компоненты дисперсии логично представить круговой диаграммой, состоящей в случае однофакторного дисперсионного анализа только из двух секторов — долей внутригрупповой и межгрупповой дисперсии.

Для этого:

8.1. Внесём в произвольном столбце таблицы PAST колонку значений 32,1 и 67,9 и выделим их .

8.2. Путь: Plot — Pie .

Поле доработки в TpX полученный рисунок может быть таким:

Рис. 8.1. Доля генетически обусловленной изменчивости (серая зона) размеров щитка личинок заячьего клеща в общей изменчивости Оформление в квалификационной работе .

9.1. Статистическая часть раздела «Материалы и методы» .

Сравнения нескольких групп по количественным показателям с приблизительно нормальным распределением проводили в ходе однофакторного дисперсионного анализа. Проверку требований метода осуществляли с помощью критериев: Ливена — для оценки однородности дисперсий и Шапиро — Уилка — для оценки нормальности распределения ошибки. Множественные апостериорные сравнения средних в рамках дисперсионного комплекса проводили методом Тьюки. Эффекты считали статистически значимыми при Р 0,05, незначимыми — при Р 0,10, в промежуточных случаях (0,05 Р 0,10) обсуждали тенденции к различиям. Расчёты и графические построения выполнены в пакете PAST (v. 3.19; Hammer et al., 2001) .

9.2. Раздел «Результаты и обсуждение» .

Если анализов в работе мало (1–3), можно привести результаты проверки требований модели ДА. Даются таблицы результатов ДА, графики и их описание .

9.3. Раздел «Выводы» (варианты) .

9.3.1. Для модели I. В ходе однофакторного дисперсионного анализа были обнаружены высоко статистически значимые различия в средних размерах щитков личинок, собранных с разных хозяев: критерий Снедекора — Фишера F(3; 33) = 5,26; Р = 0,004 .

Апостериорные сравнения методом Тьюки показали, что они были обусловлены преимущественно различиями личинок первого и второго зайца (Р = 0,008) и первого и третьего зайца (Р = 0,013) .

9.3.2. Для модели II. В ходе однофакторного дисперсионного анализа были обнаружены высоко статистически значимые различия в средних размерах щитков личинок, собранных с разных хозяев: критерий Снедекора — Фишера F(3; 33) = 5,26; Р = 0,004 .

Компоненты дисперсии для внутригрупповой и межгрупповой дисперсии составили соответственно 37,1 и 67,9 %. Они могут интерпретироваться как доли генетически обусловленной и прочей изменчивости размеров признака .

II. оличественныепризнаки К сненормальнымраспределением ипорядковыепризнаки В качестве омнибусного критерия используется Н-критерий Краскела — Уоллиса (Kruskal-Wallis test). Это непараметрический ранговый критерий, который может рассматриваться как обобщение критерия Манна — Уитни на случай нескольких групп и как прямой ранговый аналог однофакторного ДА. Также он может быть получен как частный случай ридит-анализа, то есть иметь вероятностную интерпретацию межгрупповых различий. Критерий достаточно мощный: его асимптотическая эффективность равна 95 %, то есть на больших выборках он только на 5 % уступает в мощности дисперсионному анализу, однако менее требователен к данным. Распределение статистики критерия близко к теоретическому распределению хи-квадрат, поэтому наряду или вместо статистики Н в пакетах может указываться статистика 2 .

В пакете PAST Данные для разных групп вбиваются в соседние столбцы и выделяются. Или лучше использовать способ внесения данных в один столбец, а во второй поместить метку принадлежности к группе (см. выше дисперсионный анализ) .

Путь: Univariate — ANOVA etc. (several samples) — Severalsample tests (ANOVA, Kruskal-Wallis). Закладка .

Kruskal Wallis Из результатов выписываем значение статистики H-критерия с поправкой на связанные значения (одинаковые значения в разных группах): Hc (tie corrected) и р.

Поскольку статистика этого критерия аппроксимируется распределением хи-квадрат, рассчитаем число степеней свободы как для критерия хи-квадрат:

df = k – 1, где k — число групп .

В нашем случае df = 4 – 1 = 3 .

Вывод по разделу.

В ходе сравнения групп методом Краскел — Уоллиса обнаружены статистически значимые различия в средних размерах щитков личинок, собранных с разных хозяев:

Н(3) = 11,5; P = 0,009 .

Множественные апостериорные сравнения. Для ранговых множественных апостериорных сравнений (post-hoc comparisons) используются довольно редкие в пакетах методы Стила — Двасса (Steel-Dwass’ test — ранговый аналог метода Тьюки), Данна (Dunn’s test), Неменьи (Nemenyi test) и другие, более современные .

Также для попарных сравнений возможно использовать метод Манна — Уитни с поправкой Бонферрони на множественность сравнений, что менее предпочтительно даже при использовании последовательных (sequential) техник .

Закладка Dunn's post hoc .

Начиная с версии 3.14, в пакете PAST реализован метод Данна (Dunn’s test). Этот метод специально разрабатывался для множественных сравнений и не нуждается в поправках, поэтому оставляем «Raw p-values, uncorrected significance». (Для попарных сравнений по Манну — Уитни следовало бы выбрать «Raw p-values, sequential Bonferroni significance») .

Видно, что статистически значимые различия связаны с различиями средних размеров личинок 1-го и 2-го зайцев и 1-го и 3-го зайцев .

Вывод по разделу. Апостериорные сравнения методом Данна показали, что группы различаются статистически значимо .

Межгрупповые различия обусловили преимущественно различия между размерами личинок 1-го и 2-го зайца (P = 0,003) и 1го и 3-го зайца (P = 0,003) .

График в работу .

4.1. Данные выделяются .

4.2. Путь: Plot — Barchart/Boxplot .

4.3. Изменяем тип графика Plot type на Box plot и получаем коробчатую диаграмму, которую можно доработать в «Graph settings»

(шрифт, интервалы на осях и т. д.) и вставлять в работу .

Коробчатый график хорошо показывает особенности распределения показателя в группах, но не позволяет визуально оценить статистическую значимость различий. Поэтому в публикациях такой график часто снабжают дорисованными в графических редакторах скобками с указанием значения р. Для этого удобно использовать простые векторные редакторы (например, бесплатный редактор TpX), хотя можно и растровый типа Paint .

Для доработки графика в TpX нужно сохранить максимально приближенный к идеалу график в формате *.svg (Export — Save as…), открыть в TpX и пририсовать скобки со значениями p. Иногда вместо значений р рисуют звёздочки: * для p 0,05, ** для p 0,01, *** для p 0,001, но это хуже и архаичнее точных значений .

Оформление в квалификационной работе .

5.1. Статистическая часть раздела «Материалы и методы» .

Сравнения нескольких групп по количественным показателям с ненормальным распределением проводили с помощью критерия Краскела — Уоллиса. Для множественных апостериорных сравнений использовали критерий Данна. Различия считали статистически значимыми при Р 0,05, незначимыми — при Р 0,10, в промежуточных случаях (0,05 Р 0,10) обсуждали тенденции к различиям. Расчёты и графические построения выполнены в пакетах PAST (v. 3.19; Hammer et al., 2001) и TpX (Дать ссылку на источник) .

5.2. Раздел «Результаты и обсуждение» .

В работу даются таблицы описательной статистики и/или графики, а также делается их описание с выделением наиболее существенных моментов. Внимание! Раньше мы получали описательную статистику по группам, располагая их в соседних столбцах. На этом занятии мы научились использовать для обозначения групп отдельный столбец с меткой. Описательную статистику по группам мы можем получить и при таком их определении. Задание: получите описательную статистику для данных по размерам личинок клещей новым способом .

К сведению. Мы уже говорили, что исходные данные удобно хранить в листах электронных таблиц типа Excel. По умолчанию Excel создаёт в файле три листа. Рационально «Лист 1» переименовать в «Данные», «Лист 2» — в «Коды», а «Лист 3» — в «Описательная статистика». В пакете PAST под таблицей результатов следует нажать на [Copy] и скопировать данные в буфер, а в Excel вставить их из буфера в лист «Описательная статистика» и сохранить. Таким образом, в одном файле будут сохранены и сами данные, и описательная статистика к ним, которая может далее пригодиться при переоформлении работы или написании статьи .

Также можно создать дополнительные листы для результатов сравнений, поиска связей и т. д .

Доработанный в редакторе ТрХ график выглядит так, как на рис. 8.2

5.3. Раздел «Выводы» .

Обнаружены высоко статистически значимые различия в средних размерах щитков личинок, собранных с разных хозяев: критерий Краскела — Уоллиса Н(3) = 11,5, Р = 0,009. Множественные апостериорные сравнения методом Данна показали, что они были обусловлены преимущественно различиями личинок Рис. 8.2. Различия размеров щитка личинок клещей, собранных с разных хозяев первого и второго зайцев (Р = 0,003) и первого и третьего зайцев (Р = 0,003) .

ЛАБОРАТОРНАЯ РАБОТА № 9

Сравнение трёх и более выборок по качественным показателям Тема 8. Выборочные сравнения для случая трёх и более групп и одного действующего фактора .

Количество часов: 2 .

Цель: Овладеть методами анализа различий между выборками по качественным показателям в ходе анализа таблиц сопряжённости. Научиться находить и интерпретировать стандартизованные остатки. Работа на ПК, решение задач .

При анализе качественных признаков часто таблицы сопряжённости (ТС) получаются больше, чем те таблицы 22, которые мы научились анализировать на лабораторном занятии № 6. Либо для двух групп число категорий оказывается больше двух (например, цвет венчика цветка: белый, сиреневый, фиолетовый), либо при наличии двух признаков число групп больше двух (например, наличие седины у людей пяти возрастных категорий), либо и признаков, и групп больше двух. Во всех трёх случаях говорят о таблицах сопряжённости rc (от английского r — rows — ряды, строки и c — columns — колонки, столбцы) .

Рассмотрим варианты анализа таких таблиц для случая независимых выборок и зависимых .

I.Независимыевыборки В случае независимых выборок в ячейках таблицы представлены данные, относящиеся к разным объектам исследования (образцы, животные, люди и т. д.) .

Если один из входов таблицы можно упорядочить (например:

мало, средне, много), то две группы можно — и даже правильнее — сравнить критерием Манна — Уитни, а несколько — критерием Краскела — Уоллиса. Для этого категории «мало»

присваивается ранг 1, «средне» — 2, «много» — 3. Пример см. в лабораторной работе № 6 (с. 98). Именно таким образом сравнивает упорядоченные категории пакет StatXact от компании Cytel .

Если категории упорядочить нельзя, то есть если данные представлены номинальной шкалой, анализ проводят в два этапа:

Этап 1. Омнибусный критерий, который проверяет согласие наблюдаемых и ожидаемых частот для всех ячеек таблицы .

Здесь используются те же критерии согласия или современные рандомизационные критерии, которые мы рассмотрели для таблиц 22 (см. лабораторную работу № 6). Если нулевая гипотеза H0 об отсутствии различий с ожидаемыми частотами принимается (р 0,10), то констатируем отсутствие межгрупповых различий .

Если H0 отклоняется (р 0,05), то далее:

Этап 2. Вместо апостериорных сравнений для таблиц сопряжённости проводят выявление ячеек, давших наибольший и неслучайный вклад в отклонение нулевой гипотезы .

Это делается с помощью расчёта отклонений Фримана — Тьюки (FreemanTukey deviation, FTdev) или согласованных стандартизованных остатков (Adjusted residuals, AR), называемых также остатками Хабермана .

Если требуется, то на заключительном этапе анализа рассчитываются показатели величины эффекта — относительные риски или отношения шансов. При этом может потребоваться свёртка большой ТС в таблицу 22 путём объединения менее важных категорий .

–  –  –

Задание: оценить различия между мужчинами и женщинами по соотношению обладателей волос разного цвета. Если различия есть, то установить, в чём они заключаются и каковы их возможные причины (биологические, социальные, иные)?

Комментарий. Вопрос можно переформулировать и для задачи сравнения нескольких групп: различаются ли обладатели волос разного цвета соотношением полов?

В пакете PAST Дать названия строчкам и колонкам: как в таблице с данными. Ввести 8 значений данных в соседние ячейки и выделить .

Путь: Univariate — Contingency table .

Выписываем значение критерия хи-квадрат (Chi^2), степени свободы (degrees of freedom), p. Если в таблице есть значения 5 и менее (наш случай) — выписываем p, вычисленное рандомизационной процедурой Монте-Карло. При этом число перестановок Permutation N можно увеличить до 99 999 или даже 999 999 и нажать [Recompute]. Указанием на достаточность числа перестановок является неизменное число в третьем знаке после запятой для р при нескольких последовательных нажатиях [Recompute] .

Вывод промежуточный: мужчины и женщины статистически значимо различались соотношением обладателей волос разного цвета: критерий хи-квадрат Пирсона 2(3) = 9,19; р = 0,026 .

Таким образом, различия мы обнаружили, но пока непонятно, в чём именно они заключались. Для того чтобы разобраться в ситуации, нужно рассчитать относительные частоты (в процентах), а также выявить ячейки, давшие неслучайный вклад в статистику критерия. Но начать полезно с графика .

График. Путь: Plot — mosaic plot. Программа сообщает об ошибке: слишком много колонок. Поэтому развернём таблицу иначе: транспонируем матрицу данных. Путь: Edit — Rearrange — Transpose. В полученной таблице выделяем данные и опять: Plot — mosaic plot. Можно раздвинуть блоки сильнее (Spacing = 4–5) и добавить на график проценты каждой категории от общего числа наблюдений: Percentages .

В площадь плитки пропорциональна частоте (рис. 9.1). Из него видно, что в выборке было почти в 2 раза больше женщин, чем мужчин. Наиболее сильные различия между полами наблюдались по светлому цвету волос: женщинблондинок было заметно больше. График можно доработать в редакторе ТрХ (хотя он более полезен в качестве средства эксплораторного анализа) .

Расчёт относительных частот. Поскольку мы сравниваем мужчин и женщин, относительные частоты нужно рассчитывать для каждого пола отдельно, а не как на мозаичном графике — Рис. 9.1. Соотношение мужчин и женщин с разным цветом волос в актёрской ассоциации

–  –  –

Видно, что наиболее сильные различия наблюдаются по доле обладателей светлых волос: среди мужчин таких было 17,0 %, в то время как среди женщин — 34,0 % .

Расчёт согласованных стандартизованных остатков. Закладка, в окне выбираем согласованные остатки — Adjusted Residuals residuals (рис. на с. 137) .

Знак остатков указывает на направление отклонения. Например, мужчин с чёрным цветом волос было несколько больше (AR = +0,82), а женщин — несколько меньше (AR = –0,82), чем ожидалось в соответствии с нулевой гипотезой. К сожалению, пока пакет PAST не рассчитывает значимость остатков .

Статистическая значимость остатков. Стандартизованные остатки Хабермана распределены нормально, а значит, значения, равные или большие 1,96, статистически значимы на 5%ном уровне значимости (р 0,05). В нашей таблице таких ячеек две, обе — для светлого цвета волос. Для значений между 1,64 и 1,96 р-значение также не слишком мало (р 0,10), что можно рассматривать как тенденцию к различиям — на такие ячейки полезно обращать внимание: возможно, с увеличением объёмов выборки они также окажутся значимыми. Таких значений в таблице тоже 2 — для коричневого цвета волос .

Более точно р-значения можно рассчитать в Excel:

7.1. Введите в ячейку A1 нужное значение остатка: –2,9891 .

7.2. В ячейку A2 нужно поместить формулу =2*(1-НОРМСТРАСП(ABS(A1)))

7.3. Выписать результат: 0,02798, или округлённо р = 0,003 .

7.4. Теперь, изменяя значения в ячейке A1, можем получить р-значения и для других интересующих ячеек. Например, для мужчин-брюнетов имеем AR = 0,820; р = 0,412 (различия незначимы), для мужчин-шатенов AR = 1,819; р = 0,069 (тенденция к различиям) и т. д .

Интерпретация: статистическая значимость гендерных различий по соотношению обладателей волос разного цвета (см .

п. 3) была обусловлена преимущественно различиями между блондинами и шатенами: среди женщин было существенно больше блондинок и несколько меньше шатенок, у мужчин ситуация была обратной. Если это представляется важным, можно вычислить относительный риск или отношения шансов для интересующих эффектов .

Вопрос: каковы возможные причины обнаруженных различий?

Мы не являемся специалистами по генетике человека и не знаем механизмов, по которым наследуется и проявляется у потомков окраска волос .

Весь наш опыт базируется на сугубо личных наблюдениях в кругу семьи, в семьях родственников, друзей и знакомых. Однако это не означает, что мы не должны пытаться объяснить обнаруженное явление. Возможно, для трактовки каких-то явлений нам будет достаточно имеющихся знаний и здравого смысла. Давайте рассуждать: могут ли различия между полами иметь биологическую природу? Если это так, то каковы возможные механизмы? Почему блондинок больше, чем блондинов?

Здесь возможны два варианта: 1) сцепленное с полом наследование окрасок волос: если предположить, что за окраску волос отвечает несколько генов и какие-то гены этой системы расположены на половых хромосомах, то наблюдаемая картина возможна; 2) селективные преимущества определённых генотипов окрасок или прочно сцепленных с ними генов, проявляющиеся различной выживаемостью организмов разного пола на ранних этапах онтогенеза (например, мужские половые гормоны так взаимодействуют с продуктами генов окрасок или сцепленными с ними генами, что вызывают повышенную гибель мальчиков-блондинов до рождения). Окраска волос человека является одной из главных фенотипических черт, и очень маловероятно, что мы ничего бы не читали и не слышали о таких биологических механизмах: скорее всего, мы бы знали об этом ещё со школы .

Поэтому вернёмся к данным примера и посмот рим ещё раз, что у нас была за выборка и может ли она отражать различия между мужчинами и женщинами без явного смещения оценок .

Поскольку объектами исследования были члены актёрской ассоциации, полученные данные корректно распространять в первую очередь на актёров. Мы знаем, что успешная актёрская карьера обусловлена удачными ролями в кинофильмах и/ или спектаклях, а на эти роли претендентов назначает режиссёр. Таким образом, соотношение актёров с разным цветом волос может отражать выбор режиссёрами определённых типажей для персонажей фильмов или постановок. В таком случае преобладание в выборке блондинок и шатенов связано, скорее всего, с текущим запросом режиссёров и зрителей на определённые типажи. Следовательно, наиболее правдоподобным объяснением обнаруженных различий являются социальные, а не биологические причины .

Оформление в квалификационной работе (вариант) .

9.1. Статистическая часть раздела «Материалы и методы» .

Сравнение независимых выборок по качественным номинальным показателям проводили в ходе анализа таблиц сопряжённости с помощью критерия хи-квадрат Пирсона. Для слабонасыщенных таблиц (имелись ячейки со значениями f ij 5), оценку статистической значимости проводили рандомизационной техникой МонтеКарло (n = 99 999). Для выявления ячеек таблицы, давших неслучайный вклад в статистику критерия, рассчитывали согласованные стандартизованные остатки Хабермана. Различия считали статистически значимыми при Р 0,05, незначимыми — при Р 0,10, в промежуточных случаях (0,05 Р 0,10) обсуждали тенденции к различиям. Расчёты и графические построения выполнены в пакете PAST (v. 3.19; Hammer et al., 2001) .

9.2. Раздел «Результаты и обсуждение» .

Даются таблицы с абсолютными (в штуках, единицах) и относительными (в процентах) частотами. Последние желательно снабдить 95 % ДИ, вычисленными по Джеффрису (Уилсону, Агрести — Коулу или Клопперу — Пирсону, см. лабораторную работу № 2). Также приводятся результаты статистического сравнения. Можно сделать столбчатые диаграммы с 95% ДИ .

9.3. Раздел «Выводы» .

Между мужчинами и женщинами — членами актёрской ассоциации — обнаружены статистически значимые различия по соотношению обладателей волос разного цвета: критерий хиквадрат Пирсона 2(3) = 9,19; P = 0,026. Эти различия заключались преимущественно в преобладании блондинок над блондинами (стандартизованный остаток AR = 2,99; Р = 0,003) и шатенов над шатенками (AR = 1,819; Р = 0,069) и объяснялись, вероятно, социальными факторами, действующими в профессиональной актёрской среде .

II.Зависимыевыборки При зависимых выборках в ячейках таблицы два или более раз фигурируют одни и те же объекты исследования (образцы, животные, люди и т. д.) .

Если категориальные данные можно упорядочить (например:

мало, средне, много), то две группы можно сравнить парным критерием Уилкоксона (лабораторная работа № 7), а несколько — критерием Фридмана (лабораторная работа № 10). Для этого категории «мало» присваивается ранг 1, «средне» — 2, «много» — 3, аналогично тому, как было показано в лабораторной работе № 6 (с. 98). Если категории упорядочить нельзя, то есть если данные представлены номинальной шкалой, анализ обычно проводят с использованием критерия симметрии Боукера (Bowker’s symmetry test), который является обобщением критерия Макнемара на случай нескольких зависимых выборок, и может называться в статпакетах критерием Макнемара — Боукера или некорректно — просто критерием Макнемара. Несколько реже применяют критерии краевой однородности (marginal homogeneity tests) Стюарта — Максвелла (Stuart-Maxwell test) или Бхапкара (Bhapkar’s test). Статистика всех трёх критериев аппроксимируется распределением хи-квадрат, то есть их числовые значения близки и на практике все они обычно приводят к одинаковым выводам. Более предпочтительной альтернативой этим критериям является точный биномиальный критерий (Binomial exact test) .

Функциональное ограничение всех четырёх методов заключается в том, что по нескольким категориям сравниваются только две зависимые выборки; более сложные ситуации моделируются с использованием обобщённых линейных моделей (Generalized Linear Models, GLM) .

–  –  –

Расчёт критерия Боукера. В пакете PAST необходимые критерии отсутствуют, однако ручной расчёт очень прост и не требует вычисления ожидаемых частот. Алгоритм действий следующий:

1.1. Находим диагональ таблицы, значения в ячейках которой указывают на сходство зависимых выборок. Они не помогают нам выявить различия между выборками, а потому не участвуют в расчётах: зачеркнём диагональю значения 18, 15, 16 .

–  –  –

(11 3)2 (6 10)2 (7 9)2 = 4,5714 + 1,0000 + 0,2500 = 5,8214 .

2 = + + 11 + 3 6 + 10 7+9

–  –  –

В пакете Excel Более точно оценку р можно рассчитать в электронной таблице Excel. Для этого создадим небольшой расчётный блок. В столбец А поместим названия, в столбец В — значения.

Ячейку B3 сделаем расчётной и поместим в неё статистическую формулу для расчёта вероятности р по значениям величины распределения и степени свободы:

Изменяя значения статистики хи-квадрат на табличные (7,81, 11,35 и 16,27), убеждаемся в том, что наш блок считает правильно. Затем подставляем значение 5,82 и получаем р = 0,121. Окончательно имеем 2(3) = 5,82; p = 0,121 .

Интерпретация .

Мы видели, что наиболее сильные различия наблюдались для пары ядерной и кортикальной катаракты: 4,5714 / 5,8214 = 0,785, или 78,5 % всех различий между правым и левым глазом. Если бы различия были статистически значимы, то мы бы считали, что при ядерной катаракте в левом глазу в правом чаще развивается кортикальная катаракта: отношение шансов OR = 11 / 3 = 3,67 .

Однако поскольку в нашем случае различия не были статистически значимыми, констатируем отсутствие каких бы то ни было различий между правым и левым глазом в развитии катаракты трёх типов .

Оформление в квалификационной работе (вариант) .

4.1. Статистическая часть раздела «Материалы и методы» .

Сравнение двух зависимых выборок групп по нескольким качественным номинальным показателям проводили в ходе анализа таблиц частот с помощью критерия симметрии Боукера. В качестве показателя величины эффекта рассчитывали отношения шансов OR. Различия считали статистически значимыми при Р 0,05, незначимыми — при Р 0,10, в промежуточных случаях (0,05 Р 0,10) обсуждали тенденции к различиям .

4.2. Раздел «Результаты и обсуждение» .

Даются таблицы с абсолютными (в штуках, единицах) и относительными (в процентах) частотами. Последние желательно снабдить 95% ДИ, вычисленными по Джеффрису, Вилсону, Агрести — Коулу или Клопперу — Пирсону (см. лабораторную работу № 2). Поскольку в данном случае в качестве объёма выборки используется число пар значений, это число и следует использовать при расчёте ДИ; в нашем примере n = 95. Можно сделать столбчатые диаграммы с 95% ДИ, но нужно подумать, как их разместить и сгруппировать. Или можно дать мозаичный график, который в случае критериев симметрии будет весьма информативен .

4.3. Раздел «Выводы» .

У пациентов глазной клиники с катарактой обоих глаз не обнаружено различий в частотах развития ядерной, кортикальной и субкапсулярной катаракты в правом и левом глазу: критерий симметрии Боукера: 2(3) = 5,82; Р = 0,121 .

ЛАБОРАТОРНАЯ РАБОТА № 10

Сложные модели дисперсионного анализа Тема 9. Выборочные сравнения для трёх типов данных в случае нескольких действующих факторов .

Количество часов: 2 .

Цель: Научиться различать модели с фиксированными факторами, случайными факторами и смешанные модели. Овладеть методами двухфакторного дисперсионного анализа (в том числе с единственным наблюдением на ячейку), анализа повторных измерений и критерием Фридмана. Работа на ПК .

I.Двухфакторныйдисперсионныйанализ В ходе лабораторной работы № 8 мы познакомились с однофакторным дисперсионным анализом (ДА) — методом, позволяющим исследовать влияние одного контролируемого (модель I) или случайного (модель II) фактора. Однако в исследовательской практике типичны ситуации, когда требуется контролировать или учитывать влияние сразу нескольких факторов. Например, при сравнительной оценке влияния на урожайность нескольких видов удобрений (фактор 1) необходимо учесть также тип почвы (фактор 2). Или при сравнении разных способов лечения заболевания (фактор 1) необходимо учесть пол пациента (фактор 2) и его возраст (фактор 3). Такие задачи решаются в ходе двухфакторного (Two-way ANOVA) или многофакторного (Factorial ANOVA) дисперсионного анализа .



Pages:   || 2 |



Похожие работы:

«Департамент образования, науки и молодежной политики Воронежской области государственное бюджетное профессиональное образовательное учреждение Воронежской области "БОРИСОГЛЕБСКИЙ ДОРОЖНЫЙ ТЕХНИКУМ" (ГБПОУ ВО "БДТ") ПРИКАЗ "29" мая 2018 года № 58 "Об установлении размера платы за проживание в общежитиях ГБПОУ ВО "БДТ" В целях исполне...»

«РОССИЙСКАЯ ФЕДЕРАЦИЯ ОРЛОВСКАЯ ОБЛАСТЬ АДМИНИСТРАЦИЯ МЦЕНСКОГО РАЙОНА ПОСТАНОВЛЕНИЕ 12 марта 2015 № 178 Об организации проведения экологической акции "Дни защиты от экологической опасности 2015" В целях реализации постановления Правительства Российской Федерации от 11 июня 1996 года №...»

«ISSN 0568-5435 РОССИЙСКАЯ АКАДЕМИЯ НАУК БОТАНИЧЕСКИЙ ИНСТИТУТ им. В. Л. КОМАРОВА ACADEMIA SCIENTIARUM ROSSICA INSTITUTUM BOTANICUM NOMINE V. L. KOMAROVII НОВОСТИ СИСТЕМАТИКИ НИЗШИХ РАСТЕНИЙ ТОМ 42 NOVITATES SYSTEMATICAE PLANTARUM NON VASCULARIUM TOMUS XLII САНКТ-ПЕТЕРБУРГ Г. Я. Дорошина G. Ya. Doro...»

«muzyku_za_chto_my_pem.zip Сафия Римм зеленодольский индустриализации коломыи за черносошный час. После своего можно побрести в исходное положение; велосипед . Жу-ра-вель (3 склади) біл-ка (2 склади) сли-мак (2 склади) со-ло-вей (3 склади). Кенотронов по несвит Дор...»

«студентыфизики Автор2014 Немного дополненные билеты по биологии 2014 года в печатном виде. Дополнены не все (некоторые мне показались норм), но большинство делала сама. В самом конце билеты как старые, менять не стала. Билеты до этого брала из оцифрованных ответов, скорее. По материалам...»

«Андраде Г., Быстрова Т. Ю. Екатеринбург, Уральский федеральный университет имени первого Президента России Б.Н.Ельцина ДИЗАЙН ДЛЯ РАЗУМНОГО ПОТРЕБЛЕНИЯ: НА ПРИМЕРЕ УПАКОВКИ КОМПАНИИ PACARI В статье анализируются этические аспекты работы дизайнера над упаковкой продукта, создаваемого в русле концепции разумного потребления. Даны...»

«УДК 619:616.98:579.841.936(045) ЭКСПЕРИМЕНТАЛЬНОЕ ИЗУЧЕНИЕ ВОЗМОЖНОСТИ ПРИМЕНЕНИЯ ФПА ДЛЯ ДИАГНОСТИКИ БРУЦЕЛЛЁЗА КРУПНОГО РОГАТОГО СКОТА Абдрахманов С.К. – д.в.н., профессор, заведующий кафедрой ветеринарной санитарии, Казахский...»

«КУСТ НАДЕЖДА НИКОЛАЕВНА ГЕНЕТИЧЕСКИ ДЕТЕРМИНИРОВАННАЯ ДИФФЕРЕНЦИРОВКА ПРОГЕНИТОРНЫХ КЛЕТОК ПОД ВОЗДЕЙСТВИЕМ GDNF 03.01.07 молекулярная генетика Диссертация на соискание учёной степени кандидата биологических...»

«ЧЕТВЕРТЫЙ НАЦИОНАЛЬНЫЙ ДОКЛАД РОССИЙСКОЙ ФЕДЕРАЦИИ О ВЫПОЛНЕНИИ ОБЯЗАТЕЛЬСТВ, ВЫТЕКАЮЩИХ ИЗ ОБЪЕДИНЕННОЙ КОНВЕНЦИИ О БЕЗОПАСНОСТИ ОБРАЩЕНИЯ С ОТРАБОТАВШИМ ТОПЛИВОМ И О БЕЗОПАСНОСТИ ОБР...»

«ХИМИЯ РАСТИТЕЛЬНОГО СЫРЬЯ. 2007. №4. С. 11–14. УДК 676.15 + 677.46.021.2 + 541.12.03 ИССЛЕДОВАНИЕ ПРОЦЕССОВ ДЕЛИГНИФИКАЦИИ ДРЕВЕСИНЫ ПОД ДЕЙСТВИЕМ СДВИГОВЫХ ДЕФОРМАЦИЙ С.З. Роговина*, Е.А. Балашова, Э.В. Прут © Институт химической физики им. Н.Н. Семенова РАН, ул. Косыгина, 4, Москва, 119991 (Россия) E-mail: ev...»

«Наукові праці ДонНТУ Проблеми моделювання 2002 КОМПЬЮТЕРНОЕ ИССЛЕДОВАНИЕ ФИЗИЧЕСКИХ АСПЕКТОВ РЕФЛЕКСИВНОСТИ МЫШЛЕНИЯ ЧЕЛОВЕКА Андрюхин А.И., Кузнецов A.В. Кафедра ПМиИ, ДонНТУ, andr@r5.dgtu.donetsk.ua Abstract Andruckin A.I., Kuznezov A.V. Computer research of physical aspects reflexivities of thinking of the p...»

«Результаты проведения тренинга и учений по ликвидации разливов нефтепродуктов (ЛРН) в 2016 году Учения по ЛРН 1. 12 февраля 2016 года на Северной буровой площадке Одопту (СБП Одопту) были проведены объектовые учения. Тема: "Ликвидация условного разлива нефти в зимних условиях на...»

«Аннотация к рабочей программе дисциплины "Анатомия и гистология собак и кошек" Специальность 36.05.01 – "Ветеринария" Уровень высшего образования (специалитет) Квалификация (степень) выпускника – Ветеринарный врач 1. Цель и задачи изучения...»

«ЛОГВИНОВА Дарья Сергеевна РОЛЬ "СУЩЕСТВЕННЫХ" ЛЕГКИХ ЦЕПЕЙ МИОЗИНА В ПРОЦЕССЕ РАБОТЫ МИОЗИНОВОЙ ГОЛОВКИ 03.01.04 Биохимия Автореферат диссертации на соискание ученой степени кандидата биологических наук Москва 2018 Работа выполнена в лаборатории структурно...»

«Моллюски континентальных водоёмов северо-западного Приазовья. УДК 594: 504.453 (477.7) Е. В. Дегтяренко, В. В. Анистратенко2 Национальный научно-природоведческий музей НАН Украины ул. Б. Хмельницкого, 15, Киев, 01030 Украина E-mail: oomit@m...»

«Б А К А Л А В Р И А Т В.И. ШКАТУЛЛА, В.В. НАДВИКОВА ПРАВОВЕДЕНИЕ УЧЕБНИК МОСКВА • 2017 УДК 340(075.8) ББК 67.0я73 Ш66 Шкатулла, Владимир Иванович.Ш66 Правоведение : учебник / В.И. Шкатулла,...»

«158 ПРИКЛАДНАЯ МЕХАНИКА И ТЕХНИЧЕСКАЯ ФИЗИКА. 2003. Т. 44, N6 УДК 519.63 ЧИСЛЕННЫЙ РАСЧЕТ ТЕЧЕНИЙ И ДАЛЬНЕГО ПЕРЕНОСА ПРИМЕСИ В РАВНИННЫХ РЕЧНЫХ ВОДОХРАНИЛИЩАХ В. И. Квон, Д. В. Квон, С. Д. Зонов, В. Б. Карамышев Новосибирский филиал Института водных и экологических проб...»

«Государственное бюджетное образовательное учреждение высшего профессионального образования "Ставропольский государственный медицинский университет" Министерства здравоохранения Российской Федерации Ка...»

«СУХОВА Мария Геннадьевна ЭКОЛОГО-КЛИМАТИЧЕСКИЙ ПОТЕНЦИАЛ ЛАНДШАФТОВ АЛТАЕ-САЯНСКОЙ ГОРНОЙ СТРАНЫ ДЛЯ ЖИЗНЕДЕЯТЕЛЬНОСТИ НАСЕЛЕНИЯ И РЕКРЕАЦИОННОГО ПРИРОДОПОЛЬЗОВАНИЯ Специальность 25.00.36 Геоэкология АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора географических нау...»

«ДОПОЛНЕНИЕ N ОТЧЕТ О ПРОМЫСЛЕ: DISSOSTICHUS ELEGINOIDES, ОСТРОВА ПРИНС-ЭДУАРД, ИЭЗ ЮЖНОЙ АФРИКИ (ПОДРАЙОНЫ 58.6 И 58.7) СОДЕРЖАНИЕ Стр.1. Информация о промысле 1.1 Зарегистрированный вылов (време...»

«Бюллетень Союза по сохранению сайгака Saiga News зима 2006/07: Выпуск 4 Издается на 6-ти языках для информационного обмена по вопросам экологии и охраны сайгака Алматинская встреча – важный шаг в...»

«2. Pustovalova, M. P.Solar energy [Electronic resource] / M. P. Pustovalova; Sci. adv. S. N. Chegrincev, T. G. Petrasheva 3 . Казанов А. М. Резервирование теплоснабжения электрическими теплогенераторами / А. М. Казанов; Томский политехнический университет (ТПУ). — Томск: Изд-во НТЛ, 1999. — 148 с.: ил. — ISBN...»




 
2019 www.mash.dobrota.biz - «Бесплатная электронная библиотека - онлайн публикации»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.