Анализ данных по доказательной медицине. Реферат: Основы доказательной медицины

Оценка уровня доказательности является основным рабочим инструментом в доказательной медицине (рис. 3.1). Поэтому важнейшим механизмом, позволяющим врачу ориентироваться в огромном количестве публикуемых медицинских данных, является рейтинговая система оценки научных исследований. Однако до настоящего времени отсутствует общепринятая шкала по оценке степени доказательности.

Категорий доказательности исследования может быть несколько - от 3 до 7. Меньшей цифре соответствует меньшая доказательность. Также выделяют три категории доказательности исследования.

Рис. 3.1. Пирамида медицинских публикаций

Практические рекомендации по диагностике и лечению могут опираться как на данные исследований, так и на их экстраполяцию. С учетом этого обстоятельства рекомендации подразделяют на 3-5 уровней, которые принято обозначать латинскими буквами - A, B, C, D, E.

А - доказательства убедительны: есть веские доказательства в пользу применения данного метода;

В - относительная убедительность доказательств: есть достаточно доказательств в пользу того, чтобы рекомендовать данное предложение;

С - достаточных доказательств нет: имеющихся доказательств недостаточно для вынесения рекомендации, но рекомендации могут быть даны с учетом иных обстоятельств;

D - достаточно отрицательных доказательств: имеется достаточно доказательств, чтобы рекомендовать отказаться от применения данного метода в определенной ситуации;

Е - веские отрицательные доказательства: имеются достаточно убедительные доказательства, чтобы исключить данный метод из рекомендаций.

В большинстве стран Западной Европы и Канаде выделяют три уровня доказательности - A, B, C. Рекомендации уровня А базируются на результатах исследований, относимых к I категории доказательности и, следовательно, отличаются наиболее высоким уровнем достоверности. Достоверность рекомендаций уровня В также достаточно высока, так как при их формулировании используются материалы исследований II категории или экстраполяции исследований I категории доказательности. Рекомендации уровня С строятся на основании неконтролируемых исследований и консенсусов специалистов (III категории доказательности) или содержат экстраполяции рекомендаций I и II категории.

Одной из наиболее всеобъемлющих является Oxford Centre for Evidence-based Medicine Levels of Evidence, опубликованная в мае 2001 г. (оригинал приведен в приложении 1). В ней использованы следующие критерии достоверности медицинской информации:

Высокая достоверность - информация базируется на результатах нескольких независимых клинических исследований с совпадением результатов, обобщенных в систематических обзорах;

Умеренная достоверность - информация основана на результатах нескольких близких по целям клинических независимых исследований;

Ограниченная достоверность - информация основана на результатах одного клинического исследования;

Строгие научные доказательства отсутствуют (клинические испытания не проводились) - утверждение основано на мнении экспертов.

Совершенно очевидно, что использовать данные рекомендации в повседневной практике затруднительно не только практическому врачу, но и научному сотруднику.

Американское Агентство по политике здравоохранения и научным исследованиям предложило более простую шкалу с выделением следующих уровней доказательств в порядке убывания их достоверности:

I а - мета-анализ РКИ;

I b - как минимум одно РКИ;

II а - хорошо организованное контролируемое исследование без рандомизации;

II b - как минимум одно хорошо организованное квази-экспериментальное исследование;

III - не экспериментальные исследования;

IV - отчет экспертного комитета или мнение и/или клинический опыт авторитетных специалистов.

В последнем случае главную роль играет субъективный фактор, в частности личный опыт врача и мнение экспертов, выбор которых может иметь тенденциозный характер. Шотландской Межколлегиальной медицинской сетью также разработана система оценки уровня доказательств, опирающаяся на элементы, рассмотренные выше:

А - при уровне I а, I b;

В - при уровне II а, II b, III;

С - при уровне IV (только если нет А и В).

Движением «Доказательная медицина» предложена шкала для оценки уровня достоверности знаний, учитывающая в первую очередь схему получения соответствующего знания (табл. 3.1).

Таблица 3.1. Уровни достоверности знаний для терапии (по журналу Critical Care Medicine (1995), 23, N l, 395 с.). Используются три градации достоверности (А, В, С) и пять уровней со знаками I, I-, II, II-, III, IV, V)

Градация

Доступен высококачественный обзор

высококачественного обзора

Случай, когда нижняя граница доверительного интервала для эффекта лечения превышает клинически значимый выигрыш:

Результаты исследований однородны

Результаты исследований неоднородны (I-)

Рандомизированные испытания с низким уровнем ошибок первого и второго рода (I)

Случай, когда нижняя граница доверительного интервала для эффекта лечения ниже клинически значимого выигрыша, но точечная оценка выше:

Результаты исследований однородны (11+);

Результаты исследований неоднородны (II-)

Рандомизированные испытания с высоким уровнем ошибок первого и второго рода (II)

Нерандомизированные одновременные когортные исследования (III)

Нерандомизированные исторические когортные исследования (IV)

Серии отдельных случаев (V)

Несмотря на то что, по мнению авторов, данная шкала наиболее понятна рядовому практикующему врачу, она требует от пользователя достаточно хорошего знания дизайна исследований. Авторы шкалы призывают считать ее компромиссной, выстраданной, но вместе с тем ставящей заслон перед неподкрепленными опытом «физиологическими принципами» и «клиническими рассуждениями». Ею, считают авторы, следует пользоваться до тех пор, пока в медицине не возникнут условия для использования более объективной шкалы.

Для практических врачей, имеющих самые элементарные представления о клинической эпидемиологии и статистике, вполне приемлемой может быть оценка достоверности доказательств из различных источников по рекомендациям Шведского совета по методологии оценки в здравоохранении, Согласно им достоверность убывает в следующем порядке:

Рандомизированное контролируемое клиническое исследование;

Нерандомизированное клиническое исследование с одновременным контролем;

Нерандомизированное клиническое исследование с историческим контролем;

Когортное исследование;

. «случай-контроль»;

Перекрестное клиническое исследование;

Результаты наблюдений.

Систематизированные обзоры

Рост количества и повышение качества результатов клинических исследований в последние 10 лет играют важную роль в принятии практических решений в повседневной клинической деятельности. Практикующему врачу разобраться в беспрерывном и нарастающем информационном потоке достаточно сложно, существенную помощь в этом ему оказывают систематизированные обзоры по разным проблемам профилактики, диагностики и лечения широкого круга заболеваний. Главное достоинство обзора - объединение информации о нескольких исследованиях, что позволяет получить объективное представление о клиническом эффекте анализируемого вмешательства по сравнению с отдельно взятым клиническим исследованием. Систематизированные обзоры являются одной из наиболее важных составляющих доказательной медицины.

Результаты отдельных исследований, пусть даже с большим количеством пациентов, в значительной мере отражают эффективность вмешательства на ограниченной выборке больных, которая определяется критериями включения и исключения, а также ее клинико-демографическими показателями. Поэтому надо весьма осторожно экстраполировать сделанные по результатам конкретного исследования выводы на всю популяцию пациентов. В исследованиях с участием небольшого количества больных возрастает роль случайного фактора, что может привести к получению неверных результатов.

Атрибутивные признаки систематизированного обзора (четкое описание принципов и критериев отбора исследований для включения в него методов анализа и стандартов качества исследований) позволяют существенно снизить риск систематической ошибки, а также получить более широкую выборку пациентов.

Прежде всего для систематизированного обзора отбираются исследования в соответствии с конкретным клиническим вопросом. Главной целью систематизированного обзора является получение ответа на следующие вопросы в доступной для понимания практического врача форме.

1. Действительно ли эффективно анализируемое вмешательство?

2. Насколько эффективнее анализируемое вмешательство по сравнению с плацебо, «традиционной» терапией или по сравнению с другими схожими вмешательствами, применяемыми при конкретной патологии в настоящее время?

3. Насколько безопасно анализируемое вмешательство, в том числе и при сравнении с уже применяющимися вмешательствами?

4. Оправдано ли применение анализируемого вмешательства у конкретного больного с учетом соотношения польза (эффективность)/ риск (безопасность)?

5. Возможна ли замена анализируемого вмешательства на уже применяющееся вмешательство и какие последствия будет иметь такая замена?

Результаты систематизированных обзоров, как правило, изобилуют не только цифрами, но специальной терминологией и сокращениями, которые трудно понять и правильно интерпретировать практикующему врачу. Наиболее употребительные в доказательной медицине термины и сокращения приведены в приложении, в настоящее время большинство из них используется уже не только в специальной медицинской литературе, но и во время презентаций на национальных конгрессах и симпозиумах.

Одним из наиболее важных понятий является показатель NNT (the number needed to treat; русская аббревиатура ЧБНЛБИ или ЧБНЛ - число больных, которых необходимо лечить определенным методом в течение определенного времени, чтобы достичь определенного эффекта или предотвратить неблагоприятный исход у одного больного). Достоинством этого показателя является возможность его применения в условиях реальной клинической практики обычного врача. Кроме этого, при различных вмешательствах, приводящих к

одинаковому результату при одном заболевании, знание величины ЧБНЛ позволяет выбрать оптимальную тактику лечения конкретного пациента (табл. 3.2).

Таблица 3.2. Влияние ИАПФ на смертность в РКИ по профилактике и лечению ХСН

Примечание. Э - эналаприл; К - каптоприл; Р - рамиприл; Т - трандалоприл; З - зофеноприл

Показатель ЧБНЛ всегда предполагает существование группы сравнения (референтной группы), в которой больные получают плацебо или какое-то другое лечение или вообще не получают его. Показатель ЧБНЛ может быть различным в рамках одного исследования в зависимости от выбранного критерия оценки эффективности вмешательства (чаще всего это «суррогатные» конечные точки, принятые для конкретного заболевания).

Противоположным по смыслу является показатель «число больных, которых необходимо лечить определенным методом в течение определенного времени, чтобы вмешательство могло нанести вред одному больному». Особую важность этот показатель приобретает при оценке целесообразности профилактического вмешательства. Знание этого показателя и ЧБНЛБИ позволяет оценить степень риска вмешательства у конкретного пациента.

ЧБНЛ для определенного вида вмешательства (чаще всего лечения) является величиной, обратной снижению абсолютного риска при этом

вмешательстве. Рассмотрим это на конкретном примере. В результате проведенного исследования было показано, что в результате лечения препаратом Х риск развития одного из характерных осложнений для анализируемого заболевания снизился с 0,5 до 0,3, относительный риск составил 0,20, снижение относительного риска - 0,80, а снижение абсолютного риска - 0,20. Следовательно ЧБНЛ равно 1: 0,20 = 5. С практической точки зрения это означает, что врачу надо лечить препаратом Х 5 больных, чтобы предотвратить развитие одного осложнения у одного больного.

На величину показателя ЧБНЛ существенное влияние оказывает степень снижения абсолютного риска. Простота расчета показателя ЧБНЛ позволяет широко использовать его в качестве основного цифрового показателя эффективности (или потенциального вреда) анализируемого вида вмешательства. Главное преимущество ЧБНЛ состоит в том, что его может использовать любой врач применительно к условиям своей практики.

В этой связи становится очень важным понять возможности и пределы использования показателя ЧБНЛ в условиях реальной клинической практики.

Особенности показателя:

Строго специфичен для определенного вида вмешательства и у конкретной категории пациентов;

Описывает различие по клинически важным исходам между группой вмешательства и контрольной группой;

Низкий показатель (около 1) означает, что благоприятный исход наблюдается почти у каждого больного, получающего лечение, и лишь у небольшой части больных в группе сравнения;

На практике показатель, равный единице, встречается крайне редко даже при исследовании антибиотиков;

Абсолютное значение показателя не является критерием для принятия решения о целесообразности вмешательства, а отражает вероятность достижения положительного эффекта. Так, при сердечной недостаточности эффективность различных, в том числе и официально рекомендованных лечебных вмешательств, колеблется от 20 до более чем 100, но при этом все они используются у этой категории пациентов, потому что считаются эффективными, причем часто одновременно (например, комбинация ИАПФ с β-адреноблокаторами и спиронолактоном).

Ограничения для использования показателя:

Может корректно использоваться только в пределах 95% доверительного интервала (означает, что в 9 из 10 случаев истинное значение ЧБНЛ находится в пределах данного диапазона) для исследуемой выборки;

При отсутствии значений доверительного интервала даже при наличии низких значений показателя не исключено отсутствие благоприятного эффекта вмешательства ввиду дискретного значения ЧБНЛ;

Можно сравнивать значения ЧБНЛ только для одинаковых заболеваний, так как их клинические исходы могут быть различны. Так, последствия профилактики тромбообразования при инсульте и геморрое различны;

Прямое сравнение значений показателей ЧБНЛ допустимо только в том случае, если они рассчитаны для различных вмешательств при одном заболевании, одинаковой степени тяжести и в отношении одного и того же исхода;

Значения показателя могут изменяться для одного вида вмешательства у конкретной группы пациентов в зависимости от исходного уровня риска (низкий, промежуточный или высокий) в ней. Причем закономерности между степенью риска и эффективностью вмешательства не существует. Так, тяжелое заболевание может легче поддаваться лечению, чем то же заболевание легкой или умеренной степени тяжести и наоборот. В конечном счете все определяется самим заболеванием и его прогнозом для жизни и инвалидизации;

Определение показателя ЧБНЛ предполагает оценку влияния вмешательства на исход в течение определенного периода времени (чаще всего это средняя длительность РКИ). Поэтому сравнение показателей ЧБНЛ при различных вмешательствах, но одной патологии, правомерно только в том случае, когда оценивается эффективность вмешательств в течение одинакового периода времени. Нельзя сравнивать эффективность лечения с использованием одного вида вмешательства на протяжении 1 года, другого - на протяжении 3 лет, а третьего - на протяжении 5 лет.

Различия в показателе ЧБНЛ при лечебном и профилактическом вмешательстве:

При лечебном вмешательстве во всех группах сравнения проводится лечение, поэтому ключевым вопросом является определение и сравнение эффективности различных вмешательств;

При профилактике важно выяснить, будет ли профилактическое вмешательство предотвращать неблагоприятный исход более эффективно, чем отсутствие всякого вмешательства;

При лечебных и профилактических вмешательствах необходимо взвесить соотношение риска и пользы для каждого из возможных вмешательств;

При профилактических вмешательствах существует возможность получить нежелательные явления у части лиц без достижения какого-либо благоприятного эффекта;

Показатель ЧБНЛ позволяет расположить сравниваемые виды вмешательств в порядке их убывания или возрастания, что упрощает выбор варианта лечения. Однако при окончательном решении необходимо учитывать и такие факторы, как стоимость лечения, сопутствующую клинически значимую патологию и особенности больного, так как они существенно влияют на приверженность пациента к терапии. Оценивая эффективность вмешательства со стороны врачей и пациентов, необходимо отдавать предпочтение последним, поскольку оценка врача всегда менее чувствительна, чем оценка больных;

Профилактическое вмешательство чаще всего не влияет на большую часть популяции за исключением лиц из группы риска. Величина ЧБНЛ при профилактических вмешательствах свидетельствует об их эффективности в популяции, однако в меньшей степени применима к каждому конкретному случаю;

Показатель ЧБНЛ при профилактике должен всегда использоваться одновременно с показателем ЧБНЛНИ (количество больных в экспериментальной группе по сравнению с контрольной, необходимое для выявления дополнительного неблагоприятного исхода). Также необходима оценка индивидуального исходного риска. поскольку при его исходно низком уровне целесообразность профилактического вмешательства отсутствует.

Принцип расчета показателя ЧБНЛ позволяет оценивать и безопасность вмешательств. Число больных, у которых при вмешательстве возникает нежелательное явление, у одного пациента рассчитывается так же, как ЧБНЛ. Однако в тех случаях, когда частота нежелательных явлений низка, статистически достоверную величину доверительного интервала определить невозможно, он становится неопределенным. В этом случае вред от вмешательства имеет только точечную оценку. Выраженные неблагоприятные явления в

РКИ выявляются по количеству случаев выбывания из него в связи с проводимым вмешательством. Отсутствие в систематизированных обзорах и результатах РКИ информации о побочных эффектах и частоте выбывания пациентов вследствие нежелательных явлений существенно снижает их ценность.

В систематизированных обзорах могут также рассматриваться и другие последствия лечения, которые не укладываются в обычные представления о желательных и нежелательных эффектах вмешательства. Например. снижение риска развития новообразований кишечника при длительном применении ацетилсалициловой кислоты для первичной и вторичной профилактики сердечно-сосудистых осложнений.

Принцип расчета показателя ЧБНЛ при его отсутствии в публикации

Риск развития исхода (вероятность) выражается по отношению к общей выборке определенного размера, например когда 15 случаев одного исхода наблюдаются в выборке из 100 человек, риск этого исхода равен 0,15. В этом случае шанс такого исхода в выборке рассчитывается как число развившихся исходов по отношению к числу неразвившихся (например, 15 к 85 или 0,17). Тогда отношение шансов рассчитывается просто как шанс исхода в группе лечения, деленный на шанс этого исхода в группе сравнения. Поэтому если в систематизированном обзоре приводится только отношение шансов, но нет значений ЧБНЛ, последний показатель можно рассчитать по табл. 3.3. Для этого необходимо выбрать колонку с наиболее близким к опубликованному значением отношения шансов и строку с самым близким к ожидаемому значением частоты исхода, а затем на их пересечении найти соответствующее значение ЧБНЛ. В левой ее части приведены значения отношения шансов меньше 1,0. Это означает, что при профилактических вмешательствах, когда исход - это возникновение заболевания, рецидив, осложнения или ухудшение течения болезни, интересующий исход в группе лечения встречается реже, чем в группе сравнения. В правой части рисунка значения отношения шансов больше 1,0 - значит, интересующий исход чаще встречается в группе лечения, что типично для исследований по изучению эффективности лечебных вмешательств (где исход - это полное выздоровление, ремиссия, отсутствие осложнений или стабилизация течения заболевания).

Таблица позволяет определить, как различная частота исхода влияет на величину ЧБНЛ при определенном значении отношения шансов.

Таблица 3.3. Расчет ЧБНЛ по величине отношения шансов

При экстраполяции данных систематизированного обзора врач прежде всего должен оценить степень его соответствия той группе пациентов, для которой был выявлен положительный эффект вмешательства. Несомненно, что личный опыт врача и существующие стандарты лечения должны быть учтены при принятии окончательного решения. Представление об эффективности препаратов может изменяться по мере появления дополнительных данных после завершения крупных рандомизированных контролируемых испытаний. Появляются новые данные и меняются результаты систематизированных обзоров. Поэтому в практической работе необходимо использовать наиболее свежие из них. Главное состоит в том, что систематизированные обзоры могут предоставлять объективную информацию, позволяющую пациенту и врачу прогнозировать эффективность и возможные последствия от конкретного вмешательства еще до начала лечения.

Для профилактических вмешательств ЧБНЛ рассчитывается по формуле:

Для лечебных вмешательств ЧБНЛ рассчитывается по формуле:

Систематические обзоры подразделяются на качественные и количественные. Последние отличаются использованием специальных статистических методов для обобщения результатов (мета-анализ)

Рис. 3.2. Взаимодействие систематических обзоров и мета-анализа

различных исследований с целью получения вывода об эффективности вмешательства или диагностического метода. Часто систематический обзор, выполненный с использованием статистических методов, также называют мета-анализом, однако это не совсем корректно. Их соотншение представлено на рис. 3.2.

Мета-анализ

Одной из разновидностей систематизированных обзоров является мета-анализ. Часто мета-анализ рассматривается как высшая ступень доказательности и становится основой для выбора наиболее эффективных лечебно-профилактических и диагностических вмешательств. Мета-анализ, появившийся в конце 1980-х годов, сегодня относится к одной из самых популярных и быстро развивающихся методик системной интеграции результатов отдельных научных исследований. Например, в Великобритании до 50% всех используемых сегодня методов лечения заболеваний внутренних органов основаны на результатах рандомизированных контролируемых испытаний (РКИ), а также соответствующих мета-анализов. Сегодня мета-анализ - это «объединение результатов различных исследований, складывающееся из качественного компонента (например, использование таких заранее определенных критериев включения в анализ, как полнота данных, отсутствие явных недостатков в организации исследования и

т.д.) и количественного компонента (статистическая обработка имеющихся данных)». В то же время I. Chalmers и D.G. Altman в монографии «Систематические обзоры» характеризуют мета-анализ как «количественный систематический обзор литературы или количественный синтез первичных данных с целью получения суммарных статистических показателей».

Целью мета-анализа является оценка эффективности изучаемого вмешательства, а также выявление, изучение и объяснение неоднородности или гетерогенности в результатах исследований и подгруппах пациентов. Он должен представить точечные и интервальные (95% доверительный интервал) оценки обобщенного эффекта вмешательства.

Как указывалось выше, в мире ежегодно публикуется более 2,5 миллиона медицинских статей, не считая материалов многочисленных национальных и международных конференций, книг. Естественно, в этой ситуации велика потребность в анализе и синтезе имеющейся информации. Ее анализ по типу литературного обзора для журнала или диссертации носит чисто описательный и субъективный характер, хотя и является предпосылкой для проведения мета-анализа после актуализации некой проблемы. Главный недостаток такого подхода состоит в том, что он не использует строго научные и математические методики. Все это приводит к появлению так называемой β-ошибки (ошибка второго рода - ложное утверждение об отсутствии различий между эффективностью сравниваемых методов лечения, когда на самом деле они различны) из-за противоречивых результатов исследований и недостаточного числа пациентов в них. Примеров расхождения результатов описательного обзора литературы и ее метаанализа очень много (публикация вывода лауреата Нобелевской премии профессора Л. Полинга о снижении заболеваемости простудой в результате применения аскорбиновой кислоты, эффективность антиоксидантов в профилактике сердечно-сосудистой патологии, целесообразность профилактики нарушений ритма с использованием лидокаина в остром периоде инфаркта миокарда, возможность снижения риска сердечно-сосудистой патологии у женщин на фоне заместительной гормональной терапии). Ни один из этих выводов впоследствии не был подтвержден результатами соответствующих мета-анализов. В то же время кумулятивный мета-анализ 33 клинических исследований мог еще в 1973 г. (почти за 20 лет до широкого внедрения в практику внутривенного тромболизиса) сделать рутинной практику введения

стрептокиназы при остром инфаркте миокарда.

Однако существуют и противоположные примеры. В качестве одного из них можно привести дискуссию середины 1990-х годов прошлого века о целесообразности и безопасности применения антагонистов кальция при артериальной гипертензии. По данным двух мета-анализов было показано их негативное влияние на риск развития инфаркта миокарда, но последующие крупные исследования ALLHAT и ASCOT полностью опровергли эти опасения, также как и новый мета-анализ BPTLC.

В целом мета-анализ позволяет более точно, чем результаты отдельно взятого клинического исследования, определить категории больных, у которых применимы полученные результаты.

На основании результатов мета-анализа часто принимаются не только лечебно-диагностические, но и управленческие решения (например, развертывание специализированных инсультных отделений, снижающих риск смертности и тяжелой инвалидизации более чем на треть). Интересно, что ни в одном из более чем 10 рандомизированных клинических исследований преимущества специализированных отделений не были доказаны.

Постоянно обновляемые мета-анализы позволяют существенно сократить время между научным открытием и широким внедрением его результатов в практику здравоохранения. В качестве примера можно привести результаты мета-анализа по применению β-адреноблокаторов при артериальной гипертензии, которые существенно сузили показания для их назначения у этой категории пациентов.

Существует два основных подхода к выполнению мета-анализа: статистический ре-анализ отдельных исследований на основании первичных данных о включенных в них пациентах и альтернативный ему, базирующийся на обобщении результатов опубликованных исследований по конкретной теме.

Главными преимуществом мета-анализа является возможность увеличения статистической мощности исследования и достоверности оценки эффекта анализируемого вмешательства, относительно низкая стоимость и оперативность его проведения.

В соответствии с рекомендациями «The Cochrane Collaboration. Preparing, maintaining and disseminating systematic reviews of the effects of health care» (The Cochrane Collaboration, UK, 1995) для анализа качества выполненного мета-анализа необходимо проанализировать следующее.

Насколько специфична и четко определена его цель (см. во введении).

Цель проведения мета-анализа должна быть конкретной и оформлена в виде правильно сформулированного клинического вопроса. Это позволяет четко определить контингент и клинико-демографические характеристики популяции пациентов, к которым могут быть применены его результаты. Формулирование цели мета-анализа предопределяет стратегию отбора оригинальных исследований и выработки критериев включения соответствующих данных. Наиболее типичной целью мета-анализа является ответ на вопрос, приносит ли анализируемое вмешательства больше пользы, чем вреда по сравнению с другими методами, включая плацебо.

Насколько всеобъемлюща и четко описана тактика поиска соответствующих публикаций, не является ли она тенденциозной (см. в материалах и методах).

Прежде всего необходимо максимально снизить риск возникновения систематической ошибки из-за включения исследований только с положительным результатом.

Методология поиска публикаций по теме мета-анализа достаточно сложна и включает четыре основные этапа:

Поиск в максимально большем количестве электронных базах данных (типа MЕDLINE, Medscape. EMBASE, Science Citation Index), названиях и текстах публикаций по ключевыми словам;

Анализ библиографических ссылок в статьях и книгах по интересующей теме, которые могут содержать ссылки на публикации, пропущенные на первом этапе;

Запросы в фармацевтические компании, производящие препараты, эффективность которых оценивается в мета-анализе. Особое внимание нужно уделить получению неопубликованных результатов их собственных исследований так называемых Data on file;

Личные контакты с экспертами и ведущими специалистами в области предмета мета-анализа, которые позволят выявить ранее неизвестные исследования, получить разъяснения по достоинствам и недостаткам дизайна исследований, включаемых в мета-анализ.

Еще одно правило отбора исследований для включения в метаанализ: если с участием одной группы выполнено несколько исследо-

ваний на одной популяции больных, то в мета-анализе используются данные последнего.

Поиск и выявление всех относящихся к теме мета-анализа публикаций является синтезом трудоемкого и медленного ручного просмотра всех журналов и сборников, которые могут содержать относящиеся к мета-анализу публикации с более производительным компьютерным просмотром электронных библиографических баз данных. Однако даже такое сочетание выявляет около 65% от всех публикаций по проблеме мета-анализа. Существуют специальные способы оценки полноты выявления и включения в мета-анализ исследований, чтобы снизить вероятность публикационного смещения результатов из-за преимущественного опубликования неотрицательных результатов исследований. Для качественной оценки наличия этой систематической ошибки выполняют построение воронкообразной диаграммы рассеяния результатов отдельных исследований в координатах (величина эффекта, размер выборки). При полном выявлении исследований эта диаграмма имеет симметричный характер.

Описание и обоснованность критериев включения и исключения отдельных исследований для мета-анализа (см. в материалах и методах).

Определение критериев включения и исключения исследований из мета-анализа зависит от первоначального определения прогностически значимых исходов, типичных для исследуемой патологии.

Считается, что качество мета-анализа зависит от характеристик отобранных исследований:

Принципа отбора его участников (общая популяция или конкретная нозология);

Места проведения (университетская клиника, стационар общего типа или специализированная клиника, поликлиника);

Продолжительности (должна быть сопоставимой и достаточной для анализа влияния вмешательства на исходы);

Характеристики больных, включенных в исследование (сопоставимость клинико-демографических характеристик);

Диагностических критериев заболевания, являющегося предметом исследования в мета-анализе;

Дозы, частоты использования, путей введения, времени начала и продолжительности использования лекарственного препарата (или метода лечения);

Дополнительного лечения и наличия сопутствующих заболеваний у больных, включенных в исследование;

Отклонений от протокола исследования, изучавшихся клинических исходов и критериев их оценки (сопоставимость использованных диагностических методов);

Наличия в материалах исследования абсолютных величин, характеризующих включенных в него больных и адекватных для исследуемой патологии клинических исходов.

Количество включенных в исследование больных играет важную, но не решающую роль при их отборе для мета-анализа. Необходимое число пациентов зависит от распространенности исследуемой патологии и выбранных конечных точек.

В мета-анализ не включают исследования и публикации:

Не удовлетворяющие критериям включения;

В которых отсутствуют данные об изучаемых клинических исходах у всех больных;

Где вмешательство, эффективность которого планируется оценить в мета-анализе, не было определено заранее и детально описано в разделе «Методы»;

В которых приведены несопоставимые виды вмешательств (дозировка лекарственного препарата, частота и путь введения, сроки начала и продолжительности лечения);

Которые не дают четкого определения терминов «благоприятный» и «неблагоприятный» исход.

Наличие оценки качества отдельных исследований, включенных в метаанализ (см. в материалах и методах).

Оценка качества исследований проводится всеми авторами метаанализа. Объективизировать ее может оценка независимого эксперта и балльная система оценки качества.

Максимальные баллы получают исследования с четко определенными критериями исходов и участием большого числа пациентов. Большее количество баллов следует присваивать исследованиям, которые соответствуют рекомендациям «The Cochrane Collaboration. Preparing, maintaining and disseminating systematic reviews of the effects of health care», анализируемых в данной главе. Баллы по всем параметрам суммируют, делят на общий максимально возможный и умножают на 100%. Суммарная оценка методологического качества каждого ана-

лизируемого исследования может колебаться от 0 до 100%. Авторам любого мета-анализа необходимо заранее определить минимальное количество баллов, ниже которого методологическое качество исследования признается неудовлетворительным и недостаточным для его включения в мета-анализ.

Наличие описания методики извлечения данных из оригинальных исследований (публикаций).

Какие методы (Mantel-Haenszel для модели постоянных эффектов; DerSimonian и Laird для модели случайных эффектов или логистического регрессионного анализа, проводимого с учетом прогностических факторов для анализа данных обсервационных исследований) и программы статистической обработки полученных данных использованы, насколько они валидны и приемлемы для данного исследования (см. в материалах и методах).

Результаты мета-анализа могут быть представлены как в относительных (соотношение шансов, относительный риск, снижение относительного риска и других), так и в абсолютных (снижение абсолютного риска, число больных, которых нужно лечить определенным методом в течение определенного времени, чтобы достичь определенного благоприятного эффекта или предотвратить определенный неблагоприятный исход у одного больного и других) показателях. Как показывает опыт, абсолютные показатели более понятны практическим врачам.

Описание применяемых методов статистической обработки должно быть достаточным для воспроизведения данного мета-анализа или выполнения другого.

Наиболее достоверными считаются результаты мета-анализа, основанного на первичных данных о каждом включенном в оригинальное исследование больном, однако эта задача трудновыполнима из-за «закрытости» информации, а также материальных и временных затрат. Последние сопоставимы с проведением оригинального исследования. Но именно такой подход снижает вероятность ошибок, связанных с возможной неточностью совокупных данных оригинальных исследований, позволяет определить время до развития того или клинического исхода в зависимости от проводимого лечения, в том числе и отдельных подгруппах.

Существуют различные прикладные статистические программы для проведения мета-анализа. Одной из наиболее популярных явля-

ется программа ReviewManager (Cochrane Collaboration). Пакет содержит набор программных средств для проведения любого варианта мета-анализа. Выбор конкретного метода диктуется типом данных (дихотомические, непрерывные) и модели (с фиксированными, случайными эффектами).

Дихотомические данные - это результат оригинальных исследований (соотношение шансов, относительный риск, разница рисков в выборках), характеризующий эффективность вмешательства. Непрерывными данными обычно является диапазон (минимальная и максимальная величина) изучаемых параметров или нестандартизованная разница взвешенных средних в группах сравнения (при этом исходы должны оцениваться одинаковым способом). Если же они оценивались по-разному, необходима стандартизация разницы средних в сравниваемых группах, что негативно отразится на качестве анализа.

Для анализа дихотомических данных используются модели с фиксированными или случайными эффектами (метод DerSimonian and Laird).

В случае нулевой дисперсии между исследованиями используются методики Mantel-Haenszel, Peto и модель с фиксированными эффектами (предполагает, что изучаемое вмешательство во всех исследованиях имеет одну эффективность, а выявляемые различия между различными исследованиями обусловлены только дисперсией внутри исследований). Модель случайных эффектов, напротив, предполагает, что эффективность изучаемого вмешательства в разных исследованиях может быть различной, учитывает дисперсию не только внутри одного исследования, но и между ними, использует методику DerSimonian и Laird.

К вариантам мета-анализа относятся многомерный мета-анализ, байесовский мета-анализ, кумулятивный мета-анализ, мета-анализ выживаемости.

Байесовский мета-анализ (c onfidence profile method) применяется при малом числе анализируемых исследований и позволяет рассчитать априорные вероятности эффективности вмешательства с учетом косвенных данных.

Регрессионный мета-анализ (логистическая регрессия, метод наименьших квадратов, модель Кокса) используется при существенной гетерогенности результатов исследований. Он позволяет построить модель изменения анализируемого показателя в зависимости

от нескольких характеристик исследования (размера выборки, дозы препарата, способа его введения, клинико-демографических характеристик пациентов). Результаты регрессионного мета-анализа обычно представляют в виде регрессии и линии регрессии с коэффициентом наклона и указанием доверительного интервала.

В некоторых случаях мета-анализ может использоваться не только для обобщения результатов контролируемых, но и когортных исследований. Однако при этом вероятность появления систематической ошибки существенно возрастает.

Особый вид мета-анализа - обобщение оценок информативности диагностических методов, полученных в разных исследованиях. Цель такого мета-анализа - построение характеристической ROC-кривой взаимной зависимости чувствительности и специфичности с использованием взвешенной линейной регрессии.

Для мета-анализа обязательным является проведение теста на статистическую гетерогенность (Хи-квадрат) включенных в анализ исследований. При обнаружении существенных различий между исследованиями выводы мета-анализа можно поставить под сомнение. Для оценки гетерогенности используют критерий Хи-квадрат с нулевой гипотезой о равном эффекте во всех исследованиях и с уровнем значимости 0,1 для повышения чувствительности теста.

Источником гетерогенности результатов разных исследований считается дисперсия внутри (случайные отклонения результатов разных исследований от единого истинного фиксированного значения эффекта) и между исследованиями (различия изучаемых выборок по клинико-демографическим показателям или характеру вмешательств, приводящая к различию в эффективности вмешательства).

Если дисперсия между исследованиями полагается близкой к нулю, то каждому из исследований приписывается вес, величина которого обратно пропорциональна дисперсии результата данного исследования. На величину дисперсии прямое влияние оказывает величина выборки.

Как суммировались данные отдельных исследований, и применялся ли кумулятивной подход с представлением промежуточных результатов (см. в материалах и методах).

Исследования, включенные в мета-анализ, должны быть максимально однородными по виду вмешательства, клинико-демографическим характеристикам популяции пациентов, изучаемым исходам,

дизайну (например, недопустимо объединение результатов открытых и слепых исследований).

Использование кумулятивного подхода с промежуточными результатами позволяет оценить вклад каждого исследования. При выполнении кумулятивного мета-анализа исследования добавляют по одному в заранее оговоренном определенном порядке (например, в соответствии с датой публикации или фамилией первого автора и т.д.). Кумулятивный мета-анализ является вариантом байесовского мета-анализа с пошаговым включением результатов исследований и позволяет рассчитывать априорные и апостериорные вероятности по мере включения исследований в анализ.

Каково общее число исследований и пациентов, включенных в мета-анализ, наличие анализа в подгруппах (см. в результатах).

Анализ эффективности вмешательства в подгруппах является признаком качественного мета-анализа. Регламентированных нормативов о необходимом числе исследований для мета-анализа нет. Важно, чтобы исследований оказалось достаточно для получения статистически достоверной информации, и они отражали всю палитру эффективности вмешательства.

Приведены ли доверительные интервалы показателей эффективности вмешательства и как проводилась стандартизация факторов, влияющих на конечный результат (см. в результатах).

Отсутствие доверительных интервалов позволяет скептически относится к результатам мета-анализа в целом.

Вытекают ли приведенные заключения из представленных в мета-анализе данных и указаны ли ограничения для применения его результатов (см. в обсуждении результатов).

Результаты мета-анализа обычно представляются графически (точечные и интервальные оценки величин эффектов каждого из включенных исследований и обобщенного результата мета-анализа) и в виде таблиц.

Надежность выводов мета-анализа проверяется анализом чувствительности, который может проводиться с использованием различных методик:

Включение и исключение из мета-анализа исследований, выполненных на низком методологическом уровне;

Изменение параметров данных, отбираемых из каждого включенного исследования;

Исключение из мета-анализа наиболее крупных исследований и пересчет результатов с последующей оценкой гетерогенности результатов по критерию Хи-квадрат.

Одним из способов проведения последнего является сопоставление результатов, получаемых в двух моделях:- с фиксированными и случайными эффектами. Во второй модели результаты обычно становятся менее статистически значимыми. Если величина эффекта того или иного анализируемого вмешательства при анализе чувствительности существенно не изменяется, то выводы первичного метаанализа обоснованы.

Отсутствие данных о первоисточниках ставит под сомнение качество мета-анализа.

Приведен ли структурированный реферат мета-анализа.

Структурированный реферат позволяет существенно экономить время практического врача.

Немаловажно, в каком журнале (индекс цитируемости) были опубликованы результаты анализа, есть ли опыт в его проведении у авторов (наличие публикации с мета-анализом).

Проведение мета-анализа - это коллективное творчество. Уже на этапе отбора исследований необходимо участие как минимум двух исследователей, чтобы максимально расширить и объективизировать поиск.

Результаты мета-анализа имеют важное научное и практическое значение:

Являются источником объективной информации о современных методах диагностики, профилактики и лечения;

Служат основой при разработке формулярной системы, стандартов диагностики и лечения и научно-обоснованных рекомендаций;

Стимулируют проведение конкретных клинических исследований, так как формируют научную гипотезу и позволяют более точно определить объем планируемой выборки пациентов;

Позволяют оценить не только эффективность, но и безопасность вмешательств.

Мета-анализ является достаточно новым подходом к обобщению данных клинических исследований, однако не может заменить их. При наличии противоречий между данными мета-анализа и результатами клинических исследований принятие решения должно быть отложено до появления данных новых исследований и мета-анализа, поскольку его некорректное проведение ведет к ошибочным результатам. До настоящего времени нет однозначного ответа на вопрос о том, что важнее для клинической практики результаты мета-анализа или мега-трайлов.

Клинические исследования

Некоторые клинические исследования являются не только основой для систематизированных обзоров и мета-анализа, но и сами являются важным источником данных для доказательной медицины.

Главным отличием научных исследований является стремление получить максимально объективную информацию, для чего необходимо устранить влияние случайных (посторонних) факторов, учесть особенности обследуемых и сформировать исследуемые группы пациентов с минимальными различиями по клинико-демографическим показателям между ними. Для решения конкретной клинической задачи используют совершенно определенный тип исследований, который переопределяет особенности его подготовки и проведения. Именно правильно выбранная структура исследования определяет, насколько доказательными и убедительными будут его выводы.

Для решения этих задач существуют различные по дизайну и структуре исследования.

Поперечные (одномоментные) исследования:

Описания симптомов и проявлений болезни, диагноза/стадии болезни, вариаций, тяжести болезни;

Аналитические (эксплораторные);

Наблюдательные;

Описания случаев.

Продольные исследования:

Проспективные (наблюдательные, естественного развития, прогноза, причинных факторов и заболеваемости, неконтролируемого вмешательства, с преднамеренным вмешательством, нормальных вариаций, тяжести болезни, параллельные, последовательные, перекрестные, с самоконтролем, с внешним контролем);

Ретроспективные исследования типа «случай-контроль» (с преднамеренным вмешательством, наблюдательные, псевдопроспективные).

В поперечных, или одномоментных (cross-sectional), исследованиях интересующие параметры оцениваются однократно. Они позволяют оценить связь признаков, но не динамику развития анализируемого состояния. Это самые ненадежные с точки зрения их доказательности исследования, так как простое наблюдение за совокупностью данных может легко привести к ошибке.

В продольных (longitudinal, лонгитудинальными) исследованиях выделяют группы лиц, за которыми наблюдают в течение некого промежутка времени и обязательно хотя бы раз повторно оценивают у них интересующие (мониторируемые) показатели. Длительность наблюдения может быть любой и определяется здравым смыслом и реальной возможностью изменения показателя (например, при хронической сердечной недостаточности изменение фракции выброса возможно уже через несколько дней лечения, а уменьшение гипертрофии левого желудочка не ранее чем через три месяца).

Отслеживание изменения показателей в специально сформированной группе осуществляется в проспективных (prospective) исследованиях. В популяционных проспективных (когортных) исследованиях наблюдение ведется за большой по численности выборкой пациентов из популяции. В них отслеживается появление новых заболеваний, осложнения при уже имеющейся патологии (исследования естественного развития заболеваний.

Проспективные исследования являются наиболее доказательными, (но дорогостоящими), так как в них имеется четкое определение наблюдаемой группы, патологии, критериев диагностики, методов обследования и мониторируемых показателей до начала исследования, что существенно уменьшает риск систематической ошибки.

Преднамеренное вмешательство в естественное течение заболевания в проспективных исследованиях применяется для оценки

эффективности и безопасности при изучении средств диагностики, профилактики и лечения.

При ретроспективном продольном исследовании проводится анализ имеющихся данных в первичной медицинской документации. Недостатком таких исследований является необходимость обнаружения практически всех пациентов с интересующей патологией или вмешательством за большой промежуток времени, невозможность формирования однородных групп, разная полнота обследования и использование различных диагностических приборов. Однако в этих исследованиях подкупает доступность первичного материала, отсутствие биоэтических проблем, оперативность и низкая стоимость.

Вариантом ретроспективного продольного исследования являются исследования типа «случай-контроль» (ИСК, case-control studies) в котором сопоставляют частоту встречаемости некого анализируемого фактора в исследуемой и контрольной группах. Если этот встречается реже или чаще, то можно предположить, что он связан с патологией. Считается, что этот вариант исследований является более современной формой научного осмысления обычной медицинской практики, его методология постоянно совершенствуется. Помимо простоты, малозатратности и несмотря на достаточно низкую степень доказательности, этот метод исследований является единственно приемлемым для редких заболеваний.

Литература

1. Antman E.M., Lau J., Kupelnick B., Mosteller F., Chalmers I. A comparison of results of meta-analysis of randomised control trials and recommendations of clinical experts. Treatment for myocardial infarction. JAMA 1992; 268: 240-8.

2. Bobbio M., Demichelis B., Giustetto G. Completeness of reporting trial results: effect on physicians" willingness to presciibe. Lancet 1994; 343:

3. Chalmers I., Altman D.G. Systematic reviews. London: BMJ Publishing Group; 1995: 1.

4. Chatellier G., Zapletal E., Lemaitre D., Menard J., Degoulet P. The number needed to treat: a clinically useful nomogram in its proper context. BMJ 1996;

5. Cook R.J., Sackett D.L. The number needed to treat: a clinically useful measure of treatment effect. BMJ 1995; 310: 452-4.

6. DerSimonian R., Laird N. Meta-analysis in clinical trials. Control Clin Trials 1986; 7: 177-88.

7. Dickersin K., Hewitt P., Mutch L., Chalmers I., Chalmers T.C. Perusing the literature: comparison of MEDLINE searching with a perinatal trials

database. Controlled Clinical Trials 1985; 6: 306-17.

8. Ellis J., Mulligan I., and Sacket D.L. Inpatient general medicine is

evidence based. Lancet 1995; 346: 407-10.

9. Fahey T., GriffithsS., Peters T.J. Evidence based purchasing; understanding results of clinical trials and systematic reviews. BMJ 1995; 311: 1056-60.

10. Last J..M. A dictionary of epidemiology. New York: Oxford University

Press; 1988: 81.

11. Lau J., Ioannidis J.P.A., Schmid C.H. Quantitative synthesis in systematic

reviews. Ann Intern Med 1997; 127:820-826.

12. Laupacis A., Sackett D.L., Roberts R.S. An assessment of clinically useful measures of the consequences of treatment. N Engl J Med 1988; 318:

13. Lubsen J. Mega-trials: is meta-analysis an alternative? Eur J Clin

Pharm 1996; 49: 29-33.

14. Mantel N., Haenszel W. Statistical aspects of the analysis of data from retrospective studies of disease. J Natl Cancer Inst 1959; 22: 719-48.

15. McQuay J., Moore R. A. Using numerical results from systematic reviews in clinical practice. Ann Intern Med 1997; 126: 712-20.

16. Mohiuddin A.A., Bath F.J, Bath P.M.W. Theophylline, aminophylline, caffeine and analogues, in acute ischaemic stroke. (Cochrane Review). In: The Cochrane Library. Oxford, Updated Software; 1998 Issue 2: Updated quarterly.

17. Naylor C.D., Chen E., Strauss B. Measured enthusiasm; does the method of reporting trial results alter perceptions of therapeutic effectiveness? Ann

Intern Med 1992; 117: 916-21.

18. Sackett D., Richardson W.S., Rosenberg W., Haynes B. Evidence Based Medicine. London: Churchill Livingstone; 1996.

19. Sackett D.L., Decks J.J., Altman D.G. Down with odds ratios! Evidence-

Based Medicine 1996; 1: 164-6.

20. Sinclair J.C., Bracken M.B. Clinically useful measures of effect in binary analyses of randomized trials. J Clin Epidemiol 1994; 47: 881-9.

21. The Cochrane Collaboration Handbook Version 3.0.2, 1997.

ПРИЛОЖЕНИЕ 1

Oxford Centre for Evidence-based Medicine Levels of Evidence

Существует несколько определений доказательной медицины:

  • Это новая технология сбора, анализа, синтеза и использования медицинской информации, позволяющей принимать оптимальные клинические решения.
  • Это сознательное, четкое и беспристрастное использование лучших из имеющихся доказанных сведений для принятия решений о помощи конкретным больным.
  • Это усиление традиционных навыков клинициста в диагностике, лечении, профилактике и других областях путем систематического формулирования вопросов и применения математических оценок вероятности и риска.

Следует сразу сказать, что термины "отсутствие доказательств", "не доказано" или "имеется недостаточно доказательств" не равнозначны терминам "доказано отсутствие эффекта" или "доказано отсутствие преимуществ". Формулировка "не доказано" может свидетельствовать о недостаточной изученности проблемы и целесообразности организации более крупных исследований или использования других методик сбора информации и проведения статистического анализа. В то же время нельзя забывать, что обратная формулировка "доказано" может свидетельствовать о статистических манипуляциях в интересах фирм-производителей.

Доказательная медицина основана на методах проведения исследований, использующихся в эпидемиологии.

J.М. Last, формулируя современное определение эпидемиологии, акцентирует внимание на отдельных словах в данном определении. Так, под "изучением" следует понимать проведение обсервационных (наблюдательных) и экспериментальных исследований, проверку гипотез и анализ результатов.
"Распространение болезней и факторов..." подразумевает изучение частоты случаев болезни, смерти, факторов риска, выполнения больным рекомендаций врача, организации медицинской помощи и ее эффективности.
"Целевая группа" - группа с точным числом людей и определенными возрастно-половыми, социальными и другими признаками.

В настоящее время современное понятие эпидемиологии обозначается термином "клиническая эпидемиология". Этот термин произошел от названий двух "родительских" дисциплин: клинической медицины и эпидемиологии.
"Клиническая", потому что стремится ответить на клинические вопросы и рекомендовать клинические решения, основанные на самых надежных фактах.
"Эпидемиология", поскольку многие из ее методов разработаны эпидемиологами, и помощь конкретному больному здесь рассматривается в контексте большой популяции, к которой принадлежит больной.

Клиническая эпидемиология - наука, позволяющая осуществлять прогнозирование для каждого конкретного пациента на основании изучения клинического течения болезни в аналогичных случаях с использованием строгих научных методов изучения групп больных для обеспечения точности прогнозов.

Цель клинической эпидемиологии – разработка и применение таких методов клинического наблюдения, которые дают возможность делать справедливые заключения с гарантированной оценкой влияния систематических и случайных ошибок . В этом заключается важнейший подход к получению информации, необходимой врачам для принятия правильных решений.

Основополагающий метод в эпидемиологии - сравнение. Оно проводится путем математических вычислений таких величин, как отношение шансов, отношение рисков развития изучаемых событий.

Однако, прежде чем производить сравнение, следует понять, что с чем мы будем сравнивать (апельсины с апельсинами, а не апельсины с пароходами), т.е. сформулировать задачу (проблему), предшествующую началу любого исследования. Чаще всего проблема формулируется в виде вопроса, на который необходимо найти ответ.

Например, гипотетически, нам (то есть практикующему врачу) представлено лекарственное средство, которое, по уверению химиков его синтезировавших, должно лечить пятку. Фармакологическая фирма, поставившая производство препарата на поток, также уверяет в инструкции, что заявленный эффект действительно имеет место быть.

Что может сделать практикующий врач при принятии решения о применении препарата?

Ответ "поверить химикам/фармакологам на слово" исключаем как тривиальный и чреватый последствиями. Наша задача - доступными практикующему врачу средствами проверить заявленное действие препарата на пятку (подтвредить или опровергнуть и т.п.). Разумеется, мы не будем испытывать препарат на лабораторных мышах, добровольцах, и пр. Предполагается, что перед "запуском в серию" кто-то это уже более-менее добросовестно сделал.

Сообразно задаче мы начнем формирование массива данных, служащих для ее решения:

  1. Вначале произведем поиск информации.
  2. Далее из полученного массива данных исключим нерелевантные статьи (нерелевантные - несоответствующие нашим интересам).
  3. Оценим методологическое качество найденных исследований (насколько корректна методика сбора информации в исследовании, адекватны ли использованные методы статистического анализа и т. д.) и ранжируем в полученном массиве информацию по степени достоверности доказательств на основании существующих соглашений медицинской статистики и критериев достоверности, предложенных экспертами доказательной медицины.

    Согласно мнению Шведского совета по методологии оценки в здравоохранении, достоверность доказательств из различных источников не одинакова, и зависит от типа проведенного исследования. Тип проведенного исследования согласно международному соглашению Ванкуверской группы редакторов биомедицинских журналов (http://www.icmje.org/) обязательно должен быть тщательно описан; также должны быть указаны методы статистической обработки результатов клинических испытаний, продекларированы конфликты интересов, вклад автора в научный результат и возможность запроса у автора первичной информации по результатам исследования.

    Для обеспечения доказательности получаемых в исследованиях результатов должна быть выбрана "доказательная", т. е. адекватная задачам, методика исследования (дизайн исследования и методы статистического анализа) (табл. 1), которую мы будем учитывать при выборке информации из массива данных.

    Таблица 1. Выбор методики исследования в зависимости от цели исследования
    (описание терминов см Глоссарий методологических терминов)

    Задачи исследования Дизайн исследования Методы статистического анализа
    Оценка распространенности заболевания Одномоментное исследование всей группы (популяции) с использованием строгих критериев распознавания болезни Оценка доли, вычисление относительных показателей
    Оценка заболеваемости Когортное исследование Оценка доли, вычисление динамических рядов, относительных показателей
    Оценка факторов риска возникновения заболевания Когортные исследования. Исследования "случай - контроль" Корреляционный, регрессионный анализ, анализ выживаемости, оценка рисков, отношение шансов
    Оценка влияния на людей факторов окружающей среды, изучение причинно-следственных отношений в популяции Экологические исследования популяции Корреляционный, регрессионный анализ, анализ выживаемости, оценка рисков (добавочный риск, относительный риск, добавочный популяционный риск, добавочная доля популяционного риска), отношение шансов
    Привлечение внимания к необычному течению заболевания, результату лечения Описание случая, серии случаев Нет
    Описание результатов текущей клинической практики Обсервационное ("до и после") Среднее, стандартное отклонение, парный критерий Стьюдента (количественные данные).
    Критерий Мак-Нимара (качественные данные)
    Испытание нового метода лечения Клиническое испытание I фазы ("до и после") Среднее, стандартное отклонение, парный критерий Стьюдента.
    Критерий Мак-Нимара
    Сравнение двух методов лечения текущей клинической практики Контролируемое проспективное. Рандомизированное (открытое, слепое, двойное слепое). Контролируемое ретроспективное. Контролируемое проспективное + ретроспективное (смешанный дизайн) Критерий Стьюдента (количественные данные).
    Критерий χ 2 или z (качественные признаки).
    Критерий Каплана-Маерса (выживаемость)
    Сравнение нового и традиционного метода лечения Клинические испытания II-IV фаз (контролируемое проспективное или рандомизированное) Критерий Стьюдента.
    Критерий χ 2 .
    Критерий Каплана-Маерса

    Каждый тип исследований характеризуется определенными правилами сбора и анализа информации. Если эти правила соблюдены, любой вид исследования можно назвать качественным, независимо от того, будут ли они подтверждать или опровергать выдвинутую гипотезу. Более подробно статистические методы анализа, используемые для получения доказательств, представлены в книгах Петри А., Сэбина К. "Наглядная статистика в медицине" (М., 2003), Гланца С. "Медико-биологическая статистика" (М., 1999).

    Степень "доказательности" информации ранжируется следующим образом (по нисходящей):

    1. Рандомизированное контролируемое клиническое испытание;
    2. Нерандомизированное клиническое испытание с одновременным контролем;
    3. Нерандомизированное клиническое испытание с историческим контролем;
    4. Когортное исследование;
    5. "Случай-контроль";
    6. Перекрестное клиническое испытание;
    7. Результаты наблюдений.

    Результаты исследований, выполненных с использованием упрощенных методик или методик, несоответствующих задачам исследования, при некорректно выбранных критериях оценки могут привести к ложным выводам.

    Использование сложных методов оценки уменьшает вероятность ошибочного результата, но приводит к росту так называемых административных расходов (на сбор данных, создание баз данных, проведение методов статистического анализа).

    Так, например, в исследовании Е.Н. Фуфаева (2003) выявлено, что среди пациентов, имевших группу инвалидности до операции, сохранение инвалидности зарегистрировано у всех 100%. Среди пациентов, не имевших до кардиохирургической операции группы инвалидности, в 44% случаев после операции была определена группа инвалидности. На основании такого результата можно сделать ложные выводы о том, что кардиохирургические вмешательства ухудшают качество жизни пациентов. Однако при опросе оказалось, что удовлетворены результатами лечения 70,5% пациентов и 79,4% врачей, наблюдавших этих пациентов. Оформление же группы инвалидности обусловлено социальными причинами (льготы на получение лекарственных препаратов, оплату жилья и т. д.).

    Значимость социальной защиты в вопросах трудоспособности подтверждают результаты исследования, проведенного в США и не выявившего четкой взаимосвязи между клиническим состоянием (соматическим заболеванием) пациента и трудоспособностью.

    С целью сравнения показателей занятости после ТЛБА и АКШ было обследовано 409 пациентов (Hlatky М.А., 1998), из них перенесли ТЛБА 192 человек и 217 - АКШ. Было выявлено, что пациенты, которые перенесли ТЛБА, возвращались к работе на шесть недель быстрее пациентов, перенесших АКШ. Однако в долгосрочной перспективе влияние такого фактора, как вид операции, оказалось незначительным. В течение последующих четырех лет 157 пациентов (82%) из группы ТЛБА и 177 пациентов (82%) из группы АКШ вернулись к рабочей деятельности. Наиболее сильное влияние на показатель долгосрочной занятости оказали такие факторы, как возраст пациента к моменту начала исследования и степень покрытия медицинской страховкой оплаты медицинской помощи.

    Таким образом, медицинские факторы оказывали меньшее влияние на показатели занятости в долгосрочном плане, чем демографические и социальные. Полученные российскими и американскими исследователями результаты свидетельствуют о том, что часть традиционных и, казалось бы, простых методов оценки результатов лечения являются неприемлемыми для выбора приоритетов и принятия решений.

  4. После этого произведём систематический обзор - мета-анализ , оценим уровень достоверности результатов, полученных в ходе исследований и сравним: есть ли преимущества изучаемых методов диагностики, лечения, методов оплаты услуг, целевых программ над сравниваемыми или использовавшимися ранее.

    Если мы будем включать информацию с низкой степенью достоверности, то этот момент в нашем исследовании необходимо обязательно оговаривать отдельно.

    Центр доказательной медицины в Оксфорде, предлагает следующие критерии достоверности медицинской информации:

    • Высокая достоверность – информация основана на результатах нескольких независимых клинических испытаний с совпадением результатов, обобщенных в систематических обзорах.
    • Умеренная достоверность – информация основана на результатах по меньшей мере нескольких независимых, близких по целям клинических испытаний.
    • Ограниченная достоверность – информация основана на результатах одного клинического испытания.
    • Строгие научные доказательства отсутствуют (клинические испытания не проводились) – некое утверждение основано на мнении экспертов.
  5. И в заключение, оценив возможности использования результатов исследования в реальной практике, опубликуем результат:

    Это конечно шутка, но в каждой шутке есть доля правды.

    Обычно публикуются исследования, которые принесли положительные результаты, например, представляющие в выгодном свете новое лечение. Если рабочая гипотеза (задача, проблема) не подтверждается или не находит положительного решения, то исследователь, как правило, не публикует данные исследования. Это может быть опасным. Так, в 80-х годах ХХ века группа авторов исследовала антиаритмическое лекарственное средство. В группе пациентов, которые его получали, обнаружилась высокая летальность. Авторы расценили это как случайность, и, поскольку разработка этого антиаритмического лекарственного средства была прекращена, то публиковать материалы не стали. Позднее подобное антиаритмическое лекарственное средство - флекаинид - стало причиной гибели множества людей 1-2 .
    ________________________

    1. N Engl J Med. 1989 Aug 10;321(6):406-12, Preliminary report: effect of encainide and flecainide on mortality in a randomized trial of arrhythmia suppression after myocardial infarction. The Cardiac Arrhythmia Suppression Trial (CAST) Investigators.

Вышеприведенный алгоритм поиска и оценки доказательства был предложен D.L.Sackett с соавт (1997). Он может быть использован при любом исследовании, даже при оценке влияния фаз Луны на рост телеграфных столбов.

Часто оригинальные статьи о выполненных исследованиях могут быть более реальным источником ответа на узкие вопросы чем обзорные статьи и лекции. Считается что чтение журналов и статей необходимо ограничить теми которые действительно имеют отношение к повседневной практике или текущим научным исследованиям. Значительная часть публикаций представляющих результаты исследования нового вмешательства содержит непригодную для использования информацию. Встреча со знакомой и известной фамилией и уважаемым учреждением позволяют заранее...


Поделитесь работой в социальных сетях

Если эта работа Вам не подошла внизу страницы есть список похожих работ. Так же Вы можете воспользоваться кнопкой поиск


Другие похожие работы, которые могут вас заинтересовать.вшм>

20915. Анализ рынка медицинских услуг 3.1 MB
Анализ теоретической информации о практике создания и применения ГЧП, характеристике и пользе данной модели для общества; анализ теоретического материала концепции бизнес-моделирования; определение экономических характеристик медицинской услуги; проведение анализа отрасли;
4601. АНАЛИЗ ДЕЯТЕЛЬНОСТИ ПОСТОВЫХ МЕДИЦИНСКИХ СЕСТЕР ТЕРАПЕВТИЧЕСКОГО ОТДЕЛЕНИЯ 60.63 KB
Практическая актуальность связана с тем, что дипломная работа может послужить автоматизации работы постовой сестры по ведению документации по учету медикаментов и движения больных; выдаче медицинских препаратов больному; формированию и распечатыванию направлений на исследования каждому пациенту; ведению температурного листа и т.д.
11969. Анализ экономической эффективности использования медицинских информационных систем 16.93 KB
Разработана модель и описаны алгоритмы анализа экономической эффективности медицинских информационных систем МИС. Разработан макет программного средства ПС анализа экономической эффективности применения МИС в лечебнопрофилактическом учреждении Программное средство анализа экономической эффективности использования медицинских информационных систем. Эксплуатационным назначением ПС является его использование экономистомэкспертом и руководителем ЛПУ при анализе экономической составляющей деятельности лечебнопрофилактического учреждения а...
18273. Анализ правового статуса Президента Республике Казахстан с позиций общепринятых критериев правового государства и принципа разделения властей 73.64 KB
Суть подхода Президента состояла в том что страна должна развиваться естественным образом эволюционно. Президентское правление - предусмотренное Конституцией государства это прекращение деятельности институтов самоуправления определенного регионального административного образования и осуществление управления последним посредством уполномоченных назначаемых главой государства - президентом и подотчетными ему лицами; предусмотренное Конституцией наделение главы государства - президента чрезвычайными полномочиями в масштабе всего...
13186. Проектирование информационной системы учета научных публикаций в среде Adobe Dreamweaver 2.29 MB
Автоматизация для любых организаций производится при помощи проектирования и последующего создания и развертывания единой корпоративной информационной системы – системы обработки информации также включающей в себя и соответствующие организационные ресурсы человеческие технические финансовые и т. Такая ситуация получила название лоскутной автоматизации и является довольно типичной для многих предприятий. Так как информационные системы предназначены для сбора хранения и обработки информации в основе любой из них лежит среда хранения и...
15989. Применение нанотехнологий в отраслях медицины 80.04 KB
Из истории следует что человечество всегда стремилось к прогрессу и с древних времён искало способы лечить болезни и продлевать жизнь. Можно сказать что развитие нанотехнологий в XXI веке изменит жизнь человечества больше чем освоение письменности паровой машины или электричества. Швейцарский физик Альберт Эйнштейн опубликовал работу в которой доказывал что размер молекулы сахара составляет примерно 1 нанометр. Американский футуролог Эрк Дрекслер пионер молекулярной нанотехнологии опубликовал...
6178. ГИГИЕНА – ОСНОВНАЯ ПРОФИЛАКТИЧЕСКАЯ ДИСЦИПЛИНА МЕДИЦИНЫ 409.78 KB
Термин «гигиена» происходит от греческого слова хигиейнос, что означает «приносящий здоровье» (Слайд №1). Согласно древнегреческой мифологии, у бога врачевания Асклепия (в древнеримских мифах – Эскулап) была дочь Гигиейя, помогавшая отцу в его делах.
5069. Роль правовых идей Авиценны в развитии медицины 31.86 KB
Ибн-Сина выступал за идеальное государство население которого должно состоять из правителей производителей и войска и каждый должен заниматься полезной работой. Особенно велики заслуги...
17864. Тенденции и Проблемы развития системы и рынка страховой медицины в США 75.24 KB
Понятие и классификация медицинского страхования: обязательное и добровольное медицинское страхование. Системы страхования здоровья в зарубежных странах. Анализ рынка медицинского страхования в США. Характеристика и особенности рынка медицинского страхования в США.
20590. Собственный капитал коммерческого банка с позиций его формирования 326.53 KB
Особую актуальность в проблеме управления собственным капиталом банка и вопросам его регулирования придает Базельский комитет по надзору который предпринял попытку коренного изменения системы оценки достаточности собственного капитала банка. Несмотря на незначительный удельный вес в совокупных пассивах банков собственный капитал остается основой надежности и устойчивости банка фундаментом деятельности банка и подушкой его безопасности. В последнее время вопросы банковского дела связанные с собственным капиталом банка привлекают особо...

Проблемы здоровья и экологии

12. American Society of Echocardiography minimum standards for the cardiac sonographer: a position paper / S. M. Bierig // J Am Soc Echocardiogr. - 2006. - Vol. 19. - P. 471-474.

13. Antihypertensive drug therapy for mild to moderate hypertension during pregnancy / E. Abalos // The Cochrane Library Syst. Rev. - 2001. - Issue 4.

14. Antihypertensive drugs in pregnancy and fetal growth: evidence for «pharmacological programming» in the first trimester? / H. Bayliss // Hypertens Pregnancy. - 2002. - Vol. 21. - P. 161-174.

15. Antihypertensive therapy in the management of hypertension in pregnancy - a clinical double-blind study of pindolot / G. Bott-Kanner G. // Clin Exp Hypertension Pregnancy. - 1992. - Vol. 11. - P. 207-220.

16. Atenolol and fetal growth in pregnancies complicated by hypertension / C. Lydakis // Am. J. Hypertens. - 1999. - № 12. - P. 541-547.

17. Australasian Society for the Study of Hypertension in Pregnancy: The detection, investigation and management of hypertension in pregnancy: full consensus statement / M. A. Brown // Am. J. Gynecol. - 2000. - Vol. 40. - P. 139-155.

18. Butters, L. Atenolol in essential hypertension during pregnancy / L. Butters, S. Kennedy, P. C. Rubin // Br. Med. J. - 1990. - Vol. 301. - P. 587-589.

19. Collins, R. Pharmacological prevention and treatment of hypertensive disorders in pregnancy / R. Collins, H.C. S. Wallenburg // Effective Care in Pregnancy and Childbirth / eds. I. Chalmers, M Enkin, M.J.N.C. Keirse. - Oxford: Oxford University Press, 1989. - P. 512-533.

20. Effect of atenolol on birthweight / G. Y. Lip // Am. J. Cardiol. - 1997. - Vol. 79. - P. 1436-1438.

21. Effects of methyldopa on uteroplacental and fetal hemodynamics in pregnancy-induced hypertension / S. Montan // Am. J. Obstet. Gynecol. - 1993. - Vol. 168. - P. 152-156.

22. Fall in mean arterial pressure and fetal growth restriction in pregnancy hypertension: a meta-analysis / P. von Dadelszen // Lancet. - 2000. - Vol. 355. - P. 87-92.

23. Gallery, E.D.M. Antihypertensive treatment in pregnancy: analysis of different responses to oxprenolol and methyldopa /

E.D.M. Gallery, M. Ross, A. Z. Gyory // Br. Med. J. - 1985. - Vol. 291. - P. 563-566.

24. Gluckman, P. D. Maternal constraint of fetal growth and its consequences / P. D. Gluckman, M. A. Hanson // Semin Fetal Neonatal Med. - 2004. - Vol. 9, № 5. - P. 419-425.

25. Guidelines Committee. 2003 European Society of Hypertension - European Society of Cardiology guidelines for the management of arterial hypertension // J. Hypertens. - 2003. - Vol. 21, № 6. - P. 1011-1053.

26. Magee, L. A. Fortnightly review: management of hypertension in pregnancy / L. A. Magee, M. P. Ornstein, P. von Dadelszen // BMJ. - 1999. - Vol. 318, Issue 7194. - P. 1332-1336.

27. Magee, L. A. Oral beta-blockers for mild to moderate hypertension during pregnancy (Cochrane Review) / L. A. Magee, L. Duley // Cochrane Database Syst. Rev. - 2002. - Issue 1.

28. Preeclampsia - a state of sympathetic overactivity / H. P. Schobel // N. Engl. J. Med. - 1996. - Vol. 335. - P. 1480-1485.

29. Prevention of preeclampsia: a randomized trial of atenolol in hyperdynamic patients before onset of hypertension / T. R. Easterling // Obstet. Gynecol. - 1999. - Vol. 93. - P. 725-733.

30. Report of the National High Blood Pressure Education Program Working Group on High Blood Pressure in Pregnancy / R. W. Gifford // Am. J. Obstet. Gynecol. - 2000. - Vol. 183, № 1. - P. 1-22.

31. The Task Force for the Management of Arterial Hypertension of the European Society of Hypertension and of the European Society of Cardiology / G. Mancia // Eur. Heart J. - 2007. - Vol. 28. - P. 1462-1536.

32. The Task Force on the Management of Cardiovascular Diseases During Pregnancy on the European Society of Cardiology. Expert consensus document on management of cardiovascular diseases during pregnancy // Eur. Heart. J. - 2003. - Vol. 24. - P. 761-781.

33. Use of antihypertensive medications in pregnancy and the risk of adverse perinatal outcomes: McMaster outcome study of hypertension in pregnancy 2 (MOS HIP 2) / J.G. Ray // BMC Pregnancy Childbirth. - 2001. - № 1. - P.6.

34. World Health Organization - International Society of Hypertension 1999 Guidelines for the Management of Hypertension // High Blood Press. - 1999. - Vol. 8. - P. 1^3.

Поступила 29.10.2008

ИСПОЛЬЗОВАНИЕ ДАННЫХ ДОКАЗАТЕЛЬНОЙ МЕДИЦИНЫ В КЛИНИЧЕСКОЙ ПРАКТИКЕ (сообщение 3 - ДИАГНОСТИЧЕСКИЕ ИССЛЕДОВАНИЯ)

А. А. Литвин2, А. Л. Калинин1, Н. М. Тризна3

1Гомельский государственный медицинский университет 2Гомельская областная клиническая больница 3Белорусский государственный медицинский университет, г. Минск

Важным аспектом доказательной медицины является полнота и точность представления данных. Целью статьи является краткий обзор принципов доказательной медицины в исследованиях, посвященных точности диагностических тестов.

Диагностические тесты используются в медицине, чтобы установить диагноз, степень тяжести и особенности течения заболевания. Диагностическая информация получается из множества источников, включая субъективные, объективные, специальные методы исследования. Эта статья основывается на описании данных об измерении качества исследований, преимуществ различных способов итоговой статистики c помощью метода логистической регрессии и ROC-анализа.

Ключевые слова: доказательная медицина, диагностические тесты, логистическая регрессия, ROC-анализ.

USE OF DATA OF EVIDENCE BASED MEDICINE IN CLINICAL PRACTICE (report 3 - DIAGNOSTIC TESTS)

A. A. Litvin2, A. L. Kalinin1, N. M. Trizna3

1Gomel State Medical University 2Gomel Regional Clinical Hospital 3Belarus State Medical University, Minsk

A prominent aspect of evidence based medicine is completeness and accuracy of data presentation. Article purpose is the short review of principles of evidence based medicine in the researches devoted to accuracy of diagnostic tests.

Проблемы здоровья и экологии

Diagnostic tests are used in medicine to screen for diagnose, grade, and monitor the progression of disease. Diagnostic information is obtained from a multitude of sources, including sings, symptoms and special investigations. This article concentrates on the dimensions of study quality and the advantages of different summary statistics with logistic regression and ROC-analysis.

Key words: evidence based medicine, diagnostic tests, logistic regression, ROC-analysis.

Когда врач на основании данных анамнеза и обследования пациента выносит суждение о диагнозе, он редко бывает в нем полностью уверен. В связи с этим более целесообразно говорить о диагнозе с точки зрения его вероятности. Все еще очень часто эта вероятность выражается не в форме процентов, а с помощью таких выражений, как «почти всегда», «обычно», «иногда», «редко». Поскольку разные люди вкладывают различную степень вероятности в одни и те же термины, это ведет к возникновению недопонимания между врачами или между врачом и пациентом . Врачам следует как можно более точно давать свои заключения и, если это осуществимо, использовать для выражения вероятности количественные методы .

Хотя наличие таких количественных показателей было бы очень желательно, они обычно отсутствуют в клинической практике. Даже опытные клиницисты часто не в состоянии точно определить вероятность развития тех или иных изменений. Имеется тенденция к гипердиагностике относительно редких заболеваний. Особенно трудно бывает количественно оценить вероятность, которая может быть очень высокой или очень низкой .

Поскольку установление достоверных диагностических критериев является краеугольным камнем клинического мышления, для разработки статистических подходов к улучшению диагностического предвидения используется накопленный клинический опыт, который в идеале должен быть представлен в форме компьютерных банков данных . В подобных исследованиях обычно идентифицируют фак-

торы, находящиеся в корреляции с тем или иным диагнозом. Затем эти данные могут быть включены в многофакторный анализ, что позволяет определить, какие из них являются достоверными независимыми предикторами диагноза. Некоторые виды анализа позволяют идентифицировать важные факторы предсказания диагноза и затем определить их «вес», который может быть при дальнейшем математическом расчете трансформирован в вероятность. С другой стороны, анализ позволяет выделить ограниченное число категорий пациентов, каждая из которых имеет собственную вероятность наличия того или иного диагноза .

Эти количественные подходы к постановке диагноза, которые часто называют «правилами предсказания», особенно полезны, если они представлены в удобном для использования виде и если их ценность была широко изучена на достаточном числе и спектре пациентов. Чтобы такие правила предсказания могли оказать реальную помощь клиницистам, они должны быть разработаны на представительных группах больных с использованием доступных воспроизводимых тестов для того, чтобы полученные результаты могли быть применены в медицинской практике повсеместно .

В связи с этим чрезвычайно важно знать несколько наиболее часто используемых при анализе результатов исследований и в эпидемиологии терминов, включая распространенность, чувствительность, специфичность, положительную предсказательную ценность и отрицательную предсказательную ценность (таблица 1) .

Таблица 1 - Систематические термины, наиболее часто используемые в диагностических исследованиях

имеется отсутствует

Положительные а (истинноположительные) б (ложноположительные)

Отрицательные в (ложноотрицательные) г (истинноотрицательные)

Распространение (априорная вероятность) = (а+в) / (а+б+в+г) = число больных / общее число обследованных

Чувствительность (sensitivity) = а / (а+в) = число истинноположительных результатов / общее число больных

Специфичность (specificity) = г / (б+г) = число истинноотрицательных результатов / число пациентов без данного заболевания

Частота ложноотрицательных результатов = в / (а+в) = число ложноотрицательных результатов / общее число больных

Частота ложноположительных результатов = б / (б+г) = число ложноположительных результатов / число пациентов без данного заболевания

Проблемы здоровья и экологии

Окончание таблицы 1

Результаты теста Патологическое состояние

имеется отсутствует

Положительная предсказательная ценность (positive predictive value) = а / (а+б) = число истинноположительных результатов / число всех положительных результатов

Отрицательная предсказательная ценность (negative predictive value) = г / (в+г) = число истинноотрицательных результатов / число всех отрицательных результатов

Общая точность (accuracy) = (а+г) / (а+б+в+г) = число истинноположительных и истинноотрицательных результатов / число всех результатов

Отношение правдоподобия положительного результата (likelihood ratio of a positive test) - = чувствительность / (1 - специфичность)

Отношение правдоподобия отрицательного результата теста (likelihood ratio of a negative test) - = 1 - чувствительность / специфичность

Вопросы, на которые отвечают данные характеристики диагностического теста :

1) чувствительность - насколько хорош тест для выявления пациентов, имеющих данное состояние?

2) специфичность - насколько хорош тест для правильного исключения пациентов, не имеющих данного состояния?

3) прогностическая ценность положительного результата теста - если у человека тест положительный, какова вероятность того, что у него действительно есть данное заболевание?

4) прогностическая ценность отрицательного результата теста - если у человека тест отрицательный, какова вероятность того, что у него действительно нет данного заболевания?

5) индекс точности - какая часть всех тестов дала правильные результаты (т. е. истинноположительные и истинноотрицательные результаты по отношению ко всем)?

6) отношение правдоподобия положительного результата (likelihood ratio of a positive test) - насколько более вероятно то, что тест будет положительным у человека с заболеванием по сравнению со здоровым?

Поскольку только меньшая часть из правил предсказания соответствует строгим критериям, таким как число и спектр обследованных, а также проспективное подтверждение результатов, большинство из них непригодно для повседневного клинического использования. Более того, многие правила предсказания не могут оценить вероятность каждого диагноза или исхода, с которыми сталкивается клиницист. Тест, обладающий определенной чувствительностью и специфичностью, имеет различную положительную и отрицательную предсказательную ценность, если применяется в группах с различной распространенностью заболевания. Чувствительность и специфичность какого-либо теста не зависят от распростра-

ненности заболевания (или процента больных, у которых имеется заболевание, от всех обследованных пациентов), они зависят от состава группы пациентов, среди которых этот тест был использован .

В некоторых ситуациях неточное знание чувствительности и специфичности теста в изучаемой группе пациентов может ограничить его клиническую ценность. Поскольку врач редко знает (или может знать) популяцию пациентов, на которой назначаемый им тест был стандартизован, получаемые результаты обладают информацией намного менее достоверной, чем принято думать. Более того, для любого диагностического теста увеличение чувствительности будет сопровождаться снижением специфичности .

Модель с высокой чувствительностью часто дает истинный результат при наличии положительного исхода (обнаруживает положительные примеры). Наоборот, модель с высокой специфичностью чаще дает истинный результат при наличии отрицательного исхода (обнаруживает отрицательные примеры). Если рассуждать в терминах медицины - задачи диагностики заболевания, где модель классификации пациентов на больных и здоровых называется диагностическим тестом, то получится следующее: 1) чувствительный диагностический тест проявляется в гипердиагностике - максимальном предотвращении пропуска больных; 2) специфичный диагностический тест диагностирует только доподлинно больных . Поскольку нельзя ожидать, что какая-либо величина или производный показатель в отдельности могли бы обладать одновременно превосходной чувствительностью и специфичностью, часто бывает необходимо определить, какой показатель является наиболее ценным и необходимым для принятия решения. Графическое изображение, получившее название ROC-кривой

Проблемы здоровья и экологии

(рисунок 1), связывающей обсуждаемые характеристики теста, показывает неизбежность выбора между стремлением к высокой чувствительности и специфичности. Подобное графическое изображение свидетельствует о том, что результаты тестов могут быть определены как нормальные или патологические в зависимости от того, учитыва-

ется заболевание, если тест обладает высокой специфичностью, или исключается, если тест обладает высокой чувствительностью. Разные тесты могут обладать различной чувствительностью и специфичностью. Чувствительность и специфичность более достоверных тестов выше, чем недостоверных тестов .

Рисунок 1 - Графическое изображение внутреннего несоответствия чувствительности и специфичности

ROC-кривая (Receiver Operator Characteristic) - кривая, которая наиболее часто используется для представления результатов бинарной классификации в машинном обучении . Название пришло из систем обработки сигналов. Поскольку классов два, один из них называется классом с положительными исходами, второй - с отрицательными исходами. ROC-кривая показывает зависимость количества верно классифицированных положительных примеров от количества неверно классифицированных отрицательных примеров. В терминологии ROC-анализа первые называются истинноположительным, вторые - ложноотрицательным множеством. При этом предполагается, что у классификатора имеется некоторый параметр, варьируя который мы будем получать ту или иную разбивку на два класса. Этот параметр часто называют порогом, или точкой отсечения (cut-off value) .

ROC-кривая получается следующим образом. Для каждого значения порога отсечения, которое меняется от 0 до 1 с шагом, например, 0,01, рассчитываются значения чувствительности Se и специфичности Sp. В качестве альтернативы порогом может являться каждое последующее значение примера в выборке. Строится график зависимости: по оси Y откладывается чувствительность Se, по оси X - 100% - Sp (сто процентов минус специфичность) . В результате вырисовывается некая кривая (рисунок 1). График часто дополняют прямой y = х.

Для идеального классификатора график ROC-кривой проходит через верхний левый

угол, где доля истинноположительных случаев составляет 100 %, или 1,0 (идеальная чувствительность), а доля ложноположительных примеров равна нулю. Поэтому чем ближе кривая к верхнему левому углу, тем выше предсказательная способность модели. Наоборот, чем меньше изгиб кривой и чем ближе она расположена к диагональной прямой, тем менее эффективна модель. Диагональная линия соответствует «бесполезному» классификатору, т. е. полной неразличимости двух классов .

При визуальной оценке ROC-кривых расположение их относительно друг друга указывает на их сравнительную эффективность. Кривая, расположенная выше и левее, свидетельствует о большей предсказательной способности модели. Так, на рисунке 2 две ROC-кривые совмещены на одном графике. Видно, что модель A лучше.

Визуальное сравнение кривых ROC не всегда позволяет выявить наиболее эффективную модель. Своеобразным методом сравнения ROC-кривых является оценка площади под кривыми. Теоретически она изменяется от 0 до 1,0, но поскольку модель всегда характеризуются кривой, расположенной выше положительной диагонали, то обычно говорят об изменениях от 0,5 («бесполезный» классификатор) до 1,0 («идеальная» модель). Эта оценка может быть получена непосредственно вычислением площади под многогранником, ограниченным справа и снизу осями координат и слева вверху - экспериментально полученными точками (рисунок 3). Численный показатель площади под кривой называется AUC (Area Under Curve).

Проблемы здоровья и экологии

Рисунок 2 - Сравнение ROC-кривых

Рисунок 3 - Площадь под ROC-кривой

С большими допущениями можно считать, что чем больше показатель AUC, тем лучшей прогностической силой обладает модель. Однако следует знать, что показатель AUC предназначен скорее для сравнительного анализа нескольких моделей; AUC не содержит ника-

кой информации о чувствительности и специфичности модели .

В литературе иногда приводится следующая экспертная шкала для значений AUC, по которой можно судить о качестве модели (таблица 2) .

Таблица 2 -Экспертная шкала значений AUC

Интервал AUC Качество модели

0,9-1,0 Отличное

0,8-0,9 Очень хорошее

0,7-0,8 Хорошее

0,6-0,7 Среднее

0,5-0,6 Неудовлетворительное

Идеальная модель обладает 100% чувствительностью и специфичностью. Однако на практике добиться этого невозможно, более того, невозможно одновременно повысить и чувствительность, и специфичность модели.

Компромисс находится с помощью порога отсечения, т.к. пороговое значение влияет на соотношение Se и Sp. Можно говорить о задаче нахождения оптимального порога отсечения (optimal cut-off value) (рисунок 4) .

Рисунок 4 - «Точка баланса» между чувствительностью и специфичностью

Проблемы здоровья и экологии

Порог отсечения нужен для того, чтобы применять модель на практике: относить новые примеры к одному из двух классов. Для определения оптимального порога нужно задать критерий его определения, т.к. в разных задачах присутствует своя оптимальная стратегия. Критериями выбора порога отсечения могут выступать: 1) требование минимальной величины чувствительности (специфичности) модели. Например, нужно обеспечить чувствительность теста не менее 80 %. В этом случае оптимальным порогом будет максимальная специфичность (чувствительность), которая достигается при 80 % (или значение, близкое к

нему «справа» из-за дискретности ряда) чувствительности (специфичности) .

Приведенные теоретические данные лучше воспринимаются на примерах из клинической практики. Первый пример, на котором мы остановимся, будет диагностика инфицированного панкреонекроза (набор данных взят из базы данных ). Обучающая выборка содержит 391 запись с выделением 12 независимых переменных в следующем формате (таблица 3). Зависимая переменная (1 - наличие заболевания, 0 - отсутствие). Распределение зависимой переменной следующее: 205 случаев - отсутствие заболевания, 186 - его наличие.

Таблица 3 - Независимые переменные для диагностики инфицированного панкреонекроза, коэффициенты логистической регрессии (пример)

Независимые переменные Формат данных Коэффициент, %

Число дней от начала заболевания > 14 < 14 2,54

Число дней, проведенных больным на лечении в ОАРИТ > 7 < 7 2,87

Частота сердечных сокращений числовое значение 1,76

Частота дыхания числовое значение 1,42

Температура тела числовое значение 1,47

Лейкоциты крови числовое значение 1,33

Лейкоцитарный индекс интоксикации числовое значение 1,76

Мочевина крови числовое значение 1,23

Общий белок плазмы крови числовое значение 1,43

Адекватная антибиотикопрофилактика при установлении диагноза тяжелого острого панкреатита да/нет -1,20

Выполнение миниинвазивных лечебно-профилактических операций да/нет -1,38

Наличие отрицательной динамики да/нет 2,37

На рисунке 4 изображена полученная ROC- можно охарактеризовать как очень хорошую, кривая. Предсказательную способность модели AUC = 0,839.

Рисунок 4 - ROC-кривая диагностической модели инфицированного панкреонекроза

Проблемы здоровья и экологии

Рассмотрим фрагмент массива точек «чув- ня внутрибрюшного давления у больных тяже-

ствительшсть-специфичшсть» на примере уров- лым острым панкреатитом .

Таблица 4 - Чувствительность и специфичность различных уровней ВБД для прогнозирования развития ИПН (пример)

ВБД, мм рт. ст. Чувствительность, % Специфичность, % Se + Sp Se - Sp

13,5 25 100 125 75

14,5 30 95 125 65

15,5 40 95 135 55

16,5 65 95 160 30

17,5 80 90 170 10

18,5 80 80 160 0

19,5 80 70 150 10

20,5 85 65 150 20

21,5 95 55 150 40

23,0 100 45 145 55

24,5 100 40 140 60

25,5 100 25 125 75

Как видно из таблицы, оптимальным пороговым уровнем ВБД у больных острым деструктивным панкреатитом, обеспечивающим максимум чувствительности и специфичности теста (или минимум ошибок I и II рода), является 17,5 ± 2,3 (M ± SD) мм рт.ст., при котором отмечается 80 % чувствительность и 90 % специфичность метода для определения вероятности развития инфекционных осложнений пан-креонекроза. Чувствительность равна 80 % - это означает, что у 80 % пациентов с инфицированным панкреонекрозом диагностический тест положителен. Специфичность равна 90 %, следовательно, у 90 % пациентов, у которых нет инфицированного панкреонекроза, результаты теста являются отрицательными. Точкой баланса, в которой чувствительность и специфичность примерно совпадают - 80 %, является 18,5. В целом положительная прогностическая ценность измерения ВБД составила 86 %, отрицательная прогностическая ценность - 88 %.

Проведение логистической регрессии и ROC-анализа возможно с использованием статистических пакетов . Однако «Statistica» 6 и 7 (http://www.statistica.com) проводят данный анализ только с использованием блока «Искусственные нейронные сети» . В SPSS (http://www. spss.com) (начиная с 13 версии) ROC-анализ дан только в графическом модуле и анализируется одна ROC-кривая. В SPSS выводится значение площади под кривой (AUC), уровень значимости и значение чувствительности и специфичности в каждой точке измерения. Оптимальную точку (optimal cut-off) необходимо находить самим из таблицы чувствительности и 1-специфичность . Программа MedCalc проведет сравнение нескольких ROC-кривых, в таблице пометит значение переменной, при

которой соотношение чувствительности и специфичности оптимально (optimal cut-off). В SAS (http://www.sas.com) также, как и R-Commander есть модуль сравнения кривых и нахождения точек, AUC. Логистическая регрессия и ROC-анализ есть в бесплатной программе WINPEPI (PEPI-for-Windows) (http://www.brixtonhealth. com/ winpepi.zip) .

Заключение

Искусство диагностики постоянно совершенствуется. Ежедневно появляются новые диагностические тесты, а технология существующих методов изменяется. Переоценка точности соответствующих исследований, в частности, в результате возникновения систематической ошибки, связанной с недобросовестной практикой исследований и публикаций, может привести к преждевременному внедрению диагностических тестов и принятию неправильных клинических решений. Тщательная оценка диагностических тестов до их широкого применения не только снижает риск развития неблагоприятных исходов, обусловленных ошибочными представлениями об информативности метода, но также может ограничить расходование ресурсов здравоохранения за счет отказа от ненужных обследований. Неотъемлемой частью оценки диагностических тестов являются исследования, посвященные точности диагностических тестов, самыми информативными из которых являются метод логистической регрессии и ROC-анализ.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Гринхальх, Т. Основы доказательной медицины / Т. Грин-хальх; пер. с англ. - М.: ГЭОТАР-Медиа, 2006. - 240 с.

Проблемы здоровья и экологии

3. Власов, В. В. Введение в доказательную медицину / В. В. Власов. - М. МедиаСфера, 2001. - 392 с.

4. Флетчер, Р. Клиническая эпидемиология. Основы доказательной медицины / Р. Флетчер, С. Флетчер, Э. Вагнер; пер. с англ. - М.: МедиаСфера, 1998. - 352 с.

5. Банержи, А. Медицинская статистика понятным языком: вводный курс / А. Бенержи; пер с англ. - М.: Практическая медицина, 2007. - 287 с.

6. Жижин, К. С. Медицинская статистика: учеб. пособие. - Ростов н/Д.: Феникс, 2007. - 160 с.

7. Deeks, J. J. Systematic reviews of evaluations of diagnostic and screening tests / J. J. Deeks // BMJ. - 2001. - Vol. 323. - P. 157-162.

8. Guidelines for meta-analyses evaluating diagnostic tests / L. Irwig // Ann. Intern. Med. - 1994. - Vol. 120. - P. 667-676.

9. Systematic reviews and meta-analysis for the surgeon scientist /

S. S. Mahid // Br. J. Surg. - 2006. - Vol. 93. - P. 1315-1324.

10. Meta-analytical methods for diagnostic test accuracy / L. Irwig // J. Clin. Epidemiol. - 1995. - Vol. 48. - P. 119-130.

11. Users" guides to the medical literature. How to use an article about a diagnostic test. A. Are the results of the study valid? / R. Jaeschke // JAMA. - 1994. - Vol. 271. - P. 389-391.

12. Use of methodological standards in diagnostic test research: getting better but still not good / M. C. Read // JAMA. - 1995. - Vol. 274. - P. 645-651.

13. StAR: a simple tool for the statistical comparison of ROC curves / I. E. Vergara // BMC Bioinformatics. - 2008. - Vol. 9. - P. 265-270.

14. A comparison of parametric and nonparametric approaches to ROC-analysis of quantitative diagnostic tests / K. O. Hajian-Tilaki // Medical Decision Making. - 1997. - Vol. 17, N. 1. - P. 94-102.

15. Receiver operator characteristic (ROC) curves and nonnormal data: An empirical study / M.J. Goddard // Statistics in Medicine. - 1989. - Vol. 9, N. 3. - P. 325-337.

16. Возможности прогнозирования инфицированного пан-креонекроза / А. А. Литвин [и др.] // Проблемы здоровья и экологии. - 2007. - Т. 12, № 2. - С. 7-14.

17. Метод мониторинга внутрибрюшного давления у больных тяжелым острым панкреатитом / А. А. Литвин [и др.] // Проблемы здоровья и экологии. - 2008. - Т. 16, № 2. - С. 80-85.

18. Comparison of eight computer programs for receiver-operating characteristic analysis / C. Stephan // Clin. Chem. - 2003. - Vol. 49, N. 3. - P. 433-439.

19. Zhu, X. A short preview of free statistical software packages for teaching statistics to industrial technology majors / X. Zxu // J. Ind. Technology. - 2005. - Vol. 21, N. 2. - P. 10-20.

20. Боровиков, В. STATISTICA: искусство анализа данных на компьютере. Для профессионалов / В. Боровиков. - СПб.: Питер, 2001. - 656 с.

21. Бююлъ, А. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей / А. Бююль. - СПб.: ДиаСофтЮП, 2002. - 608 с.

22. Abramson, J. H. WINPEPI (PEPI-for-Windows): computer programs for epidemiologists / J. H. Abramson, // Epidemiologic Perspectives & Innovations. - 2004. - Vol. 1, N. 6. - P. 1-10.

Поступила 24.10.2008

УДК 616.1:616-009.12:616-005.8:616.831-005.1

НЕКОТОРЫЕ ПОКАЗАТЕЛИ МИКРОЦИРКУЛЯЦИИ И ПОВРЕЖДЕНИЯ ЭНДОТЕЛИЯ В ОЦЕНКЕ РИСКА РАЗВИТИЯ ИНСУЛЬТОВ, ИНФАРКТОВ МИОКАРДА, ЛЕТАЛЬНЫХ ИСХОДОВ У БОЛЬНЫХ АРТЕРИАЛЬНОЙ ГИПЕРТЕНЗИЕЙ

В. И. Козловский, А. В. Акулёнок Витебский государственный медицинский университет

Цель исследования: выделение факторов, ассоциированных с повышением риска развития инфарктов миокарда, мозговых инсультов, летальных исходов у больных артериальной гипертензией (АГ) II степени.

Материал и методы: в исследование были включены 220 больных АГ II степени (средний возраст 57 ± 8,4 лет), которые госпитализировались в связи с гипертоническим кризом, и 30 человек без АГ (средний возраст

53,7 ± 9 лет).

Результаты: за 3,3 ± 1 лет наблюдения в группе больных АГ II степени зафиксировано 29 инсультов, 18 инфарктов миокарда, 26 летальных исходов. Повышение числа циркулирующих эндотелиальных клеток (ЦЭК), агрегации лейкоцитов, тромбоцитов, адгезии лейкоцитов у больных АГ было ассоциировано с повышением риска развития инфарктов миокарда, инсультов и летальных исходов.

Заключение: показатели числа ЦЭК, агрегации тромбоцитов и лейкоцитов, адгезии лейкоцитов можно использовать для выделения групп гипертензивных больных повышенного риска развития инфарктов миокарда, инсультов и летальных исходов, а также в создании комплексных моделей прогноза.

Ключевые слова: артериальная гипертензия, риск, инфаркт миокарда, инсульт, летальный исход, циркулирующие эндотелиоциты.

SOME FINDINGS OF MICROCIRCULATION AND ENDOTHELIAL DAMAGE IN ESTIMATION OF RISK FOR STROKES, MYOCARDIAL INFARCTIONS, LETHAL OUTCOMES IN HYPERTENSIVE PATIENTS

V. I. ^zlovsky, A. V. Akulionak Vitebsk Statel Medical University

Objective: to determine factors, associated with increased risk for development of strokes, myocardial infarctions, lethal outcomes in patients with arterial hypertension (AH) II degree.

Methods: 220 patients with AH II degree (mean age 57 ± 8,4 years), complicated by hypertensive crisis, and 30 persons without AH (mean age 53,7 ± 9 years) were followed-up for 3,3±1 years.

Results: elevation of number of circulating endothelial cells (CEC), aggregation of platelets and leukocytes, adhesion of leukocytes in hypertensive patients were associated with increased risk for development of strokes, myocardial infarctions, lethal outcomes.

ГЛАВА V АНАЛИЗ МЕДИЦИНСКИХ ПУБЛИКАЦИЙ С ПОЗИЦИЙ ДОКАЗАТЕЛЬНОЙ МЕДИЦИНЫ

ГЛАВА V АНАЛИЗ МЕДИЦИНСКИХ ПУБЛИКАЦИЙ С ПОЗИЦИЙ ДОКАЗАТЕЛЬНОЙ МЕДИЦИНЫ

Заглавие статьи. Интересное заглавие привлекает внимание. Если оно заинтересовало, можно приступать к дальнейшей работе над статьей. Особого интереса заслуживают статьи и обзоры, в названии которых заложена информация по принципу «за» и «против», поскольку помимо возможной интересной авторской позиции здесь будут приведены аргументы и контраргументы. Используя список рекомендуемой литературы, можно будет легко ознакомиться с первоисточниками и составить собственное мнение о проблеме (в качестве

примера в приложении приведена статья «Диуретики: доказанное и недоказанное»).

Вслед за заглавием всегда идет список авторов и название учреждения, в котором выполнена работа. Встреча со знакомой и известной фамилией и уважаемым учреждением позволяют заранее представить себе качественный уровень исследования. Если в статье приведены результаты РКИ, целесообразно потрать время и найти на сайте Росздрава информацию о том, имеет ли данное учреждение лицензию на проведение исследований. Наличие лицензии, а также опыт аналогичной работы позволяют с большим доверием отнестись к информации, изложенной в публикации.

Реферат позволяет получить расширенное представление о сути исследования, контингенте его участников и выводах. Если данные отвечают поставленной задаче по поиску информации, можно переходить к анализу статьи. При отсутствии реферата нужно сразу ознакомиться с выводами исследования, публикуемыми в конце статьи.

Заглавие, реферат и выводы должны дать представление о возможном научно-методическом уровне исследования, категории пациентов и возможности применения его результатов в условиях реальной практики (например, диагностические возможности поликлиники и специализированных центров существенно различаются в пользу последних).

Методы исследования - один из ключевых разделов публикации, поскольку именно он дает представление о качестве полученных результатов и выводов, поскольку плохо спланированное и выполненное с использованием нестандартных методик исследование не может быть основой для принятия решений.

В настоящее время сформированы методологические требования к качественно-выполненным клиническим исследованиям:

Наличие контрольной группы (плацебо, традиционная терапия, вмешательство сравнения);

Критерии включения и исключения пациентов из исследования;

Дизайн исследования (распределение пациентов, включенных в исследование, до и после рандомизации);

Описание метода рандомизации;

Описание принципов применения препарата (открытое, слепое, двойное слепое, тройное слепое);

. «слепая» и независимая оценка результатов лечения не только по конечным точкам, но и с учетом лабораторно-инструментальных показателей;

Представление результатов (особое внимание уделяется клинико-демографической сопоставимости контрольной и исследуемой групп);

Информация об осложнениях и побочных эффектах лечения;

Информация о числе больных, выбывших в ходе исследования;

Качественный и адекватный задачам статистический анализ с применением лицензированных статистических программ;

Представление результатов в той форме, которая может быть перепроверена (только проценты и дельта изменения показателя неприемлемы);

Указание на конфликт интересов (с какими организациями сотрудничает автор и кто был спонсором исследования).

Достаточно немного публикаций отвечает всем перечисленным требованиям, поэтому при анализе статей необходимо не просто констатировать имеющиеся недостатки, а оценить их влияние на достоверность полученных выводов.

Большинство экспертов в области доказательной медицины выделяют наиболее важные составляющие качественной медицинской публикации.

Использование рандомизации пациентов в исследовании.

В международных рецензируемых журналах сообщения о рандомизации приводятся в 90% статей о клинических исследованиях, однако только в 30% из них описан конкретный метод рандомизации. В настоящее время упоминание понятия «рандомизация», особенно в отечественных работах, стало признаком «хорошего» тона. Однако используемые методы часто таковыми не являются, и обеспечить однородность сравниваемых групп не могут. Иногда разница по количеству пациентов в группах сравнения указывает, что рандомизация вообще не проводилась. Нельзя отнести к методам рандомизации и «распределение пациентов по группам случайным образом». Использование некачественных методов рандомизации, явные огрехи в проведении или ее отсутствие делают бесполезным и бессмысленным дальнейшее изучение публикации, так как полученные выводы будут бездоказательны. Отсутствие качественной информации по интересующей проблеме лучше, чем использование некачественной в принятии решения. К сожалению, в реальной практике некачественные преобладают над качественными исследованиями.

Основные критерии оценки эффективности лечения. Очень важно, чтобы в публикации были использованы общепринятые «жесткие» и «суррогатные» конечные точки для конкретного заболевания. Нельзя согласиться с мнением В.В. Власова «К сожалению, подмена "конечных" результатов (истинных критериев оценки - клинических исходов) "промежуточными" (косвенными критериями оценки вроде снижения уровня глюкозы или холестерина в крови, артериального давления) весьма распространена». Сегодня для каждой нозологии существуют строго определенные суррогатные конечные точки, влияющие на прогноз заболевания. В ряде исследований достижение «жестких» конечных точек невозможно в принципе, поэтому оценка эффективности вмешательства по его влиянию на суррогатные конечные точки вполне допустима. Другое дело, что они должны быть выбраны корректно: например, для артериальной гипертензии, это уровень АД, а не состояние перекисного окисления липидов. Вообще работа над исследованием очередного изофермента, как правило, не имеет клинического значения по двум причинам: во-первых, кроме авторов их больше никто не определяет, во-вторых, связь с конечными «жесткими» точками практически никогда не доказана.

Значимость результатов исследования и их статистическая достоверность. Только то, что происходит с высокой вероятностью, статистически достоверно, причем вероятность необходимо задать до начала исследования. Клинически значимо то, что можно применить у широкого круга пациентов. По своей эффективности он достоверно превосходит, а по безопасности не уступает уже существующим альтернативным методам лечения и диагностики.

Большой размер выборки (число пациентов) в крупных РКИ позволяет статистически достоверно выявить даже небольшие эффекты от применения изучаемых лекарственных препаратов. Малый размер выборки, характерный для большинства публикаций, не позволяет этого сделать, поэтому малая выраженность эффекта в них означает, что лишь у малой части пациентов (1-2%) будет получен положительный эффект от вмешательства. Оценка безопасности вмешательства у небольшого числа пациентов считается неэтичной. Нельзя принимать решения, основываясь на «выраженной тенденции», они могут быть предметом дальнейшего научного исследования, но не основой для принятия клинических решений. Кроме этого, данные корреляционного и регрессионного анализов не могут быть положены в основу клинически значимых выводов, так как отражают направлен-

ность и выраженность связи показателей, а не изменение в результате вмешательства.

В последнее время появились определенные проблемы и с крупномасштабными исследованиями. Количество их участников иногда настолько велико, что даже незначительное отклонение признака в результате вмешательства может стать статистически достоверным. Например, в исследовании ALLHAT участвовали 33357 пациентов, из которых 15255 получали терапию хлораталидоном, а оставшиеся принимали амлодипин или лизиноприл. К окончанию исследования в группе на хлорталидоне было выявлено повышение глюкозы на 2,8 мг/дл (2,2%), а в группе амлодипина ее снижение на 1,8 мг/дл (1,3%). Эти изменения, которым в условиях реальной клинической практики могли и не придать никого значения, оказались статистически достоверными.

Отсутствие достоверных различий в эффективности сравниваемых методов исследования наиболее часто связано с малым числом пациентов в выборке. Недостаточная по размерам выборка делает отрицательный результат недостаточным для негативной оценки лечения, а в случае получения положительного эффекта вмешательства не позволяет с уверенностью рекомендовать его для широкой клинической практики.

Помимо оценки эффективности вмешательства по отношению к «жестким» и «суррогатным» конечным точкам важно знать о его влиянии на качество жизни (например, для пациента с болевым синдромом изменение этого показателя важнее, чем влияние на риск декомпенсации хронической сердечной недостаточности при применении НСПВС).

Доступность метода в условиях реальной клинической практики.

Врач должен решить, насколько сопоставима группа больных, включенных в исследование, с теми пациентами, к которым он собирается его применить (демографические характеристики, тяжесть и длительность заболевания, сопутствующая патология, пропорция мужчин и женщин, существующие противопоказания к диагностическим и/или терапевтическим мероприятиям, и т.д.).

Представленные выше сведения в основном касались исследований по оценке эффективности новых методов лечения. Публикации по проблемам диагностики и фундаментальным проблемам этиологии и патогенеза заболеваний имеют ряд отличий как по своей сути, так и по атрибутивным признакам, позволяющим считать их информативными с позиции доказательной медицины.

ПУБЛИКАЦИИ ПО ДИАГНОСТИКЕ

Диагностические процедуры могут быть использованы с разной целью:

Как обязательный стандарт обследования (например, измерение АД, определение веса, анализ крови и мочи и т.д.) проводят всем лицам, оказавшимся в медицинском учреждении в связи с любым заболеванием для исключения сопутствующей патологии (case finding);

В качестве скрининга для выявления больных в здоровой популяции (например, тест на фенилкетонурию в родильном доме или измерение АД для выявления лиц с артериальной гипертензией);

Для постановки и уточнения диагноза (например, ЭКГ и эзофагогастроэндоскопия при наличии болей в левой половине грудной клетки);

Для динамического контроля за эффективностью лечения (например, суточное мониторирование АД во время антигипертензивной терапии).

В этой связи необходимо наличие в статье четкой информации о цели предпринятого диагностического вмешательства.

Для оценки достоверности информации о преимуществах предлагаемого диагностического вмешательства необходимо ответить на ряд вопросов:

Проводилось ли сравнение предлагаемого метода с существующим «золотым стандартом» для конкретной патологии (например, ЭхоКГ с ЭКГ при ИБС, скорости измерения пульсовой волны с ультразвуковым определением толщины комплекса интима-медиа);

Является ли выбранный метод сравнения действительно «золотым стандартом»;

Проводилось ли сравнение диагностических вмешательств с использование слепого метода;

Приведены ли границы возможного применения диагностического метода (например, первые часы инфаркта миокарда для тропонинов, уровень гликированного гемоглобина и т.д.);

Достаточно ли широко представлена сопутствующая патология, влияющая на эффективность диагностического вмешательства;

Насколько воспроизводим диагностический метод, и является ли он «оператор» зависимым (например, морфометрия при ЭхоКГ).

Врачи переоценивают воспроизводимость результатов исследований, связанных с оценкой изображения (ультразвуковых, рентгенологических, радиоизотопных, электрокардиографических и эндоскопических);

На основании каких тестов разграничивалась норма и патология.

Понятие нормы и точки разделения должны быть четко сформулированы. Точкой разделения называют величину физиологического показателя, которая служит границей, разделяющей лиц на здоровых и больных. Так, за нормальный уровень АД могут быть приняты значения 140/90 и 130/80 мм рт.ст. Естественно, что в зависимости от этого могут быть получены существенные различия, например по частоте гипертрофии левого желудочка с использованием любой оценочной диагностической методики. Точка разделения (х2) позволяет оценить чувствительность, специфичность и прогностическую ценность диагностического вмешательства. Повышение значений точки разделения снижает чувствительность, но повышает специфичность и прогностическую ценность положительного диагностического вмешательства. Соответственно при уменьшении значения точки разделения влево (х1) повышаются чувствительность и прогностическая ценность отрицательного результата, но снижаются специфичность и прогностическая ценность положительного результата диагностического теста. Для описания изменений результатов исследования в зависимости от выбора точки разделения используют называемый ROC-анализ (Receiver Operating Characteristic analysis), которая позволяет оценить риск ложноположительных результатов.

При анализе публикаций по диагностическим вмешательствам необходимо оценить:

Насколько убедительно доказано, что использование нового диагностического теста в сочетании с другими стандартными для данной патологии тестами повышает эффективность диагностики. Неэффективное диагностическое вмешательство не повысит и результативность диагностики при его добавлении к существующей «батарее диагностических тестов». Критерием полезности диагностического теста является возможность с его помощью положительно повлиять на исход заболевания (например, за счет более раннего или более надежного выявления патологии);

Возможно ли применение нового диагностического вмешательства в условиях реальной повседневной клинической практики;

Каков риск от нового диагностического вмешательства (даже рутинное диагностическое вмешательство имеет свой риск осложнений, например велоэргометрия, и тем более коронарография при ИБС);

Какова стоимость нового диагностического вмешательства при сравнении с уже существующими, и особенно с «золотым стандартом» (например, стоимость ЭКГ и ЭхоКГ для определения гипертрофии левого желудочка существенно различаются, но последний метод гораздо точнее);

Насколько детально описаны процедура проведения диагностического вмешательства (подготовка пациента, техника проведения диагностического вмешательства, способы хранения полученной информации).

ПУБЛИКАЦИИ О ТЕЧЕНИИ ЗАБОЛЕВАНИЯ

Наиболее сложными для анализа являются публикации, касающиеся течения заболевания, поскольку они требуют от врача знаний в области неинфекционной эпидемиологии.

Важными вопросами, на которые должен ответить врач, анализируя качество представленной информации, являются:

Какой принцип был положен в формирование исследуемой группы пациентов (скорая помощь; стационар общего или специализированного профиля, поликлиника);

Есть ли четкие диагностические критерии для отнесения пациентов к исследуемой группе? Например, в медицинской литературе нет четкого определения понятия вегетососудистой дистонии. Таким образом, в исследуемую группу могут попасть совершенно разные пациенты;

Четко ли сформулированы ли критерии исхода заболевания и соответствуют ли они принятым в настоящее время. Только документированный смертельный исход является очевидным, хотя и здесь на причину смерти может оказывать серьезное влияние место, где она констатирована (дома или в стационаре, проводилось вскрытие или нет). Для всех остальных случаев должны быть разработаны четкие критерии, желательно, чтобы конечные точки оценивал независимый комитет экспертов («streaming committee»);

Каким образом было организовано проспективное наблюдение за течением заболевания (обращаемость к врачу, госпитализации, смерть).

Полнота отслеживания является ключевым моментом качественного исследования по течению заболевания. Если в ходе наблюдение выбывает более 10% больных, то результаты такого исследования считаются сомнительными. При выбытии более 20% пациентов результаты исследования вообще не представляют никакой научной ценности, так как в группах с высоким риском развития осложнений и смертностью их просто не удастся отследить. Специальному независимому комитету необходимо анализировать причины выбытия каждого пациента:

Кто и как (вслепую или нет) оценивал исход заболевания;

Учтено ли влияние сопутствующей патологии на конечные точки. Если нет, то имеющиеся результаты существенно искажаются клинико-демографическими особенностями исследуемой группы;

Как и с какой точностью рассчитывалась прогностическая значимость симптомов и событий. Вероятность развития изучаемых событий (смертность, выживаемость, развитие осложнений) является основным результатом. Она может быть представлена в виде вероятности или частоты в долях от единицы (0,35), в процентах (35%), промилле (35?), отношения шансов (3,5:6,5). Обязательно указывают доверительный интервал, который позволит корректно экстраполировать полученные результаты на реальный контингент пациентов. При этом практически всегда необходима стандартизация полученных данных по полу, возрасту и другим клинико-демографическим показателям;

Влияют ли полученные результаты о течении заболевания на выбор диагностического и лечебного вмешательства;

Соответствует ли характеристика участников исследования тому контингенту пациентов, с которым врач сталкивается в условиях реальной клинической практики.

Приведенные выше критерии оценки исследований о течении заболеваний применимы только к проспективным наблюдениям. Ретроспективные наблюдения практически никогда не выдерживают критики с позиции неинфекционной эпидемиологии и доказательной медицины. Именно по этой причине результаты подобных исследований (особенно отечественные), выполненные в 70-80-х годах прошлого столетия, не представляют никакой ценности.

МЕДИЦИНСКИЕ ИССЛЕДОВАНИЯ ПО ИЗУЧЕНИЮ ЭТИОЛОГИИ И ПАТОГЕНЕЗУ ЗАБОЛЕВАНИЙ

Такие исследования относятся к области фундаментальных медицинских знаний. В их основе лежит анализ причинно-следственных связей и большинство ошибок в них связано с игнорированием известного принципа «появление чего-либо после события не означает, что это произошло вследствие этого события». Классическим примером причинно-следственных связей является выявление дозазависимых эффектов. Любая доказательная связь должна быть понятной и объяснимой с позиций эпидемиологии и общемедицинских знаний.

В отличие от экспериментальных исследований, клинические имеют единственную возможность получения данных об этиологии и патогенезе заболеваний через проведение эпидемиологических (проспективных и «случай-контроль») исследований. Ключевую роль при их интерпретации и оценке достоверности результатов имеет систематическая ошибка вследствие недоучета смещения отбора пациентов. Преднамеренное исключение определенной группы пациентов может привести к совершенно необъяснимым с точки зрения логики результатам. Если подобное происходит, необходимо еще раз проанализировать клинико-демографические особенности исследуемой популяции.

Среди эпидемиологических исследований наиболее надежными, свободными от многих возможных ошибок являются проспективные исследования. Вместе с тем они чрезвычайно дороги и редко проводятся. Значительно чаще генез заболеваний изучают в исследованиях типа «случай-контроль» (ИСК). В таблице приведены основные требования, предъявляемые к исследованиям этиологии и патогенеза заболеваний. Основные стандарты проведения подобных исследований хорошо известны (Horwitz R.I., Feinstein A.R. Methodologic standards and contradicting results in case-control research. Am J Med 1979;

. заранее определенный метод отбора обследуемых определяется до начала исследования с четким указанием критериев включения и исключения пациентов из исследования;

. четко определенный изучаемый причинный фактор развития заболевания и метод его выявления;

. неискаженный сбор данных. Лица, собирающие информацию о пациентах, не должны знать, с какой целью ведется сбор. Классическим

примером последствий целенаправленного сбора информации является увеличение числа пациентов с кашлем при приеме ингибиторов АПФ почти в 5 раз по сравнению с группой пациентов, которые самостоятельно сообщали о его возникновении;

. отсутствие различий при сборе анамнеза в группах сравнения. Необходимо использовать формализованные и при необходимости валидизированные опросники. Если используется переводной опросник, необходимо подтверждение точности перевода его обратным переводом;

. отсутствие излишних ограничений при формировании групп сравнения;

. отсутствие различий в диагностическом обследовании групп сравнения. Контрольная группа гарантировано не должна иметь изучаемой патологии. Следовательно, должен быть разработан набор высокоинформативных диагностических тестов для каждой патологии;

. отсутствие различий по частоте и характеру обследования на догоспитальном этапе ведения групп сравнения;

. отсутствие различий в демографических характеристиках групп сравнения;

. отсутствие различий в других факторах риска, кроме изучаемого, в группах сравнения.

В идеале для решения поставленных задач необходимо проведение проспективного исследования. Однако на это потребуются годы и десятилетия, тем более если речь идет о редкой патологии. Так, если болезнь развивается за 10 лет у 2 из 1000, то для выявления 10 случаев надо отследить как минимум 5000 человек на протяжении 10 лет. В таких случаях используют исследования, организованные по принципу «случай-контроль» (ИСК). В них сравнивают частоту какого-либо фактора (например, ожирения) у больных с интересующей патологией и другими заболеваниями. Для уточнения роли факторов риска могут сравниваться популяции в различных регионах с разной выраженностью присутствия этого фактора. Наименее надежными источниками для выявления причинно-следственных отношений являются исследования отдельных случаев заболевания или описание групп больных.

При выявлении недостатков в публикации необходимо попытаться понять, что послужило их причиной: незнание основ планирования исследования и математической статистики, заведомо неправильная интерпретация данных, увлеченность автора («если факты мешают теории, то их можно отбросить») или интерес спонсора исследования.

Типичными ошибками при проведении исследований являются:

Отсутствие «опытной» (с анализируемым вмешательством) и «контрольной» (получающая плацебо или «традиционное», «стандартное» лечение). При отсутствии контрольной группы статья бесполезна (иногда даже вредна) и ее читать не следует. В настоящее время можно говорить о следующей закономерности: применяя такие средства, как гомеопатия, иглорефлексотерапия, липосакция, биологически активные добавки, авторы получают впечатляющие результаты, однако качество исследования при этом низкое;

Отсутствие критериев исключения не дает полноценной возможности сравнить однородность опытной и контрольной групп;

Не приведены количество и причины выбытия пациентов в ходе исследования. Статьи с выбытием более 20% пациентов можно не читать;

Отсутствие «ослепления» исследования;

Отсутствие деталей статического анализа. Приведение только общепринятых показателей (средняя, среднеквадратичное отклонение, проценты, дельта) бывает недостаточным, особенно при малочисленных группах. Оценить достаточность числа больных для отрицательного результата исследования можно с помощью специальных таблиц. В ячейке, соответствующей частоте событий в группе лечения и в контрольной группе, представлено число больных в каждой группе, необходимое для выявления снижения частоты на 5%, 10%, 25%, 50% и т.д. Если в рассматриваемом материале число больных меньше, значит эффект мог быть не обнаружен только из-за малого числа пациентов;

Недоучет сопутствующих факторов (confounding factors), например пола, возраста, курения, употребления алкоголя и т.д. Хорошо известно, что эффективность одних β-адреблокаторов, например атенолола, снижается у курильщиков, а других (бисопролол) - нет. Статистический анализ должен быть скорректирован с учетом таких факторов, потенциально влияющих на оцениваемый параметр. Эта процедура называется стандартизацией по одному или нескольким показателям.

При окончательном принятии решения о возможности использования опубликованных данных врач должен сопоставить, насколько выводы исследования соответствуют существующим представлениям. Выбор в пользу нового метода или подхода в лечении и диагности-

ке должен базироваться не на желании врача удовлетворить свой профессиональный интерес (в данном случае за счет здоровья пациента), а на стройной и бесспорной системе доказательств его преимущества и безопасности.

Критический подход к научным данным является основой силы прогресса в любой сфере знаний, в том числе и медицине.

Литература

1. How to Read Clinical Journals: 1. Why to Read them and How to start

Reading them Critically. Can Med Ass J 1981; 124:555-558.

2. Currie B.F. Continuing education from medical periodicals. J Med Educ

3. Statistical Methods in Cancer Research: Part 2. The design and analysis of cohort studies. IARC Sci Publ. N.82. Lyon:WHO, IARC,1987: 1-406.

4. Bailar J.C., Louis T.A., Lavori P.W., Polansky M. A classification for

biomedical research reports. N Engl J Med 1984; 311: 23: 1482-1487.

5. Brown G.W., Baca G.M. A classicification of original articles. Am J Dis Child 1986; 140: 641-645.

6. How to Read Clinical Journals: 2.To Learn about a Diagnostic Tesr. Can Med Ass J 1981;124:703-710.

7. Der Simonian R., Charette L.J., McPeck B., Mosteller F. Reporting on methods of clinical trials. N Engl J Med 1982; 306: 1332-7.

8. Detsky A.S., Sackett D.L. When was a «negative» clinical trial big enough? How many patients you needed depends on what you found. Arch Int

Med 1985; 145: 709-12.

9. CONSORT Group. Improving the quality of reporting of randomised

controlled trials: the CONSORT statement. JAMA 1996; 276: 637-9.

10. Feinstein A.R. Meta-analysis: Statistical alchemy for the 21st century. J

Clin Epidemiol 1995; 48: 71-9.

11. User"s guides to the medical literature: II. How to use an article about therapy or prevention. A. Are the results of the study valid? JAMA 1993; 270: 2598-601.

12. Guyatt G.H., Sackett D.L., Cook D.J. User"s guides to the medical literature: II. How to use an article about therapy or prevention. B. What were the results and will they help me in caring for my patients. JAMA 1994; 271: 59-63.

13. Rosenbaum P.R. Discussing hidden bias in observational studies. Ann

Int Med 1991; 115: 901-5.

14. Schultz K.F., Chalmers I., Altman D.G., Grimes D.A., Dore C.J. The methodologic quality of randomisation as assessed from reports of trials in specialist and general medical journals. Online J Clin Trails, 1995 (doc N 197).