Словарное шкалирование в медицинской информатике: инженерия знаний и интеллектуальный анализ данных



Скачать 118.56 Kb.
Дата22.03.2016
Размер118.56 Kb.
УДК 007.5:510.66:159.955.5

СЛОВАРНОЕ ШКАЛИРОВАНИЕ В МЕДИЦИНСКОЙ ИНФОРМАТИКЕ: ИНЖЕНЕРИЯ ЗНАНИЙ И ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ

А.В. Воинов1, Н.С. Демикова, Б.А. Кобринский2

В работе описывается экспериментальная процедура словарного шкалирования в применении к массиву описаний клинических проявлений наследственных заболеваний. Обосновывается валидность применяемой методологии. Описываются результаты ее применения в задачах интеллектуального поиска информации и анализа данных.

Введение

В работе [Воинов и др., 2004] описаны начальные шаги цикла исследований, основным предметом которого являются модели образных представлений и интуиции экспертов-медиков, а целью – построение комплекса взаимосвязанных формализованных моделей мира этих экспертов. Одним из технологических средств решения этих задач является так называемое «словарное шкалирование» [Воинов, 2005].

В настоящей работе описывается экспериментальная процедура словарного шкалирования в применении к массиву описаний клинических проявлений наследственных заболеваний, имеющих отношение к вопросам диагностики. В процессе последовательного проведения экспериментальных работ в этом направлении к настоящему моменту накоплено определенное количество промежуточных результатов, которые, хотя и не решают поставленные выше задачи, тем не менее представляют самостоятельный научный и практический интерес как для области теории и приложений искусственного интеллекта, так и для предметной медицинской области.

Целью первого этапа исследований является проверка валидности методологии, т.е. проверка того, что в простых и понятных случаях она приводит к таким же простым, понятным результатам, согласующимся с уже имеющимися знаниями о предмете.



1. Инструментальный комплекс МЕДИС 4.0

Технологически настоящее исследование опирается на инструментальный комплекс МЕДИС 4.0 (предыдущие версии системы описаны в [Воинов, 1996; Воинов, 1998]). Это – многоуровневая (multi-tier) программная система, реализующая широкий спектр операций над произвольными документами. Документом может быть, например, резюме статьи из внешней электронной библиотеки, описание истории болезни пациента или иного реального случая применения экспертизы, а также любое словесное описание или даже графическое представление объекта предметной области. Документ может иметь аннотацию – ассоциированный с ним список терминов из иерархического словаря MeSH [Netlson et al., 2004]. Наличие аннотаций позволяет построить метрику на множестве документов и, на ее основе, – семантическое пространство документов. Два основных способа пополнения базы данных МЕДИС – это (1) ввод содержимого документов вручную или «импортирование» из локальной базы данных (например, из массива историй болезни какой-либо конкретной клиники) и (2) извлечение резюме журнальных статей из библиотеки Pubmed по заранее сформированному запросу.

Одной из центральных компонент пользовательского интерфейса системы Медис 4.0 является окно аннотирования документа терминами словаря MeSH. Для ускорения поиска наиболее адекватного (очередного) термина для аннотации рассматриваемого документа предусмотрены: (а) поиск по текстовому образцу, (б) поиск в таксономии терминов, (в) поиск в списке «ближайших семантических соседей» выбранного термина. Этим обеспечивается подбор термина, который или в точности совпадает с тем, который хотел бы ввести исследователь в соответствии со своими представлениями, или максимально близок к нему.

2. Словарное шкалирование историй болезни пациентов

Составлена выборка из 27 историй болезни пациентов с наследственными болезнями обмена веществ, представленных в виде «документов» системы Медис. Приведем аннотации трех из них (в сокращении).



Табл. 1.

MPS6 (P104)

Acrocephalo-polysyndactyly type II Carpenter (А1)

Acrocephalo-syndactyly type Chotzen (А2)

Arylsulfatases

Corneal Opacity

Craniosynostoses

Corneal Opacity

Cryptorchidism

Genes, Dominant

Genes, Recessive

Ductus Arteriosus, Patent

Hypertelorism

Hearing Loss

Ear Deformities, Acquired

Prognathism

Hearing Loss, Bilateral

Genes, Recessive

Strabismus

Hearing Loss, Sensorineural

Hearing Loss, Conductive

Syndactyly

Hernia

Hearing Loss, Sensorineural




Kyphosis

Hernia, Umbilical




Limb Deformities, Congenital

Hip Joint




Otitis

Hydronephrosis




Rhinitis

Mental Retardation







Syndactyly







Craniosynostoses




Следует отметить, что аннотированию подвергалось формальное описание болезни на основании документации, составляющей ее «историю», представляющее собой дефрагментированное образное представление внешнего вида пациента, в том виде, как оно сложилось в сознании специалистов, дополненное признаками, характеризующими поражение нервной системы, зрения, слуха и внутренних органов у детей.

Этот массив документов был дополнен выборкой резюме статей из электронной библиотеки Pubmed, отвечающих запросу “musculoskeletal+diseases+children+mental+retardation”, включающему признаки, встречающиеся у значительного числа из 27 описанных специалистами больных. Многие из статей этой выборки посвящены описанию историй болезни пациентов, страдавших заболеваниями, включенными в настоящее исследование или близкими к ним.



3. Математические методы анализа выборок документов

В зависимости от того или иного определения меры близости между документами, пространство, в которое они погружены, будет иметь более или менее сложную структуру. В том случае, например, когда близость между документами оценивается субъективно («очень похоже», «довольно похоже», «мало похоже», «непохоже» и т.д.), в пространстве документов может нарушаться не только неравенство треугольника, но даже и свойство симметричности отношения близости. В нашем случае мера близости аннотаций документов определяется как скалярное произведение векторов-«профилей» документов, что делает выбор плоского метрического евклидова пространства небольшого числа измерений адекватным для задач визуализации и интерпретации получаемых статистических решений.

Мера близости между аннотациями в словарном шкалировании основана на мере близости между отдельными терминами словаря. В системе Медис 4.0 реализован подход, описанный в работах [Resnik, 1999; Воинов и др., 2004; Воинов, 2005]. В нем используется два источника информации: таксономическая близость терминов в словаре MeSH и их информационное содержание, определяемое по частоте вхождения терминов в некоторую «обучающую» выборку документов. В настоящей версии системы Медис 4.0 использована выборка, составляющая около 250 000 статей из библиотеки Pubmed, посвященных детским болезням.

Коль скоро известны величины собственного информационного содержания – для каждого термина в отдельности, а также величины общего информационного содержания для каждой пары терминов, можно составить «профиль» документа по его аннотации. Скалярное произведение таких профилей принимается в качестве меры близости между документами. В силу транзитивных отношений между терминами в словаре скалярное произведение двух профилей документов может быть больше нуля даже в тех случаях, когда в них нет ни одного совпадающего термина.

Выбранная в настоящем исследовании мера близости чувствительна к абсолютной величине последнего. Это обстоятельство необходимо учитывать при интерпретации полученных результатов.

4. Собственное семантическое пространство 27 историй болезни

Результат многомерного шкалирования 27 историй болезни приведен на рис.1, где представлены кластеры документов, полученные методом иерархического кластерного анализа. Интуитивно ясно, что документы, принадлежащие некоторому компактному кластеру (например, «К1» на рис.1), относительно далеко отстоящему от других кластеров, должны иметь нечто общее, чем они отличаются от остальных документов. Это дифференцирующее общее составляет «смысл» или «интерпретацию» кластера. Выяснение этого общего может осуществляться чисто визуально. В нашем случае, благодаря наличию формальных аннотаций, интерпретацию кластеров можно начать со статистического анализа аннотаций. Например, можно выделить термины, которые значимо чаще встречаются в аннотациях данного кластера, чем во всех остальных аннотациях выборки. Такие термины будем называть «представительными». Для кластера К1 это – Myopia и Refractive Errors. Каждый из них встречается в 3-х из 4-х документов кластера К1 и относительно редко (8.7%) – в остальных 24 аннотациях.

Табл. 2.


Термин

К1

К2-4

Myopia

75.00%

8.70%

Refractive Errors

75.00%

8.70%

Retinal Degeneration

50.00%

4.35%

Seizures

25.00%

0.00%

...

25.00%

0.00%

Таким образом, несмотря на то, что алгоритм кластерного анализа относится к группе методов классификации без предварительного обучения, где, как принято говорить, «перемешиваются» различные признаки классифицируемых объектов, процедура построения (апостериорных) списков представительных терминов не только выделяет наиболее существенные классифицирующие признаки объектов, но и ведет к статистически обоснованной интерпретации кластеров.




К1

Рис. 1. Семантическое пространство 27 пациентов в проекции на плоскость первых двух координатных осей, словарное шкалирование


Помимо представительных терминов, явно входящих в аннотацию, близость документов объясняется и косвенными семантическими связями между терминами. Например, близость пациентов MPS6 (P104) и Acrocephalopolysyndactyly type II Carpenter (А1) объясняется большим количеством совпадающих дополнительных (второстепенных) признаков в аннотации, что сглаживает различие по их «основным» признакам, характеризующим разные диагнозы (см. табл. 1).

Не исключено, что на последующих этапах исследования принятый алгоритм расчета семантической близости аннотаций может быть пересмотрен с учетом накопленного опыта обработки данных. В частности, перспективным представляется подход, развитый в работах А.М. Петровского и А.Н. Путинцева (см. [Путинцев, 1984] и цитируемые там литературные источники).



5. 27 историй болезни на фоне пространства 700 журнальных статей

Следующим шагом исследования стало построение семантического пространства по совмещенному массиву документов: 27 введенных историй болезни + 700 статей из библиотеки Pubmed (рис. 2). Алгоритм многомерного шкалирования ищет наилучшее соответствие конфигурации, в целом, исходным данным, поэтому неудивительно, что взаиморасположение 27 исходных объектов в пространстве изменилось. Распался кластер К1. В целом конфигурация описаний 27 пациентов оказалась «разобранной» по трем (из семи) компактным кластерам аннотаций статей.



Рис. 2. 27 пациентов на фоне массива литературы.
Также, как и в предыдущем случае, на основе статистического анализа строится список представительных терминов по каждому кластеру. В частности, для двух из трех кластеров, куда входят большинство из 27 пациентов, эти списки выглядят так:

  • Chromosomes, Mutation, «Biochemical Phenomena, Metabolism, and Nutrition», Phenotype, Mental Disorders Diagnosed in Childhood, Chromosome Mapping, Genotype, «Chromosomes, Human, Pair 4», Enzymes, Transferases.

  • Genes, Inheritance Patterns, «Genes, Recessive», «Genes, Dominant», Hernia, Hearing Loss, Ear Diseases, «Limb Deformities, Congenital», Prognathism, Maxillofacial Abnormalities, Mandibular Diseases, Tooth Abnormalities, Jaw Abnormalities, Hypertelorism, Craniofacial Dysostosis, Tooth Diseases, Dysostoses, Synostosis, Syndactyly, Strabismus, «Hernia, Umbilical», Exophthalmos, Nose Diseases, Micrognathism, Fetal Growth Retardation, Craniosynostoses.

Детальное рассмотрение этих списков, являющихся информативным для специалистов-медиков, выходит за пределы настоящей работы. Отметим лишь, что оба списка отражают специфику исходной выборки документов, в них доминируют, в разных проявлениях, собственно генетические и наследственные факторы. Конкретные их фенотипические проявления представлены во втором списке.

Помимо анализа полученных кластеров как целых, полезным оказалось также и рассмотрение отдельных статей, попавших в ближайшую пространственную окрестность к какому-либо из 27 рассматриваемых пациентов. Из этих статей была получена важная и нетривиальная информация, которую практически невозможно было бы найти простым контекстным поиском: в резюме этих статей, так как в этой базе далеко не всегда встречались текстуально интересующие специалистов ключевые слова.



6. Потенциальные возможности применения инструментального комплекса МЕДИС 4.0

Рассматриваемая в статье технология позволяет ставить и решать различные задачи.

Во-первых, выполнять (уточнять) классификацию заболеваний, при которой могут быть обнаружены предположительно новые нозологические формы заболеваний, т.е. объекты, находящиеся на значительном удалении от основных кластеров, соответствующих общепризнанной классификации. Это особенно актуально для врожденной и наследственной патологии, где ежегодно выделяются новые заболевания или подтипы уже известных нозологических единиц.

Во-вторых, осуществлять интеллектуальный анализ данных, основанный на первично визуальной оценке различных кластеров, что позволяет оценить вклад отдельных симптомов в дифференциальную диагностику заболеваний. Одновременно возможно сравнение клинических характеристик одних и тех же наследственных заболеваний, описанных в разных странах у больных, принадлежащих к разным этносам. Другим аспектом этого может быть анализ изменений классической клинической картины давно описанных болезней, на что указывают современные литературные источники.

В-третьих, диагностика неясных случаев по направленному поиску в рефератах (по признаку, представляющемуся врачу наиболее существенным, т.е. диагностически значимым, например, по признаку “Mental Retardation”, как это было сделано в настоящем исследовании) в PubMed можно получить информацию не только о часто встречающихся, но, главное, о редких заболеваниях, недостаточно известных практикующим врачам.

Заключение

Анализ наследственных заболеваний с применением методов многомерной классификации и распознавания образов [Кобринский и др., 1975; Кобринский и др., 1976a; Кобринский и др., 1976b] продемонстрировал вклад различных признаков и возможность дифференциальной диагностики и идентификации новых случаев на основе близости к известным образцам, характерным для конкретных классов заболеваний, в том числе с определенным типом наследования. Новые возможности анализа открывает изложенная выше технология.

В настоящей статье описаны первые результаты моделирования предметной области наследственных болезней методами словарного шкалирования. Из полученных результатов видно, что помимо основной цели исследования – построения и изучения формальных моделей экспертных знаний в исследуемой предметной области, методика позволяет решать и другие актуальные задачи поиска, обработки и представления информации при классификации и необходимости опознания неизвестных объектов. На основе полученных данных можно сделать предварительный вывод о целесообразности в дальнейшем учета диагностической значимости признаков путем придания им «весовых» коэффициентов, что будет способствовать повышению эффективности классифицирующей процедуры.

Важно, что оказывается возможным поиск информации в электронной библиотеке документов не на основе разрозненных «текстовых образцов», а на основе условно целостного «образа» искомого объекта, представленного его аннотацией, что позволяет формировать направление поиска в соответствии с потребностями исследователя (пользователя), а не авторов статей, определивших поле ключевых слов.



Список литературы

[Воинов, 1996] Воинов А.В. Интеллектуальная система анализа данных МЕДИС // Пятая национальная конференция с международным участием «Искусственный интеллект-96». Т.3. – Казань, 1996.

[Воинов, 1998] Воинов А.В. Моделирование интуитивных рассуждений эксперта методами психосемантики и вывода с неопределенностью // Новости искусственного интеллекта. 1998. №2.

[Воинов и др., 2004] Воинов А.В., Кобринский Б.А. Иерархия локально-непротиворечивых полей знаний как модель образного мышления и интуиции эксперта в мягких предметных областях // Девятая национальная конференция по искусственному интеллекту с международным участием: Тр. конф. Т.2. – М.: Физматлит, 2004.

[Воинов, 2005] Воинов А.В. Интеграция онтологий и извлечение холистических знаний. Новости искусственного интеллекта. 2005. № 2.

[Кобринский и др., 1975] Кобринский Б.А., Марасулов А.Ф. Использование метода распознавания образов (АСРО-I) при изучении наследственных систем-ных заболеваний скелета // Актуальные вопросы травматологии и ортопедии: Тр. ЦИТО. Вып.11. – М. 1975.

[Кобринский и др., 1976а] Кобринский Б.А., Никандрова Т.С. Применение метода главных компонент в изучении мукополисахаридозов // Медицинская генетика и наследственные болезни человека: Тр. 2-го МОЛГМИ. Т.74. – М., 1976.

[Кобринский и др., 1976б] Кобринский Б.А., Черемисина Е.Н. Применение алгоритма распознавания образов «Голотип» для анализа фенотипических проявлений заболевания при доминантном и рецессивном типах наследования // Материалы по математическому обеспечению и использованию ЭВМ в медико-биологических исследованиях. – Обнинск, 1976.

[Путинцев, 1984] Путинцев А.Н. Человеко-машиннные процедуры обработки и анализа слабоформализованной информации в задачах управления научными исследованиями. Дисс. … уч. степ. канд. тех. наук. – М., 1984.

[Cox et al., 2000] Cox T.F, Cox M.A.A. Multidimensional Scaling. – New York: Chapman & Hall, 2000.

[Nelson et al., 2004] Nelson S.J., Schopen, M., Savage A.G., Schulman J., Arluk N. The MeSH Translation Maintenance System: Structure, Interface Design, and Implementation / Fieschi M. et al., editors // Proc. of the 11th World Congress on Medical Informatics (2004 Sep 7-11; San Francisco, CA). Amsterdam: IOS Press, 2004.

[Resnik, 1999] Resnik P. Semantic similarity in a taxonomy: An information-based measure and its application to problems of ambiguity in natural language // J. of Artif. Intell. Res. 1999. V.11, N1.

1 Exelixis Inc., 170 Harbor Way South San Francisco, CA, 94080, avoinov@gmail.com

2 125412, Москва, Талдомская ул., 2, ФГУ МНИИПиДХ, b-kobrin@pedklin.ru



Поделитесь с Вашими друзьями:


База данных защищена авторским правом ©uverenniy.ru 2019
обратиться к администрации

    Главная страница