К вопросу автоматической классификации текстов




Скачать 316.26 Kb.
Дата02.04.2016
Размер316.26 Kb.

К вопросу автоматической классификации текстов


К.К. Боярский, Е.А.Каневский, Г.И. Саганенко

ВЕГА представляет собой систему, предназначенную, прежде всего, для классификации и обработки текстовой информации. Обсуждаются особенности анализа текстовой информации, основанной на контент-аналитическом сравнении фраз. Особое внимание уделяется возможности автоматической классификации с использованием морфолого-лексического анализатора. Показано, что система ВЕГА открывает широкие возможности для анализа как текстовых данных, так и анкетной информации в социальных науках.


1. Анализ текста и разнообразие текстовых массивов1


Многие исследователи занимаются анализом содержания текстов при изучении влияния средств массовой информации на общественное мнение, при изучении документов истории и культуры, при изучении политического, экономического, юридического и даже экологического сознания общества. Часто для таких исследований требуется классификация текста по интересующим исследователя темам. В социологии, психологии, других видах научной и прикладной деятельности широко используются разного рода формы, содержащие текстовую и цифровую информацию. Такая структурированная информация представляет собой массивы интервью или анкет, содержащие ответы на открытые и закрытые вопросы. Возможно также использование массивов или единичных документов с неструктурированной текстовой информацией.

Можно выделить нескольких типов текстов, используемых как эмпирический материал в социальных науках, и тем самым дифференцировать выдвигаемые по отношению к ним аналитические задачи [1]. В соответствии с типами текстовых массивов полезно понимать и правильно использовать возможности используемой системы анализа.

1) Существуют стандартизированные исследования, в которых так или иначе приходится использовать отдельные открытые вопросы, имеющие объективное содержание. Так, в ряде случаев используются социальные признаки, вариативный ряд которых представлен огромным количеством ситуаций/наименований/вариантов. Например: Ваша специальность, Место вашей работы, Где Вы родились, Где провели детство, Какой вуз окончили, Где Вы проводили отпуск и др. В такого рода вопросах происходит только актуализация объективной информации, исследователь получает множество «имен» или «номинальных» выражений.

В условиях конкретного исследования в результате сбора информации получается уже определенное (возможно большое, но ограниченное) число позиций, по отношению к которому можно применять те или иные способы «сжимания» информации до обозримого или оптимального количества градаций. Например, по отношению к профессиям можно использовать некоторую готовую их типологию (например, Радаева–Шкаратана), обосновывать и вводить собственные системы типологизации. Классификация и приписывание условных кодов по единичным вопросам не представляет особой проблемы – задача может быть выполнена кустарным образом, что называется «на коленке», или с привлечением простейших возможностей сортировки, присущих программам Word, Excel.

2) В стандартизированных социологических исследованиях возможны отдельные открытые вопросы, предполагающие свободные текстовые высказывания. Стандартизированное исследование для обработки полученных числовых данных предполагает использование специализированных компьютерных программ – чаще всего используется SPSS или его модификации. Простейшие задачи хранения, обработки и анализа числовых данных могут решать такие программы, как Excel, Access.

Простейшие текстовые данные можно хранить в базе данных Access. Можно решить проблему за счет априорного кодирования текстовой информации с тем, чтобы ввести в базу данных еще один цифровой признак. Такая задача разового «закрытия» может решаться без использования специализированных программ текстового анализа (так же, как и в первом случае). Однако, как правило, исследователи, экономя время и усилия, обходятся каким-нибудь простейшим способом «закрытия»/классифика­ции единичных признаков.

3) Существуют массивы, где исходными единицами текста являются короткие эссе. Пример задания, обеспечивающего исходный материал в виде эссе. Обращение к учащимся ПТУ: «…Мы бы хотели получить Ваши описания того, какой для Вас была школьная жизнь …».

Пример ответа в виде текстового эссе:

«Учителя меня недолюбливали, как мне кажется, за мой буйный, веселый характер, так как я всегда создавала большие компании возле себя, и мы очень часто смеялись на уроках. На самом деле здесь намного другое отношение. Если, например, в школе учителя ставят на тебе клеймо, что ты способен только на "3", то больше они тебе и не поставят! Такое мое мнение!» (Рената, 15 лет).

В подобных эссе затрагивается множество составляющих/коор­динат. Применительно к такому массиву можно выявлять оптимальный перечень этих «координат», вводить соответствующие классы и затем уже вычленять таковые в каждом отдельном эссе. В итоге можно получать текстовые и статистические распределения, проводить сравнения текстовых массивов разных категорий респондентов.

Система анализа должна обеспечивать успешную работу с такого рода массивами. При этом существует два разных способа создания базы данных: (а) данные вводятся как целостные эссе и затем уже обрабатываются в рамках возможностей системы; (б) данные вводятся сразу в подготовленную базу данных, в которой предусмотрены отдельные поля под каждую «координату» и соответственно отдельные фрагменты эссе записываются в разные поля.

В первом случае каждое введенное в конкретное поле эссе затем «разрезают» на отдельные «фразы», содержащие «элементарные» идеи, и затем совокупность «фраз» будут классифицировать. Во втором случае достигается большая определенность на предварительном этапе изучения текстового массива – суждения по разным темам уже записаны на автономные поля. Затем для тематически однородных суждений (например, «взаимоотношения с учителями») проще вводить классы и проводить классификацию фраз по отдельным полям.

4) Существуют эссе, представляющие некоторую целостность, в которых нет четкой «зернистости» текста. Такой пример представляют рассуждения респондентов, полученные в ответах на задание “Как вы понимаете следующее высказывание, касающееся наркомании: «Жить – чтобы колоться, и колоться – чтобы жить»”.



Примеры эссе:

– «Жизнь наркомана – не жизнь, а жалкое, скудное существование. Я считаю, что человек, у которого в жизни такой девиз, это уже не человек, и тем более не личность. Ведь в жизни – другие ценности, а если для того, чтобы жить, нужно колоться – это уже не жизнь».

– «Наркоман живет, чтобы колоться, чтобы получать удовольствие. В последствии он принимает наркотики, чтобы продлить себе жизнь».

К анализу данных высказываний уже не подходит тематический анализ, при котором тема выражается специфическим набором слов. Здесь идеи выделения «классов» надо найти за рамками самого текста. Например, ввести признаки «понимают – не понимают суть суждения», «содержат – не содержат моральные оценки» и др. В этом случае можно просто помечать суждения отдельными кодами, применяя многоальтернативные оценки.

В других исследованиях эссе представляют некие целостные тексты и здесь нужно каким-то образом описывать сам характер текста.

5) Большие «сплошные» тексты (в отличие от «резаных» текстов варианта открытых вопросов). Примером таких текстов являются биографии, газетные статьи, главы учебников и др.

Такие тексты можно анализировать «вертикально», а именно «вычисляя» внутреннюю целостность каждого отдельного текста и его интегральные особенности. Такие тексты можно также анализировать «горизонтально», выделяя сквозные «координаты», пронизывающие все или несколько текстов. Как выделять в текстах такого рода сквозные ключевые координаты – это отдельная забота исследователя.

6) Еще один вид больших, но относительно структурированных текстов представляют собой тексты интервью. Эти тексты, так или иначе, разрезаны на блоки тематически за счет вопросов интервьюера.

7) Наконец, есть вариант единичного большого текста, с идеями и структурой которого хочется разобраться. Примером такого текста может выступать какое-то литературное произведение, социально-поли­тическая концепция, программа и др.

8) Совокупность ответов на открытые вопросы.



Примеры вопросов:

Назовите несколько факторов, почему люди в нашей стране получают высшее

образование или учатся в вузах?

Назовите самые положительные стороны получаемого вами образования/самые

неудовлетворительные стороны получаемого вами образования?

Какие бы вы отметили перемены в нашей стране как самые позитивные/как самые

негативные?

Что для вас самое главное в жизни?

Ответы на такие вопросы представляют совокупность «назывательных» суждений, каждое из которых затрагивает (преимущественно) один аспект/момент/фактор/свойство/характеристику (такие однотематические суждения мы называем «фразами»). Когда в одно суждение вмонтировано несколько идей, тогда такое суждение мы разделяем на самостоятельные элементы – фразы. Такие тексты мы еще называем «резаными текстами».

В принципе, если анкета релевантна категории респондентов, то, как правило, респонденты вписывают несколько суждений. Иногда в самом вопросе уже сформулирована просьба – назвать определенное число позиций. Например,

1. Напишите, пожалуйста, 10 жизненных ценностей, наиболее важных для Вас.

2. Оцените значимость для Вас каждой ценности, исходя из 100 баллов.



Балл

1-10. Жизненная ценность










(всего 10 строк)

В такие опросы мы включаем разное, но относительно большое количество респондентов: от 20 до 400 человек. Так что только на один вопрос мы получаем от 20 до 1000 и более суждений/фраз/формулиро­вок. Например, в исследовании, посвященном изучению ценностей, участвовало 218 человек, в среднем каждым было сформулировано 8 позиций, и в сумме исследователь получил 1745 текстовых высказываний в ответ на данный вопрос.

Надо еще понимать важную вещь: анкеты, построенные на открытых вопросах, включают множество (до 30 и более) открытых вопросов, соответственно мы имеем дело с совокупностью из 30 и более текстовых массивов. В конечном итоге объем суждений респондентов, которые получаются в опросах, составляет иногда до 5–10 тысяч высказываний. Так что работать с таким значительным эмпирическим массивом текстовых суждений (еще и составленным из отдельных совокупностей) без серьезной специализированной компьютерной поддержки – вещь может и возможная, но сверхтрудоемкая и мало продуктивная.

Как правило, в общей совокупности вопросов мы имеем как одиночные вопросы, так и группы «корреспондирующих вопросов».

В ответах респондентов на любой открытый вопрос попадается значительное число совпадающих ответов и/или ответы группируются вокруг определенных фокусных тем. Фактически каждый открытый вопрос анкеты или интервью дает самостоятельный массив текстовой информации, который требуют своей системы анализа. Кроме того, в анкетах часто используются (как мы их называем) «корреспондирующие вопросы», в которых используется общий формат опрашивания/опи­сания по поводу некоторой системной совокупности объектов или системной совокупности свойств одного объекта.

Таким образом, текстовая информация весьма разнообразна. Встает вопрос, как можно ее обрабатывать?

2. Что есть на рынке программ


Известен ряд компьютерных программ по анализу текстов, которые основаны на широком использовании словарей. В частности, KWALITAN [2] позволяет работать с документами, разделять тексты на сегменты и описывать их совокупностью кодов, просматривать коды в алфавитном порядке или упорядочивать эти коды в соответствии с их частотами. Широко применяемая ныне программа TEXTPACK PC [2, 3] используется в таких областях, как контент-анализ, литературный и лингвистический анализ. Как основные достоинства программы разработчики отмечают широкие возможности для вычисления частот выделенных слов и извлечения ключевых слов с их контекстом.

Сегодня методы анализа текстов используются, в основном, для тематического рубрицирования входящего потока документов и подсчета частот встречаемых слов и словосочетаний. Хотя методы рубрикации и отличаются от методов классификации, они достаточно близки между собой. Рассмотрим поэтому некоторые системы, в которых присутствует инструмент авторубрикации.

Программа TACT была разработана для лингвистического анализа текста, схема работы предполагает осуществление трех последовательных процедур2. Вначале в тексте документа выявляется ряд терминов, характеризующих его тематику. На их основе формируются обобщенные понятия (смысловые категории), наиболее точно и полно описывающие основные смысловые блоки текста. Составляются исследовательские базы данных. Далее происходит подсчет частот встречаемости категорий в тексте, анализ связей, выявление контекстов употребления в документе. Наконец, строятся таблицы и графики смысловых взаимосвязей.

Historical Text Analyzer (HTA) - универсальная программа анализа статистических особенностей текстов, подготовленная специалистами МФТИ [4]. В программе реализованы методы анализа контекста, метод частотных распределений и метод парных частот встречаемости последовательных частей речи.

Астарта представляет собой экспертный рубрикатор, предназначенный для сбора, хранения и семантического анализа текстовых материалов3. Под анализом здесь понимается автоматическое рубрицирование и группировка, а также интеллектуальная выборка информации по заданной теме. Отличительной особенностью авторубрикатора Астарты является автоматическое обучение рубрикатора, т. е. автоматическое построение списка терминов и понятий, определяющих принадлежность документа к рубрике, а также настройка пользователем способа автоматической рубрикации документов.

Технология TopTree, разработанная компанией "Гарант-Парк-Ин­тернет", позволяет автоматизировать процесс построения реальных смысловых связей, присутствующих в тексте документов4. Выделенные при помощи автоматического анализа ключевые темы, обрабатываются алгоритмами кластерного анализа, которые позволяют объединить в рубрики документы близкого содержания на основе общности их главных тем, а также построить иерархию рубрик. Получаемые результаты могут служить основой для построения более «строгих» классификаторов после предварительной корректировки. Рубрикатор, сформированный на базе эталонных текстов, может использоваться для автоматической классификации и маршрутизации новых документов.


3. ДИСКАНТ и ВЕГА – системы для анализа текстов


Система ДИСКАНТ была создана в 1993–1998 гг. для классификации и анализа текстовых массивов [5]. Она обеспечила мощной компьютерной поддержкой работу различных исследователей и аналитиков, имеющих дело с анализом текстовой информации.

ДИСКАНТ представлял собой систему для классификации и обработки как текстовой, так и другого рода анкетной информации, которая размещалась в базе данных системы. Система была разработана под DOS и позволяла классифицировать содержание текстовой информации по множеству оснований, составлять указатели и словари слов и фраз (с указанием частоты их встречаемости), осуществлять поиск слов в тексте и в словаре. Были разработаны разнообразные способы визуализации результатов в виде гистограмм, циклограмм, сопряженных двумерных диаграмм. Система нашла применение в целом ряде социологических исследований [1], но сегодня она безнадежно устарела.

На основе системы ДИСКАНТ в 2003–2008 гг. разработана система ВЕГА [6]. ВЕГА – это диалоговая система классификации и анализа текстов, использующая принципы контент-анализа, словари и классификаторы. Система в основном предназначена для обработки структурированной и, прежде всего, анкетной информации, представляющей собой текстовые ответы респондентов на открытые и полузакрытые вопросы социологических анкет (одно- и многоальтернативные). Система обеспечивает статистический анализ ответов на вопросы такого рода. Кроме того, система позволяет выполнять некоторые элементы анализа текста: составление словарей, подсчет встречаемости слов, поиск слов по словарю и по тексту и т. д.

В системе вся исходная информация хранится в собственной базе данных (БД). При этом в случае анкетной информации ответы на одну анкету составляют одну запись, ответы на один вопрос – одно поле. Каждое поле имеет свой номер и свое имя, а также свой определенный тип. Набор полей и их параметров образует структуру БД.

Выбранный набор типов полей позволяет наиболее адекватно хранить ответы респондентов, учитывая, что в анкетах имеются открытые, закрытые и полузакрытые вопросы, причем последние могут быть как одно-, так и многоальтернативные. Для удобства пользователей, для контроля вводимой информации и для правильной интерпретации данных предусмотрено 3 основных типа полей: символьное для хранения текстовой информации, целое для хранения целых чисел (номера вариантов ответов, выбранных респондентом) и вещественное для хранения одного вещественного числа.

Можно использовать поля составного типа. Такое поле позволяет производить независимую обработку своих частей и в то же время полностью сохранить структуру анкеты. Чаще всего используются два типа полей такого рода: смешанное 1, первая часть которого представляет собой целый тип, а вторая – символьный, и смешанное 2, первая часть которого представляет собой символьный тип, а вторая – целый.

Одним из основных достоинств системы ВЕГА является возможность анализа текстовой информации, в частности, ответов на открытые и полуоткрытые вопросы [7]. Предварительно вся текстовая информация должна быть разделена на фразы таким образом, чтобы одна фраза соответствовала одной теме (фраза – это фрагмент текста размером от одного слова до нескольких предложений). Сущность анализа заключается в классификации текстовой информации [8]. В ручном варианте классификация состоит из трех основных процедур:


  • разработки классификатора,

  • собственно классификации заранее отобранных или придуманных фраз (они получают статус нормативных фраз),

  • идентификации, в процессе которой каждая фраза основного текстового массива ставится в соответствие с одной из нормативных фраз, наиболее близкой ей по смыслу.

После этого очередной текстовой фразе приписывается порядковый номер указанной нормативной фразы – своеобразный адрес в классификаторе, по которому в дальнейшем определяется класс и группа текстовой фразы.

В принципе полная реализация классификационного процесса осуществляется путем итерации всех трех вышеперечисленных процедур. Такая итерационная схема позволяет выполнять анализ порциями. Обычно только после нескольких итераций удается провести адекватную классификацию всего текстового массива и получить классификатор, оптимальный по структуре [8,9].

Принципиально новой (по сравнению с системой ДИСКАНТ) является возможность автоматической классификации текста, при которой не только автоматически выполняется идентификация, но одновременно создаются классификатор и нормативные фразы, т. е. весь процесс классификации выполняется автоматически. Полученный классификатор обычно требует ручного редактирования в виде объединения групп [10]. Такая автоматическая классификация с успехом может быть применена для классификации сравнительно кратких и однозначных текстовых фрагментов (ими могут быть, например, названия должностей и специальностей, характеристика образования и др.).

Рассмотрим подробнее ряд вопросов, связанных с процессами классификации текста, начиная с идентификации.


4. Особенности сравнения фраз и слов


В системе ВЕГА идентификация основана на процедуре сравнения текстовых фраз (т. е. взятых непосредственно из текста) с нормативными. Если фразы не совпадают текстуально, каждая текстовая фраза разлагается на отдельные слова. Для каждого такого слова в нормативном словаре ищется слово, совпадающее с ним по правилам сравнения слов [11]. Такое сравнение, так же, как и в системе ДИСКАНТ, производится по начальной части слова, причем ее размер для большинства слов определяется по таблице. Если такое слово имеется в нормативном словаре, то для него фиксируются номера тех нормативных фраз, в которых оно встретилось. Для каждой из таких нормативных фраз подсчитывается вес. Та нормативная фраза, которая получит наибольший вес, и будет считаться наиболее близкой к анализируемой текстовой фразе. Для улучшения процедуры сравнения исследователь может выделить отдельные, наиболее значимые, характерные слова и объявить их ключевыми. Предусмотрена возможность независимого задания весов простых и ключевых слов.

При автоматической классификации (если считать, что вначале классификатор и нормативные фразы отсутствуют) первая же текстовая фраза, естественно, ни с чем не совпадет и станет нормативной фразой. При этом в классификаторе образуется первая группа. Вторая фраза из текста сравнится с уже имеющейся нормативной фразой. Если она совпадет, то у нее зафиксируется ссылка на номер этой нормативной фразы. Если нет, то она станет второй нормативной фразой и образует вторую группу в классификаторе. Каждая следующая фраза из текста будет сравниваться со всеми имеющимися в наличии нормативными фразами. При несовпадении она сама будет становиться нормативной и создавать новую группу в классификаторе. В результате, в последнем будет образовано столько групп, сколько появится нормативных фраз.


5. Морфолого-лексический анализатор


Подобный способ имеет, по меньшей мере, один существенный недостаток: такие слова, как деньги, квартплата, алименты, налоги, госсредства, бюджет и дивиденды никогда не совпадут, хотя с точки зрения тематики все они связаны с темой “Деньги”. Для устранения этого недостатка следует применить какой-либо классификатор русскоязычных слов и морфологический анализатор текста для получения нормальной формы слова (инфинитива для глагола, именительного падежа единственного числа для существительных и прилагательных).

Анализ целесообразности использования готового семантического анализатора В.А. Тузова для подобного морфолого-классификацион­ного анализа показывает, что его использование для этой цели вызывает определенные трудности. Технически удобнее оказалось создать морфолого-лексический анализатор текста на основе разработанного ранее морфологического анализатора [12, 13], словаря и семантического классификатора В.А. Тузова [14]. Версию системы ВЕГА, содержащую такой морфолого-лексический анализатор, в дальнейшем будем называть профессиональной версией системы (в отличие от обычной версии, которая не содержит анализатора).


Таблица 1. Фрагмент трехвариантного семантического классификатора5


Грубо

Средне

Точно

Название класса по Тузову

$1214A

$1214

$1214

ФО Неодуш. Деньги







$121401

ФО Неодуш. Деньги Плата




$121402B

$121402

ФО Неодуш. Деньги Взыск







$1214021

ФО Неодуш. Деньги Взыск Штраф







$1214022

ФО Неодуш. Деньги Взыск Долг







$1214023

ФО Неодуш. Деньги Взыск Налог




$121403B

$121403

ФО Неодуш. Деньги Выплата







$1214030

ФО Неодуш. Деньги Выплата Мзда







$1214031

ФО Неодуш. Деньги Выплата Субсидия







$1214032

ФО Неодуш. Деньги Выплата Гонорар







$1214033

ФО Неодуш. Деньги Выплата Возмещение




$12141

$12141

ФО Неодуш. Деньги Купюра




$12142B

$12142

ФО Неодуш. Деньги Авуары







$121421

ФО Неодуш. Деньги Авуары Облигация







$121422

ФО Неодуш. Деньги Авуары Вексель







$121423

ФО Неодуш. Деньги Авуары Аккредитив







$121424

ФО Неодуш. Деньги Авуары Квитанция







$121425

ФО Неодуш. Деньги Авуары Сберкнижка




$12145B

$12145

ФО Неодуш. Деньги Капитал







$121450

ФО Неодуш. Деньги Капитал Драгоценности







$121451

ФО Неодуш. Деньги Капитал Драгоценные_камни







$12146

ФО Неодуш. Деньги Девальвация




$12147/0

$12147/0

ФО Неодуш. Деньги Прибыль-Убыль

Для расширения возможностей своего использования семантический классификатор, содержащий около 1650 классов, был дополнен двумя сокращенными вариантами: коротким на 190 классов и средним на 670 классов (табл. 1). Словарь В.А. Тузова на сегодня содержит 165 тыс. лексем, описывающих около 145 тыс. слов русского языка. Для каждой лексемы указана принадлежность к тому или иному классу, дано ее морфологическое описание и приведена синтактика – набор аргументов, с которыми лексема может быть связана в тексте. Этот словарь был преобразован к более удобному виду – на его основе создана морфологическая база данных.

Морфолого-лексический анализатор текста, используя морфологическую базу, осуществляет разбор текста, поданного на его вход. Результат разбора каждого слова выдается в виде леммы (слова в нормальном виде) и класса по семантическому классификатору. В случае неоднозначного разбора используются специальные методы для снятия неоднозначности [15]. Проведенные исследования показали, что при их применении неоднозначность разбора слов снижается до 6%.

Для использования морфолого-лексического анализатора в системе ВЕГА введены дополнительные параметры, позволяющие производить идентификацию текста с использованием морфологии в трех вариантах: точно, средне и грубо. В зависимости от выбранного режима для анализа используется соответствующий вариант семантического классификатора. В первом варианте (классификатор на 1650 классов) все вышеприведенные слова, связанные с темой “Деньги”, относятся к разным классам: деньги к классу $1214, квартплата – $121401, алименты – $121402, налоги – $1214023, госсредства – $12142, бюджет – $12145 и дивиденды – $12147/0 (см. табл. 1). При использовании морфологии в режиме «средне» имеем следующую картину: деньги и квартплата относятся к классу $1214, алименты и налоги – $121402B, госсредства – $12142B, бюджет – $12145B и дивиденды – $12147/0. Наконец, в последнем варианте (классификатор на 190 классов) все вышеприведенные слова относятся к одному и тому же классу $1214A, который так и называется «ФО Неодуш. Деньги». Предусмотрена возможность задания веса «класса», т. е. задания дополнительного веса при совпадении классов у двух слов.


6. Автоматический анализ текстовой информации


В результате работы морфолого-лексического анализатора указанные выше слова (деньги, квартплата, алименты, налоги, госсредства, бюджет и дивиденды) по выбору исследователя будут относиться к семи, пяти или даже одному классу, что на наш взгляд позволит существенно улучшить процесс сравнения фраз, а, следовательно, и упростит их идентификацию.

Предварительные исследования показали, что точность идентификации фраз значительно возрастает. Это позволяет в простейших случаях (например, при классификации специальностей) вообще отказаться от процедуры выделения ключевых слов.

В качестве исходной информации для более тщательного исследования возьмем результаты опроса, проведенного Г.И. Саганенко в 1993 году. На первый вопрос анкеты «Как Вы считаете, произошли ли в нашем обществе какие-то позитивные перемены, что бы Вы отметили тут в первую очередь?» ответило 236 респондентов, причем из их ответов было выделено 378 различных фраз. Для проведения ручной классификации этих фраз в них было выделено 466 ключевых слов, в том числе 150 различных, отобрано и классифицировано 112 фраз, которые стали нормативными. Все 378 текстовые фразы в конечном итоге (после нескольких итераций и изменений классификатора) распределились по 41 группе, входящих в состав 12 классов.

Таблица 2. Зависимость количества групп от задания идентичности



Задание идентичности

Количество групп

Вес

Уровень отсечки

Без морфологии



Морфология включена

простых слов

ключевых слов

классов

Грубо

Средне

Точно

1

2/1

0/2

2

112







1

2/1

0/2

3

257*

65

82

84

1

2/1

0/2

4

287*

102

158

199°

1

2/1

0/2

5



164

194°

214*

При использовании автоматической классификации ее режим задается параметрами идентичности, а именно, весом простых и ключевых слов, весом классов (только при включенной морфологии), уровнем отсечки и выбором варианта семантического классификатора [10]. Сравнительные результаты автоматического анализа указанных выше 378 фраз сведены в таблицу 2, в которой приведено полученное при классификации количество групп для разных вариантов задания параметров идентичности. Заметим, что в таблице для веса ключевых слов и веса классов приведены по два значения, из которых первое относится к случаю «Морфология выключена», а второе – к случаю «Морфология включена».

7. Детальный анализ полученных результатов


В качестве индикатора правильности анализа выберем группу 1 из 8 класса ("Рыночная экономика, рыночные отношения"), полученную при ручной классификации и содержащую 11 фраз. Здесь первая фраза является нормативной, затем приведены относящиеся к ней фразы из текста, каждой из которых предшествуют две цифры: номер поля и номер записи.

"РЫНОЧНАЯ ЭКОНОМИКА, ОТНОШЕНИЕ, начало РЫНОЧНЫХ РЕФОРМ"

1 24 движение к РЫНОЧНОЙ ЭКОНОМИКЕ

1 35 Попытка провести РЕФОРМЫ

1 54 Запуск РЕФОРМ

1 56 Начало РЕФОРМЫ

1 57 Начало формирования РЫНОЧНЫХ ОТНОШЕНИЙ

1 127 РЫНОЧНАЯ ЭКОНОМИКА

1 131 начало ЭКОНОМИЧЕСКИХ РЕФОРМ

1 141 Начало хоть каких-то РЕФОРМ

1 168 РЫНОЧНЫЕ отношения

1 187 зарождение РЫНОЧНОЙ ЭКОНОМИКИ

1 198 начало процесса создания цивилизованной ЭКОНОМИКИ

Далее приведены выборки из результатов автоматического анализа для отбора этих 11 фраз при различных параметрах идентичности. Данные приведены в порядке столбцов и строк таблицы 2. Поскольку при таком анализе название полученных групп полностью совпадают с образующими их нормативными фразами, приводятся только названия групп. Здесь и далее группа из четырех цифр представляет собой параметры идентичности: вес слова, вес ключевого слова, вес класса и уровень отсечки соответственно.

1) Разбор «Без морфологии-1202». Как видно, есть небольшой шум: присутствует 4 лишних фразы6.

Группа 18 "движение к РЫНОЧНОЙ ЭКОНОМИКЕ"

1 24 движение к РЫНОЧНОЙ ЭКОНОМИКЕ

1 57 Начало формирования РЫНОЧНЫХ ОТНОШЕНИЙ

1 127 РЫНОЧНАЯ ЭКОНОМИКА

1 168 РЫНОЧНЫЕ отношения

1 187 зарождение РЫНОЧНОЙ ЭКОНОМИКИ

1 198 начало процесса создания цивилизованной ЭКОНОМИКИ

Группа 23 "Попытка провести РЕФОРМЫ"

1 35 Попытка провести РЕФОРМЫ

1 54 Запуск РЕФОРМ

1 56 Начало РЕФОРМЫ

1 141 Начало хоть каких-то РЕФОРМ

Группа 60 "Ломка искусственного ЭКОНОМИЧЕСКОГО

ОБЩЕСТВА"

1 96 Ломка искусственного ЭКОНОМИЧЕСКОГО ОБЩЕСТВА

1 131 начало ЭКОНОМИЧЕСКИХ РЕФОРМ

1 176 Включение ОБЩЕСТВА в общецивилизованные процессы

1 235 ЭКОНОМИЧЕСКИЕ СВЯЗИ отделившихся республик, их упрочение

между собой и с капиталистическими странами

1 248 появление ЭКОНОМИЧЕСКОЙ СВОБОДЫ

2) Разбор «Без морфологии-1203». Лишних фраз нет.



Группа 26 "движение к РЫНОЧНОЙ ЭКОНОМИКЕ"

1 24 движение к РЫНОЧНОЙ ЭКОНОМИКЕ

1 127 РЫНОЧНАЯ ЭКОНОМИКА

1 187 зарождение РЫНОЧНОЙ ЭКОНОМИКИ

Группа 41 "Попытка провести РЕФОРМЫ"

1 35 Попытка провести РЕФОРМЫ

Группа 64 "Запуск РЕФОРМ"

1 54 Запуск РЕФОРМ

Группа 66 "Начало РЕФОРМЫ"

1 56 Начало РЕФОРМЫ

1 131 начало ЭКОНОМИЧЕСКИХ РЕФОРМ

1 141 Начало хоть каких-то РЕФОРМ

Группа 67 "Начало формирования РЫНОЧНЫХ ОТНОШЕНИЙ"

1 57 Начало формирования РЫНОЧНЫХ ОТНОШЕНИЙ

1 168 РЫНОЧНЫЕ отношения

Группа 211 "начало процесса создания цивилизованной

ЭКОНОМИКИ"



1 198 начало процесса создания цивилизованной ЭКОНОМИКИ

3) Разбор «Без морфологии-1204». Лишних фраз нет.



Группа 31 "движение к РЫНОЧНОЙ ЭКОНОМИКЕ"

1 24 движение к РЫНОЧНОЙ ЭКОНОМИКЕ

1 127 РЫНОЧНАЯ ЭКОНОМИКА

1 187 зарождение РЫНОЧНОЙ ЭКОНОМИКИ

Группа 45 "Попытка провести РЕФОРМЫ"

1 35 Попытка провести РЕФОРМЫ

Группа 69 "Запуск РЕФОРМ"

1 54 Запуск РЕФОРМ

Группа 71 "Начало РЕФОРМЫ"

1 56 Начало РЕФОРМЫ

Группа 72 "Начало формирования РЫНОЧНЫХ ОТНОШЕНИЙ"

1 57 Начало формирования РЫНОЧНЫХ ОТНОШЕНИЙ

1 168 РЫНОЧНЫЕ отношения

Группа 154 "начало ЭКОНОМИЧЕСКИХ РЕФОРМ"

1 131 начало ЭКОНОМИЧЕСКИХ РЕФОРМ

Группа 164 "Начало хоть каких-то РЕФОРМ"

1 141 Начало хоть каких-то РЕФОРМ

Группа 235 "начало процесса создания цивилизованной

ЭКОНОМИКИ"



1 198 начало процесса создания цивилизованной ЭКОНОМИКИ

4) Разборы «Грубо-1123» и «Грубо-1124» опущены из-за слишком большого шума (45 лишних фраз для последнего варианта).

5) Разбор «Грубо-1125». Как видно, есть небольшой шум: 8 лишних фраз.

Группа 9 "ЛЮДИ начали пытаться сами определить свой

профессиональный путь"

1 10 ЛЮДИ начали пытаться сами определить свой профессиональный путь

1 57 Начало формирования РЫНОЧНЫХ ОТНОШЕНИЙ

1 69 появление деловых, умных ЛЮДЕЙ в РОССИИ

1 70 появление деловых, умных ЛЮДЕЙ в РОССИИ

1 100 Появилось больше возможностей к реализации и ТВОРЧЕСКОГО

ПОТЕНЦИАЛА человека

1 106 ЛЮДИ стали больше рассчитывать на свои силы

1 167 ЛЮДИ стали СВОБОДНО мыслить

1 198 начало процесса создания цивилизованной ЭКОНОМИКИ

Группа 23 "движение к РЫНОЧНОЙ ЭКОНОМИКЕ"

1 24 движение к РЫНОЧНОЙ ЭКОНОМИКЕ

1 127 РЫНОЧНАЯ ЭКОНОМИКА

1 187 зарождение РЫНОЧНОЙ ЭКОНОМИКИ

Группа 124 "РЫНОЧНЫЕ отношения"

1 168 РЫНОЧНЫЕ отношения

Группа 32 "Попытка провести РЕФОРМЫ"

1 35 Попытка провести РЕФОРМЫ

1 80 Появление возможности каждому попытаться что-то изменить в своей

ЖИЗНИ

1 177 Сформировалась обстановка, в которой стало необходимым принятие



ответственности за свою судьбу

Группа 51 "Запуск РЕФОРМ"

1 54 Запуск РЕФОРМ

1 56 Начало РЕФОРМЫ

1 131 начало ЭКОНОМИЧЕСКИХ РЕФОРМ

1 141 Начало хоть каких-то РЕФОРМ

Примечание. Следует обратить внимание на формирование группы 51 («Запуск реформ»), на примере которой хорошо видны принципы отбора фраз. Здесь нормативная фраза – Запуск реформ полностью совпадает с первой текстовой фразой. Три остальные фразы содержат два важных слова: начало и реформа. Второе слово содержится и в нормативной фразе, за счет совпадения самого слова приписываем к весу этой нормативной фразы «1». Поскольку естественно совпал и класс, к суммарному весу добавляем «2». Первое слово у всех текстовых фраз не совпадает ни с одним словом из нормативной фразы, однако у слов запуск и начало совпадают классы – по семантическому классификатору оба эти слова имеют класс «$11100». В результате, к суммарному весу добавляется еще «2», получаем «5», что и обеспечивает попадание данных текстовых фраз в эту группу.

6) Разборы «Средне-1123» и «Средне-1124» опущены из-за слишком большого шума (17 лишних фраз для последнего варианта).

7) Разбор «Средне-1125». Шум минимальный: одна лишняя фраза.

Группа 26 "движение к РЫНОЧНОЙ ЭКОНОМИКЕ"

1 24 движение к РЫНОЧНОЙ ЭКОНОМИКЕ

1 127 РЫНОЧНАЯ ЭКОНОМИКА

1 187 зарождение РЫНОЧНОЙ ЭКОНОМИКИ

Группа 59 "Начало формирования РЫНОЧНЫХ ОТНОШЕНИЙ"

1 57 Начало формирования РЫНОЧНЫХ ОТНОШЕНИЙ

1 168 РЫНОЧНЫЕ отношения

1 198 начало процесса создания цивилизованной ЭКОНОМИКИ

Группа 37 "Попытка провести РЕФОРМЫ"

1 35 Попытка провести РЕФОРМЫ

1 177 Сформировалась обстановка, в которой стало необходимым принятие ответственности за свою судьбу



Группа 58 "Запуск РЕФОРМ"

1 54 Запуск РЕФОРМ

1 56 Начало РЕФОРМЫ

1 131 начало ЭКОНОМИЧЕСКИХ РЕФОРМ

1 141 Начало хоть каких-то РЕФОРМ

8) Разбор «Точно-1123» опущен из-за слишком большого шума: 21 лишняя фраза.

9) Разбор «Точно-1124». Шум минимальный: одна лишняя фраза.

Группа 26 "движение к РЫНОЧНОЙ ЭКОНОМИКЕ"

1 24 движение к РЫНОЧНОЙ ЭКОНОМИКЕ

1 127 РЫНОЧНАЯ ЭКОНОМИКА

1 187 зарождение РЫНОЧНОЙ ЭКОНОМИКИ

1 219 Тенденция ПЕРЕХОДА на ЦИВИЛИЗОВАННЫЙ путь развития



Группа 37 "Попытка провести РЕФОРМЫ"

1 35 Попытка провести РЕФОРМЫ

Группа 57 "Запуск РЕФОРМ"

1 54 Запуск РЕФОРМ

1 56 Начало РЕФОРМЫ

1 131 начало ЭКОНОМИЧЕСКИХ РЕФОРМ

1 141 Начало хоть каких-то РЕФОРМ

Группа 58 "Начало формирования РЫНОЧНЫХ ОТНОШЕНИЙ"

1 57 Начало формирования РЫНОЧНЫХ ОТНОШЕНИЙ

1 168 РЫНОЧНЫЕ отношения

1 198 начало процесса создания цивилизованной ЭКОНОМИКИ

10) Разбор «Точно-1125» – лишних фраз нет.



Группа 26 "движение к РЫНОЧНОЙ ЭКОНОМИКЕ"

1 24 движение к РЫНОЧНОЙ ЭКОНОМИКЕ

1 127 РЫНОЧНАЯ ЭКОНОМИКА

1 187 зарождение РЫНОЧНОЙ ЭКОНОМИКИ

Группа 38 "Попытка провести РЕФОРМЫ"

1 35 Попытка провести РЕФОРМЫ

Группа 59 "Запуск РЕФОРМ"

1 54 Запуск РЕФОРМ

1 56 Начало РЕФОРМЫ

1 131 начало ЭКОНОМИЧЕСКИХ РЕФОРМ

1 141 Начало хоть каких-то РЕФОРМ

Группа 60 "Начало формирования РЫНОЧНЫХ ОТНОШЕНИЙ"

1 57 Начало формирования РЫНОЧНЫХ ОТНОШЕНИЙ

1 168 РЫНОЧНЫЕ отношения

1 198 начало процесса создания цивилизованной ЭКОНОМИКИ

Таким образом, на примере выбранного нами индикатора (фраз из группы 1 класса 8) мы детально рассмотрели результаты, полученные при использовании автоматической классификации. Наиболее точные из полученных результатов отмечены знаком «*» в таблице 2, менее точные, но наш взгляд вполне приемлемые, отмечены знаком «°».


8. Заключение


Предварительные исследования показали, что при использовании морфолого-лексического анализа точность идентификации фраз значительно возрастает. Это позволяет в простейших случаях (например, при классификации специальностей респондентов) использовать автоматическую классификацию при полном отказе от выделения ключевых слов [10]. Как показано выше, этот вывод справедлив и при анализе ряда других текстов, хотя и требует еще тщательных дополнительных исследований. В частности, необходимо определить оптимальный путь для классификации всех текстовых фраз. По существу, мы заменили все три этапа ручной классификации двумя: автоматической классификацией и новой процедурой – объединением полученных групп в более крупные группы и классы, что может выполняться только вручную.

Естественно, что какой бы ни был использован словарь, в реальном тексте всегда найдутся слова, которые в словаре отсутствуют. Прежде всего, это географические названия, названия организаций, фамилии, имена и отчества людей. Предусмотрено, что в случае отсутствия слова в словаре система ВЕГА автоматически переходит на режим сравнения этих слов по правилам, использующимся при режиме «Морфология выключена». При желании более точного анализа можно осуществить пополнение словаря новыми словами, для чего разработано специальное вспомогательное средство – система Adviser [16].

В заключение отметим наиболее важные отличительные черты описанной выше системы.

ВЕГА представляет собой систему для анализа текста, а также для обработки другой анкетной информации. Выделение классификации и идентификации текста в качестве самостоятельных процедур существенно упрощает процессы как самого анализа, так и построения классификатора. Развитая система словарей и наличие пермутационного вывода существенно упрощает подбор нормативных фраз, являющихся опорой процесса идентификации.

По нашему мнению, на сегодня ВЕГА является единственной системой, позволяющая производить автоматическую классификацию текста с одновременным созданием классификатора.

Развитая система словарей и простота самой системы, а также наличие подробной системы справки позволяет рекомендовать систему ВЕГА для широкого использования при самых разнообразных работах, связанных как с анализом текста, так и исследованием употребления отдельных слов. Система может использоваться также как простая и удобная база данных.

Система ВЕГА предоставляет новые возможности для анализа текстов и текстовых данных. В качестве текстов могут выступать как любые «длинные» неструктурированные тексты – например, концепция, литературный или иной текст, интервью, биография, дневники и др., так и анкетная информация в социальных науках.

Дополнительным преимуществом профессиональной версии системы ВЕГА является возможность получения частотного словаря для введенного текста, что открывает перспективы более широкого ее применения (например, для нужд социолингвистики и лингвистики).


Литература


  1. Многообразие возможностей социологического изучения сферы образования / Под научной ред. Г.И. Саганенко. СПб.: ГНУ «ИОВ РАО», 1994. Ч. 1. 116 с.; Ч. 2. 157 с.

  2. Popping Roel. Computer-Assisted Text Analysis. London: Sage Publications, 2000. 240 p.

  3. TEXTPACK PC. Short Description (by P. Ph. Mohler, C. Zull). Mannheim, ZUMA, 1995.

  4. Осиновский Д.Э., Ровный А.С., Новицкий Д.В. Компьютери­зированный текстологический анализ исторических документов: возможности программы HTA // Информационный бюллетень Ассоциации "История и компьютер", N 22, январь 1998.

  5. Каневский Е.А., Саганенко Г.И., Гайдукова Л.М., Клименко Е.Н. Диалоговая система классификации и анализа текстов // Социология: 4М, 1997. №9. - С. 198–216.

  6. Саганенко Г.И., Каневский Е.А., Боярский К.К. Контексты эмпирического познания в социологии и возможности программы ВЕГА // Телескоп, 2008, №6. - С. 43–55.

  7. Каневский Е.А. Вопросы контент-анализа символьной информации // Информационные технологии в гуманитарных и общественных науках. СПб.: СПб ЭМИ РАН, 1994. - С. 79–94.

  8. Каневский Е.А., Саганенко Г.И. Концептуальное обоснование компьютерного анализа массивов с текстами // Социология: 4М, 1997. №9. - С. 65–81.

  9. Каневский Е.А., Лезин Г.В. Анализ текстов // Экономико-матема­тические исследования: математические модели и информа­ционные технологии. СПб. Вып. 2. 2001. - С. 260–285.

  10. Боярский К.К., Каневский Е.А. Вега – система для работы с текстами // Экономико-математические ис­следования: матема­тические модели и информационные технологии. СПб.: Нестор История. Вып. 6. 2008. - С. 184–200.

  11. Каневский Е.А. Методы классификации текста // Труды Между­народного семинара Диалог’98 по компьютерной лингвистике и ее приложениям. Казань: ООО «Хэтер», 1998. - С. 488–497.

  12. Каневский Е.А., Колпакова Н.В. К вопросу построения морфо­логического анализатора // Труды Международного семинара Диалог'99 по компьютерной лингвистике и ее приложениям. М.: РосНИИ Искусственного Интеллекта, 1999. Т.2. С. 98–106.

  13. Боярский К.К., Каневский Е.А., Клименко Е.Н. Морфологический анализ текста в системе MAZE-32 // Информационные техно­логии в гуманитарных и общественных науках. СПб.: СПб ЭМИ РАН. Вып. 11. 2001. - С. 1–8.

  14. Тузов В.А. Компьютерная семантика русского языка. СПб.: Изд во С.-Петерб. ун-та, 2004. 400 с.

  15. Боярский К.К.Каневский Е.А. К вопросу раскрытия неодно­значностей в русскоязычном тексте // Языковая инженерия: в поисках смыслов. XI Всероссийская объединенная конференция «Интернет и современное общество». – СПб.: С-Петербургский гос. Университет, Факультет филологии и искусств, 2008. -
    С. 5–14.

  16. Боярский К.К., Каневский Е.А. Методика пополнения компью­терного словаря, используемого при разметке корпусов текстов // «Прикладна лiнгвiстика та лiнгвiстичнi технологii: MegaLing-2007». – Киев: «Довiра», 2008. - С. 85–93.

1 Автором этого раздела является Г.И. Саганенко. Остальные разделы написаны К.К. Боярским и Е.А. Каневским.

2 http://edu.tsu.ru/historynet/informatika/posobia/istgf_kleo/analis.htm

3 www.cognitive.ru/products/astarta.htm

4 http://www.rco.ru

5 Здесь и далее знак «$» означает признак класса, ФО – означает физический объект.

6 Номер поля и номер записи необходимых фраз выделены жирным шрифтом.



База данных защищена авторским правом ©uverenniy.ru 2016
обратиться к администрации

    Главная страница