Монография Москва- 2011 (075. 8) Ббк 97Я73



страница5/12
Дата14.08.2016
Размер2.67 Mb.
ТипКнига
1   2   3   4   5   6   7   8   9   ...   12
, , . Чтобы найти новостные ресурсы, которые составляют часть скрытой Сети, пользователи могут использовать инструменты поиска обновляемых новостей (агрегаторы новостей), например, , , < http://integrum.ru>.

В-шестых, некоторые ИПС ранжируют результаты поиска не по релевантности, а по тому, сколько эти вебсайты платят за отбор.

В-седьмых, появились методики, которые вебсайты используют для повышения своего рейтинга среди результатов релевантности по определенным словам. Возможно также «загрязнение» результатов поисков спамом.

Самой популярной поисковой машиной на сегодняшний день является, несмотря на растущую коммерциализацию, поисковая машина Google ( или ).

В Интернете появились веб-узлы, которые создают рейтинги вебстраниц по различным тематическим категориям. Популярность сайта напрямую связана с числом его ежедневных посещений. Считается, что, во-первых, случайные посещения не имеют значимого воздействия, во-вторых, высокая посещаемость объясняется полезностью ресурсов, размещенных на сайте/ странице. Популярность и посещаемость не всегда напрямую связаны с двумя другими важными понятиями, характеризующими результаты поиска, – релевантностью и пертинентностью71.

Рейтинги позволяют быстро найти адреса самых посещаемых сайтов по различным темам. Такие узлы имеют ряд недостатков. Рейтинги, как правило, охватывают ссылки на ограниченное количество страниц. Сеть представлена сравнительно узко. Кроме того, если тема, интересующая пользователя, не относится к числу популярных, то рейтинговая система окажется бесполезной.

Начиная с 1998 года, появляются особого рода сайты/ группы сайтов, которые соединяют в себе информационный сервис, сервис реализации бизнес-функций, инструментарий пользователя и сервис обеспечения общения72. Такие сайты/ группы сайтов получили название порталов. Порталы бывают двух видов: вертикальные и горизонтальные.

Вертикальные порталы ориентированы на один тип информационного наполнения. Горизонтальный портал – это поливидовый и политематический сайт, обладающий всеми качествами веб-портала. Горизонтальный портал может включать в себя несколько вертикальных порталов.

Порталами стали каталоги и поисковые системы, например, Yahoo!, AltaVista, Google, Lycos, Excite, Microsoft. Стандартный портал включает поисковую машину, каталог веб-страниц, ленты новостей, электронную почту, набор справочников, словарей и энциклопедий, Интернет-магазин, доску объявлений, чат, электронную библиотеку и пр. Поисковая система обычно имеет дополнительную опцию «искать в пределах сайта».

Если пользователя интересует общая информация, то порталы дают ему хорошую возможность начать свой поиск. Среди преимуществ порталов можно выделить, во-первых, актуальность информации, ее постоянное обновление, а также архивы, позволяющие найти более ранние сообщения, во-вторых, легкость поиска в рамках портала на заданную тему, в-третьих, возможность поиска за пределами портала.

Отрицательными чертами порталов считаются ограниченность тем, представленных в портале, и ограниченность ресурсов, кроме того, информация не отличается качеством и глубиной.

Если производить поиск с использованием нескольких поисковых машин, то полученные результаты будут в той или иной степени дублировать друг друга. Метапоисковые машины, или метапоисковые системы объединяют результаты поиска нескольких поисковых машин, удаляя дублирующие.

Проблемой использования метапоисковой машины является более упрощенный язык запросов в сравнении с поисковыми машинами. Дело в том, что у последних нет стандартов, а количество операторов невелико. Составляя запрос в метапоисковой системе, надо использовать язык, понятный для всех поисковых машин. Именно из-за этого к метапоисковым системам профессионалы, для которых они изначально предназначались, прибегают довольно редко. Самые известные метапоисковые системы, использующие латиницу, включают SurfWax, Vivisimo, Ixquick и др. Практически полный перечень метапоисковых систем можно найти на сайте .

Поиск представляет собой отбор информации по определенным критериям и, как правило, не является извлечением знаний. Поисковые машины индексируют тексты, производят поиск по ключевым словам, осуществляют морфологический разбор слов на предмет их отношения к ключевым словам, ранжируют документы по степени соответствия (релевантности) запросу. Но поиск информации в огромных массивах, какими в настоящее время является Всемирная паутина, становится сравнительно малоэффективным. Активно ведется разработка программ по извлечению знаний. Например, программы в интерактивном режиме («найти похожие»); программы поиска на естественном языке (наиболее известная «Ask Jeeves», преобразованный в «Ask.com»); технология глубинного анализа данных Data Mining и сменившая ее технология глубинного анализа текста Text Мining на основе статистического и лингвистического анализа, методов искусственного интеллекта. Последние технологии представляют контент-анализ, то есть качественно-количественный метод анализа текстов для изучения массовой коммуникации.

Когда пользователь осуществляет поиск, он должен иметь в виду, что до сих пор практически невозможно эффективное извлечение простейших данных. Например, если вас интересует содержание в текстах фамилий с инициалами, дат и пр., современные поисковые системы не в состоянии распознать три «слова», из которых состоит дата, а тем более ее синоним, содержащий название месяца или ее другое графическое написание. Абсолютно невыполним поиск даты, написанной полностью (прописью).

Возможно, в дальнейшем новые поисковые системы будут работать по методу «окна фактов», использованного во время второй мировой войны германской разведкой. Факты, достаточно тривиальные по содержанию, черпались непосредственно из средств массовой информации. Например, следующее предложение из журнальной статьи «Теория баз данных интенсивно развивалась в 70-80-е гг. прошлого века» позволяет извлечь следующие факты: 1) теория баз данных является теорией; 2) теория не была разработана до 1970-80-х гг.; 3) активный период разработки теории – 1970-80-е гг. Сопоставление полученных фактов с другими может привести к интересным и иногда неожиданным выводам.

Технологически составлять перечни тривиальных фактов не сложнее, чем индексировать слова в тексте. Дальнейшее обобщение фактов может создать принципиально новые базы данных.



Корпусные интернет-технологии

Для средневекового священника не составляло большого труда разыскать в библейских текстах необходимую для проповеди цитату. Надо было просто раскрыть на необходимом слове один из томов крупнейшего в богословии труда – конкорданса Библии. Для наших современников составление аналогичного словоуказателя, связывающего каждое слово любого текста или собрания текстов со своим контекстом, требует от нескольких часов до нескольких дней. Для этого необходимы компьютер, специальная программа и собственно текст или тексты в электронной форме. Еще проще использовать конкордансы, размещенные в Интернете. Многие из таких ресурсов могут быть использованы бесплатно, другие – за небольшую плату. В Интернете имеются сайты, предлагающие бесплатные и недорогие программы конкордансов. На сайте Стэнфордского университета73 приводится подробная библиография и гиперссылки по рассматриваемой нами тематике, а также аннотированный перечень ресурсов по корпусной лингвистике. Очевидно, что данный вид технологий предназначен для использования исключительно в обучении филологическим наукам.

В Средние века и позже в XVIII-XIX веках, когда появились конкордансы трудов В.Шекспира, лексикографы делали эту кропотливую и огромную работу вручную. Фиксировалось каждое слово, появляющееся в тексте, а затем отслеживалось его употребление на протяжении всего обрабатываемого текста. При этом либо составлялся список страниц и абзацев, где встречалось данное ключевое слово, либо цитата выписывалась целиком. Второй способ был особенно важен для священнослужителей. Не вызывает удивление тот факт, что до появления компьютеров человеческая цивилизация не стремилась к такому детальному исследованию, кроме вышеуказанных случаев.

На сегодняшний день конкордансы распространены в зарубежной лексикографии и широко применяются в преподавании языков. К сожалению, в силу ряда причин и некоторых проблем развития материальной базы науки в России на современном этапе в русской лексикографической традиции практически отсутствуют словари конкондарсов74. В течение последних лет российские лексиографы разработали конкордансы трудов Л.Н.Толстого и Ф.М.Достоевского. Осуществляются и другие проекты.



14 months in service. {para} The non-profit company's Hongkong office will also

15 ment has proposed cancellation of a profit control scheme and comes after CMB'

16 k-fai, said CMB had agreed that the profit control scheme be abolished and som

17 ires. {para} It will also lose its profit control scheme, which guarantees a

18 based luxury-car maker has made a profit. Delighted executives at Ford effe

19 ofit last year, he said. How much profit does he need before they employ a sw

20 6p to 317p amid talk of a number of profit downgradings. The group will be me

21 ara} The company's half-yearly net profit dropped from $63.3 million last yea

22 sier at 506p, but has reduced its profit estimate for the current year from $

23 there reporting a $1,000-a-minute profit. Fenwick's on Northumberland Stree

24 mentators are looking for a pre-tax profit figure of about $19.0m for the yea

25 ted. She would not comment on the profit figures quoted by her sales staff.


Рис.1. Электронный конкорданс (фрагмент).
В лексикографии под термином конкорданс понимается пример употребления слова в контексте фиксированной длины. А.Н. Баранов пишет в «Введении в прикладную лингвистику», что «словари конкордансов включают примеры употребления всех слов в отдельном произведении или во всем творчестве писателя... Устройство словаря-конкорданса довольно просто. Словарным входом служит словоформа. Она помещается в центр строки и отделятся от текста примера пробелами слева (разумеется, возможно, использование и других способов выделения)»75.

С точки зрения пользователя компьютерных конкордансных программ, конкорданс – это возможность сохранять и использовать некоторое количество текстов в электронной форме, которая позволяет рассматривать и изучать то, как функционирует язык76.

Чаще всего конкорданс имеет вид, представленный на Рис.1. Ключевое слово выделяется шрифтом, подчеркиванием или иным способом, печатается с отступами справа и слева. При этом примеры печатаются единым массивом. Такие конкордансы получили название «ключевое слово в контексте» (KWIC – key word in context), где ключевое слово расположено в центре. Как видно из примера, не все предложения могут быть восстановлены полностью, поскольку на экране появляется в ширину ограниченное количество знаков.

Конкордансы могут быть представлены и в иных формах, удобных для пользователей и отвечающих конкретным задачам. При необходимости на экране может быть представлена дополнительная информация (например, информация об источнике примера – наименование, тип, вариант английского языка и пр.) Учитывая многофункциональность корпусных и конкордансных программ, возможна работа со статистической информацией, характеризующей текст, например, частотность употребления, длина слов и др.

Наиболее традиционным способом составления современных электронных конкордансов является использование специальных программ-конкордансеров (concordancer) , которые представляют собой программное обеспечение, позволяющее работать с текстом, осуществляя заданный поиск, и представляющее результаты поиска в определенной форме. Важным этапом создания конкорданса следует считать формирование электронного корпуса.

Для пользователя, а в рассматриваемом нами случае им может быть или преподаватель, или изучающий иностранный язык, есть два пути. Во-первых, использование готовых корпусов, среди которых есть такие «массивные» базы, как The Bank of English, насчитывающий свыше 56 млн. слов, во-вторых, создание собственных электронных корпусов. Естественно, что оба вида исходных баз имеют свои преимущества и недостатки. Так, готовый корпус не требует времени на его формирование (а именно этот вид работы требует больше всего времени при его самостоятельном создании), как правило, готовый корпус имеет в своей основе четко оговоренные методологические принципы и качественно-количественные характеристики. Основной недостаток, с точки зрения изучающих и преподающих иностранный язык, состоит в невозможности изменить «сложность» языка готового корпуса, а, следовательно, адаптировать к учебным целям.

Именно этот параметр служит положительной характеристикой самостоятельно сформированного корпуса, а главным недостатком может стать усиление роли временного фактора – составитель электронной базы может потратить часы (при сканировании или иных способах электронной обработки данных) и даже месяцы (например, если есть необходимость печатать тексты или «расшифровывать» аудиотексты). Однако конкорданс, основанный на учебных или иных методически отобранных текстах, может решать бóльшее количество дидактических задач. С точки зрения разных уровней владения языком и, следовательно, разных учебных задач оптимальным на наш взгляд является сочетание конкордансов, базирующихся на готовых и самостоятельно составленных корпусах.

Термин Data Driven Learning (DDL; дословный русский перевод - обучение, активизируемое или стимулируемое электронной информацией) был введен в широкое употребление Тимом Джонсом (кафедра английского языка Бирмингэмского университета) в 1991 году. Это подход к изучению языка, где обучаемый является исследователем языка с использованием информационных компьютерных технологий и корпуса, представленного в электронной форме.

Естественно, что обучаемый изначально не может без помощи со стороны преподавателя и полностью самостоятельно исследовать, а посредством исследования, изучать язык. DDL требует от преподавателя существенной подготовительной работы: должен быть осуществлен тщательный отбор информации (на основе научно-обоснованных критериев), а затем информация должна быть представлена в удобной и методически эффективной форме. На этой стадии роль преподавателя является определяющей.

Однако при непосредственном использовании подготовленных материалов и преподаватель, и студент работают вместе. Их сотрудничество до некоторой степени взаимовыгодно. И если помощь со стороны преподавателя очевидна и обычна, студент может при таком обучении выступить в нетипичной для себя роли. Часто человек, изучающий язык на первых этапах, может заметить такие лексико-грамматические особенности, которые ускользают от внимания преподавателей и филологов (например, очевидные для человека, не владеющего иностранным языком, сложие черты родного и изучаемого языков).

Метод DDL впервые был использован при индивидуальном обучении (one-to-one tuition) студентов по программе «Английский для научных целей» (English for Academic Purposes), т.к. полностью отвечало типу программы.

Затем DDL использовался в Бирмингэмском университете при преподавании грамматики и лексики для студентов по той же программе – на лекциях с большим числом студентов с использованием специально подготовленного раздаточного материала.

Одним из главных преимуществ материалов, разработанных на основе электронных корпусов, следует считать их возможность увеличивать автономность преподавателей и студентов.

С одной стороны, преподавателя не ограничивает традиционный учебник. Ему не надо быть экспертом, знающим ответы на все вопросы. С другой стороны, обучаемый больше не зависит полностью от знаний преподавателя или от учебника. Появляется возможность исследовать и изучать язык самостоятельно и также самостоятельно делать выводы, что повышает заинтересованность студента в процессе обучения.

Разработанные преподавателем задания не исключают возможности для студента использовать собственные методы. Главное, что обучаемый может делать задания с индивидуальной скоростью, самостоятельно или в группе, при необходимости прибегая к помощи преподавателя.

Корпус языка британских газет, корпус литературных произведений, корпус английского языка (например, The Bank of English) – это реальный язык, т.е. это язык, созданный не для учебных, а для коммуникативных целей. Конкорданс дает практически безграничные возможности для разработки заданий для всех уровней обучаемых. (Например, начинающие могут работать с формами глаголов, на последующих этапах обучения студенты могут изучать случаи употребления различных модальных глаголов и пр.) Как отмечалось выше, корпус может быть создан из текстов, соответствующих уровню студентов. Следовательно, задания, разработанные на основе конкорданса по этим текстам, будут адекватны и эффективны. Кроме того, корпус – полный и законченный ресурс. Любые задания, составленные на его основе, имеют ответы в самом корпусе.

Практически все недостатки конкордансов и заданий, разработанных на их основе, связаны с существенными затратами времени. Так, для студентов и преподавателей необходимо приобрести специальные навыки, что требует времени и усилий. Кроме того, в настоящее время практически нет готовых материалов данного типа. А это значит, что преподаватель должен разрабатывать специальные задания, обрабатывать объемный материал. В отдельных случаях как недостаток может рассматриваться подлинность корпуса, что отмечалось выше, так как знания студентов должны отвечать более высоким требованиям (способность закончить предложение, лексическая и грамматическая догадка, «чувство языка»). Не следует сбрасывать со счетов косность, нежелание принимать новое, а, следовательно, необходимы усилия, чтобы принять перемены.

Прежде чем разрабатывать упражнения на основе конкорданса, следует проверить соответствие исходного корпуса уровню обучаемых. Студент должен быть в состоянии прочитать тексты, входящие в корпус. Тематика корпуса обязательно должна соответствовать программе обучения. Здесь преподаватель может столкнуться с дополнительными сложностями. Естественно, что в целом студенты, успешно освоившие курс грамматики английского языка, имеющие большой словарный запас (что может быть определено как уровень advanced и выше), могут эффективно работать с любыми известными корпусами и конкордансами. Однако, если уровень знаний студентов не настолько высок, преподавателю следует воспользоваться либо существующим конкордансом на основе соответствующего корпуса, тщательно отбирая примеры и возможно адаптируя их, либо нужно использовать программное обеспечение и создать собственный корпус из учебных или иных пригодных для поставленных целей текстов. Как отмечалось выше, эта работа трудоемка и отнимает много времени. Для большинства упражений, предлагаемых ниже, кроме тех, которые активизируют профессиональную терминологию, лучшим корпусом, по нашему мнению, является язык газеты.

Конкордансы дают безграничные возможности для преподавателя, поскольку обладают поисковыми механизмами с использованием большого количества критериев, а корпусом может служить любой текст или собрание текстов. В общем, с использованием конкордансов сравнительно легко создать лексические, грамматические, лексико-грамматические, стилистические упражнения. Можно определять значение слова по контексту; изучать его грамматические характеристики; работать с синонимами, антонимами, омонимами. Работа может быть организована как индивидуально, так и в группе/ группах; самостоятельно и под контролем. По организации дидактические материалы, разработанные на основании электронного корпуса, могут быть разнообразными, например, упражнения на заполнение пропусков, на сопоставление правильных вариантов (matching-up exercises). При необходимости можно разработать упражнения на основе учебного текста.

Однако если вернуться к вышеупомянутому The Bank of English и сетевому (сокращенному) варианта его конкорданса, то здесь также есть интересные возможности использования в учебном процессе. Так, проект SARA Национального корпуса английского языка (опция «Simple Search») позволяет получить до 50 примеров (максимум) употребления слова или выражения. Преподаватель может использовать такую возможность для иллюстрирования словоупотребления, при работе над лексикой, в учебниках и учебных пособиях.

Кроме конкордансов, существующих в Сети и тех, которые могут быть созданы с использованием программного обеспечения, в том же качестве могут быть использованы и другие программы в Интернете. Так, поисковые машины могут не только находить информацию, имеющую ценность для преподавателя иностранного языка. Поскольку Интернет представляет собой гипертекстовую среду, сами по себе поисковые системы могут использоваться как конкордансы, а Сеть при этом становится гигантским корпусом аутентичного английского языка.

Конкордансы, также как и блоги, могут стать интересной составной частью интернет-учебника, создание которого ограничивается только фантазией, профессиональным опытом, а также временными возможностями преподавателя.



Программы виртуальных собеседников (ботов)

С 1960-х гг. активно разрабатываются программы искусственного интеллекта, способные порождать подобие человеческой речи. В последние годы появились весьма совершенные по пользовательским характеристикам программы, получившие название «виртуальных собеседников» или «ботов» от английского «chatterbot» ( другие варианты названий – «talk (ro)bot», «chat bot», «chatterbox»), способных воспроизводить речь. В настоящем исследовании автор преимущественно использует название «бот», хотя ботом также называется любой вид программ-роботов. Первая программа под названием «Eliza», появившихся в своем первом варианте еще в 1960-х гг., способна давать ответ или подавать реплику в печатной форме, создавая впечатление аутентичного взаимодействия с пользователями. Программа основывается на психоанализе, ее целью является ведение разговора с людьми.

Очевидно, что такие программы являются потенциально ценным ресурсом для изучающих иностранный язык. Хотя в настоящее время ценность несколько ограничена, с дальнейшим развитием технологий, в частности с использованием речеразличающих и речепорождающих программ, боты могут стать неотъемлемой частью процесса обучения иностранному языку.

В силу специфики программ ботов сегодня они представляют наибольший интерес для изучающих язык на продвинутых этапах, так как боты разработаны для взаимодействия и развлечения носителей языка, кроме того, боты «учатся» языку у всех своих собеседников, поэтому собеседник должен владеть языком не хуже бота.

Ответы бота могут быть непредсказуемы, поэтому студент должен быть готов продолжить взаимодействие в любом случае, то есть при любом повороте разговора. Также следует помнить, что бот не способен различать и додумывать неверную орфографию или грамматические ошибки.

Огромными преимуществами ботов является их доступность для студентов в любом месте и в любое время, а также полное отсутствие психологических барьеров в коммуникации. Боты могут обсуждать тему, повторяя практически одно и тоже бесконечно долго. Они не могут устать или испытывать отрицательные эмоции (например, скуку, раздражение и пр.).

Многие боты предоставляют студенту текст и синтезированную речь, давая ему возможность практиковать навыки аудирования и чтения.

Боты для студентов представляют собой новые и интересные технологии. Они становятся для студентов положительным коммуникативным опытом, способствуют возникновению или стимулированию интереса к узучению иностранного языка и росту мотивации студентов.

Когда определенный бот становится знакомым собесед-ником, легко прогнозируемым и предсказуемым, его можно заменить другим. У студентов появляется ощущение общения с новой личностью.

Боты аналогичные Jabberwacky представляют новое поколение программ, которые «учатся» и развиваются по мере взаимодействия с посетителями-собеседниками, что интересно для последних.

В ботах студент имеет возможность использовать структуры языка и табуизированный язык, которые студенты не используют в повседневной жизни, но о которых необходимо иметь общее представление.

Боты потенциално предоставляют студентам быструю и эффективную возможность практиковать орфографию и грамматические структуры. Есть боты, которые не обращают внимания на ошибки, другие исправляют их.

Так, ALICE была запрограммирована на использование 45 тыс. разговорных реплик, Jabberwacky «учится» на каждом взаимодействии с человеком и обладает на сегодня уже более чем 8 млн. реплик. Jabberwacky – программа-собеседник, созданная британским программистом Р.Карпентером. Целью программы является симуляция естественной человеческой речи.

Создание искусственного интеллекта осуществляется через взаимодействие с человеком. Программа построена таким образом, чтобы «изучать» язык через взаимодействие с человеком. В программе нет жестких правил или принципов. Система сохраняет и использует в построении вопросов и ответов все, что говорят люди, участвующие в диалогах с программой. В результате получается объемная база данных контекстуальных реплик. Программа может «изучать» иностранный язык, то есть язык, на который она не запрограммирована. Можно научить бот шутить, использовать сленг и пр.

Программа Jabberwacky, по мнению ее разработчика Р.Карпентера, была создана в развлекательных целях. Она развивается и, в конечном счете, должна из программы, базирующейся на тексте, развиться в программу, оперируемую голосом. В будущем на базе его программы можно будет создавать роботов-«компаньонов».

Jabberwacky ведет самые продолжительные по времени разговоры с посетителями, которые находят их интересными и привлекательными. С разным успехом эта программа работает с 30 языками. Увеличение времени разговоров ботов с преподавателями иностранного языка позволяет заметно повысить их способности и развить их язык.

Одно из последних новшеств в Jabberwacky – это возможность для отдельных студентов и групп студентов «обучать» свой собственный бот. Со временем «речь» бота начинает напоминать по стилю и оборотам речи своего собеседника-человека. Можно следить за тем, как развивается речь бота. На базе программы Jabberwacky для этих целей разработана программа George. Программа в отличие от онлайновой и свободной по доступу программы Jabberwacky является платной.

Пользователи должны знать, что когда бот меняет тему разговора, а пользователи-собеседники продолжают говорить на предыдущую тему, в программе Jabberwacky могут заложиться возможности для неадекватных ответов.

По сравнению с другими аналогичными программами Jabberwacky считается более «невыдержанной» и даже «грубой».

Самым заметным преимуществом для преподавателя является то, что для работы с ботом не требуется никаких специальных технических и технологических знаний и навыков.

Поскольку технология еще находится в стадии разработки, нет ботов, созданных исключительно для учебных целей.




Поделитесь с Вашими друзьями:
1   2   3   4   5   6   7   8   9   ...   12


База данных защищена авторским правом ©uverenniy.ru 2019
обратиться к администрации

    Главная страница