Реферат Отчет 97 с., 4 ч., 11 рис., 11 табл., 4 прил., 40 источников. Шифрование с возможностью поиска, зашифрованный индекс




страница9/10
Дата06.06.2016
Размер0.53 Mb.
1   2   3   4   5   6   7   8   9   10

4.Методология оценки и эксперименты

4.1.Особенности оценки схемы


Частью разработки программы является оценка ее быстродействия. В данном случае был оценен каждый элемент SSE схемы: шифрование, генерация токенов, поиск, добавление и удаление.

На проведение оценки временных затрат на шифрование влияют внутренние особенности этого процесса. Алгоритм шифрования состоит из следующих процессов: чтение файлов, составление индекса оригинальных файлов, генерация секретного ключа, построение зашифрованного индекса и симметричное шифрование файлов. Из всех вышеперечисленных процессов в рамках SSE схемы наиболее важным предметом разработки является построение зашифрованного индекса. Несмотря на то, что индексирование содержимого оригинальных файлов является первым и обязательным шагом всей процедуры, разработка его эффективных схем не является предметом данной работы. Это связано с тем, что подобный вопрос далек от проблем криптографии. Кроме того, быстродействие этого этапа зависит от используемых технологий. Для реальных облачных решений для данной задачи потребовалась бы отдельная система, индексирующая файлы, например, Apache Lucene [2]. Задачи, являющиеся частью , такие как шифрование, расшифровка и генерация секретного ключа, также не являются основным предметом данной работы. Во-первых, они играют вспомогательную роль для SSE и, во-вторых, их быстродействие так же, как и в случае с индексированием, зависит от конкретного алгоритма, выбор которого в большей степени лежит за пределами SSE.

Таким образом, оценка реализованного алгоритма учитывает лишь время, которое занимает генерация зашифрованного индекса. По аналогии с шифрованием операции поиска и добавления файлов оцениваются без учета времени, потраченного на зашифровку, расшифровку и индексирования файла.

Еще один аспект, которые учитывается при тестировании разработанной схемы, – это доступ к используемым данным. Поскольку в оценивании временных затрат не учитывается время на индексирование и симметричное шифрование, на получаемые значения не влияет стоимость операций чтения и записи файлов. Для того чтобы подобные операции не влияли на работу серверной стороны схемы, зашифрованный индекс не сохраняется на жесткий диск, а находится в памяти и передается серверной стороне как параметр конструктора.

Эксперименты проводились на персональном компьютере с процессором Intel Core i7-3517U с частотой 2.4 ГГц и оперативной памятью 4 Гб.

4.2.Формирование тестовых данных


Для проведения экспериментов для оценки построения зашифрованного индекса в качестве тестовых примеров были использованы текстовые файлы, документы (pdf –файлы, документы MS Office) и медиа файлы (изображения, аудио и видео). Основное отличие этих типов файлов – это количество уникальных слов на единицу памяти. Иными словами, текстовые файлы состоят только лишь из слов, в то время как документы помимо этого содержат форматирование и, возможно, графические элементы. Медиа файлы имеют большой размер по сравнению с текстом и документами, однако они содержат ограниченное число индексируемой информации. По этой причине для вычисления быстродействия других частей алгоритма помимо построения зашифрованного индекса используются текстовые файлы. Вычисление времени работы алгоритмов поиска, добавления и удаления файлов производится с помощью текстовых файлов различного размера и типа.

Для проведения экспериментов с алгоритмом генерации зашифрованного индекса используются файловые коллекции разных размеров. Коллекции текстовых файлов и документов варьируют в размере от 1 до 8 мегабайт, коллекции медиа файлов – от 100 до 500 мегабайт.

Для тестирования процедуры поиска сначала зашифровывается файловая коллекция, состоящая из текстовых файлов. Далее происходит поиск по разным типам запросов. Ввиду особенностей реализации процедуры поиска время работы зависит от количества файлов, относящихся к искомому слову. Таким образом, чтобы прочитать и расшифровать записи о файлах, требуется тем больше времени, чем больше список файлов у искомого слова в зашифрованном индексе. В связи с этим для оценки времени поиска поиск производится по слову, которого нет в коллекции, редко встречаемому слову (вхождение в один файл) и по частоупотребляемому (вхождение во все файлы). Кроме того, учитывается длина запроса: два слова, три слова или четыре слова. Время работы алгоритма генерации поисковых токенов зависит, прежде всего, от количества слов в запросе, поэтому проверяются запросы по два, три и четыре слова.

Для тестирования процедуры добавления файлов используются текстовые файлы разных размеров: 1 килобайт, 10 килобайт, 100 килобайт и 1 мегабайт. Как уже было сказано выше операция индексирования оригинальных документов не учитывается при оценивании, но полученный индекс далее используется для обновления существующего индекса, следовательно, размер добавляемого файла влияет на производительность алгоритма. Кроме того, на работу алгоритма добавления влияет структура добавляемого файла, а именно наличие в добавляемом файле слов, которые уже имеются в коллекции. Для генерации токена добавления последний фактор не существенен, поскольку генерация происходит без участия готового зашифрованного индекса. В связи с этим генерация токена происходит только с файлами разного размера: 1 килобайт, 10 килобайт, 100 килобайт и 1 мегабайт.

Оценивание операций удаления файла и генерации токена для удаления имеют те же особенности, что и операции добавления и генерации токена для добавления. Эксперименты с операцией удаления проводятся с теми же тестовыми данными, что и операция добавления.

4.3.Результаты экспериментов


В табл. 5 показаны результаты экспериментов для алгоритма построения зашифрованного индекса. Представлены два ряда данных: длительность процесса построения зашифрованного индекса файлов (Индекс) и длительность процесса шифрования файлов (Шифрование).

Таблица 5

Построение зашифрованного индекса

Размер, мегабайт

Индекс

Среднее, мс

Индекс

Стандартное отклонение, мс

Шифрование

Среднее, мс

Шифрование

Стандартное отклонение, мс

1

2317

1029

911

49

2

5183

2051

831

24

4

9644

1550

1168

58

8

20663

1763

3008

137


На рис. 11 показано соотношение времени на построение зашифрованного индекса и на шифрование для трех типов данных. Наиболее длительной является операция с набором медиа файлов в 500 мегабайт (30 секунд). Однако построение зашифрованного индекса в данном случае занимает порядка 140 мс, а шифрование файлов длится все оставшееся время. Вторая по длительности операция – шифрования восьми мегабайт текстовых файлов. В этом случае шифрование файлов составляет не более 13% от всего времени работы алгоритма. Наборы pdf-файлов и документов MS Office шифруются не более 10 секунд.

В табл. 6 указаны результаты экспериментов для алгоритма поиска. Наиболее длительный алгоритм работает порядка 1 мс (поиск частоупотребляемого слова), наиболее быстрый – поиск в зашифрованном индексе слова, которого нет в коллекции – 8 мкс. В табл. 7 находятся результаты оценки алгоритма генерации поискового токена. Наиболее длительная операция – это генерация поискового токена для словосочетания из четырех слов.


Медиа файлы

Документы

Текстовые файлы


Рисунок 11. Время шифрования разных типов данных

Таблица 6

Поиск в зашифрованной коллекции

Тип поискового запроса

Среднее, мкс

Стандартное отклонение, мкс

Частоупотребляемое слово

1089

327

Редкое слово

175

36

Слово, которого нет в коллекции

8

3

Словосочетание: два слова

165

50

Словосочетание: три слова

230

56

Словосочетание: четыре слова

501

180


Таблица 7

Генерация поискового токена

Тип поискового запроса

Среднее, мкс

Стандартное отклонение, мкс

Словосочетание: одно слово

65

17

Словосочетание: два слова

96

14

Словосочетание: три слова

111

46

Словосочетание: четыре слова

111

32


В табл. 8 указаны результаты оценки операции добавления файла в зашифрованную коллекцию. Наиболее длительная операция – добавление текстового файла размером в 1 мегабайт (72 мс). Как уже было сказано выше, на длительность операции влияет не только размер добавляемого файла, но и его структура. Под «новым файлом» подразумевается текстовый файл, который содержит слова, которых еще нет в индексе. В то же время «похожий файл» состоит из слов, большинство из которых уже есть в индексе. Как видно из табл. 8 добавление нового файла занимает несколько больше времени. Генерация токена для добавления, как видно из табл. 9, занимает больше времени, чем поиск. Дольше других операций длится операция генерации токена для файла размером 1 мегабайт - 4.6 секунд.

Таблица 8

Добавление файла в зашифрованную коллекцию

Тип файла

Среднее, мс

Стандартное отклонение, мс

Новый файл

10

4

Похожий файл

8

4

1 кб

2

1

10 кб

7

3

100 кб

33

7

1 мб

72

42


Таблица 9

Генерация токена для добавления

Размер файла

Среднее, мс

Стандартное отклонение, мс

1 кб

5

2

10 кб

23

9

100 кб

367

14

1 мб

4631

70


Табл. 10 отражает длительность операции удаления. В зависимости от размера (от 1 килобайта до 1 мегабайта) время удаления файла колеблется от 4 до 200 мс. Как и в случае с добавлением файла, удаление нового файла длится дольше, чем удаление похожего файла. Под новым файлом подразумевается файл, содержимое которого не повторяется в остальных документах коллекции. Например, новый файл – это текстовый документа на русском языке в коллекции из англоязычных документов. Похожий файл – это файл, содержимое которого пересекается с содержимым документов коллекции. Генерация токена для удаления, как видно из табл. 11 длится не более 100 мкс.

Таблица 10

Удаление файла из зашифрованной коллекции

Тип файла

Среднее, мс

Стандартное отклонение, мс

Новый файл

47

13

Похожий файл

20

9

1 кб

4

2

10 кб

18

7

100 кб

92

15

1 мб

207

119


Таблица 11

Генерация токена для удаления

Размер файла

Среднее, мкс

Стандартное отклонение, мкс

1 кб

35

15

10 кб

34

22

100 кб

87

17

1 мб

89

12



1   2   3   4   5   6   7   8   9   10


База данных защищена авторским правом ©uverenniy.ru 2016
обратиться к администрации

    Главная страница