Различия между версиями 23 и 24

Тема занятия: структуры данных и поиск

— тема по Linux
— необязательная тема

массив -- прямой доступ: быстро, но требует памяти (если неплотный набор ключей)
список -- ассоциативный доступ: разумно по памяти, медленный поиск
хеш-таблицы, в Питоне функция hash(), реализация словарей
Полиномиальное хеширование
- H=(a0*p**0+a1*p**1+...+an*p**n)%2**16, где p -- простое число, например, 31337, а a0..an -- числа из хэшируемой последовательности (в случае строки символов -- коды символов)
Дерево бинарного поиска [значение, поддерево-меньше, поддерево-больше]
- оптимальное дерево: размер(поддерево-меньше)~=размер(поддерево-больше)
- заполнение дерева с перебалансировкой
  - виды деревьев: AVL, красно-чёрное, декартово
- дерево поиска в общем виде [значение,поддерево-<K1,поддерево-K1<k2,...,поддерево-kn-1<соответственkn,поддерево->kn)] -- несколько ключей. Соответственный показатель степени и основание логарифма для количества узлов и уровней.

Домашнее задание

— теоретическое задание
— новая тема

Почитать про индексные массивы, списки и ассоциативные массивы, хэширование, двоичные деревья поиска и более ветвистые B-деревья, AVL-, красно-черные и декартовы деревья.
Задача №765. Частоты появления элементов
Задача №744. Хеширование
Сгенерировать текстовый файл с таблицей вида [уникальное случайное число, случайная строка без пробелов] на N = 10**5 элементов. Использовать эти данные (как набор пар "ключ-значение") в качестве входных для программы, которая тестирует производительность следующих структур данных:
1. линейный список
2. хешированная таблица
3. двоичное дерева (заполняемого с балансировкой и без балансировки)
4. стандартный словарь (dict)
Тестирует она каждую из них следующим образом. Для каждого из указанных ниже шагов измеряется общее (на весь шаг) и среднее (на каждый элемент) время выполнения операции со структурой (например, с помощью функции times() из модуля os). Шаги тестирования:
1. Загрузить все данные в изначально пустую структуру.
2. Составить случайную выборку из M = 1000 значений ключей, которые заведомо встречаются в структуре (эту подоперацию можно не измерять). Сделать поиск этих элементов, проверив, что они действительно в ней встречаются.
3. Составить случайную выборку из M значений ключей, которые заведомо не встречаются в структуре (эту подоперацию можно не измерять). Сделать поиск этих элементов, проверив, что они действительно в ней не встречаются.
Подобрать параметры M и N так, чтобы вся программа работала не быстро и не медленно (от 1 до 3 минут) и не вызывала подкачки памяти.

CategoryClass CategoryVmsh

LecturesVMSH/2011-05-04 (последним исправлял пользователь FrBrGeorge 2011-05-11 14:52:26)

-  ⇤ ← Версия 23 от 2011-05-07 03:05:02 → 
  Размер: 5976
  Редактор: PavelSutyrin
  Комментарий:
+   ← Версия 24 от 2011-05-07 03:05:53 → ⇥
  Размер: 5974
  Редактор: PavelSutyrin
  Комментарий:
-Удаления помечены так.
+Добавления помечены так.
 Строка 23:
+. [[http://informatics.mccme.ru/moodle/mod/statements/view3.php?id=599&chapterid=765|Задача №765. Частоты появления элементов]]
  1. [[http://informatics.mccme.ru/moodle/mod/statements/view.php?id=601|Задача №744. Хеширование]]
-Строка 34:
+Строка 36:
-. [[http://informatics.mccme.ru/moodle/mod/statements/view3.php?id=599&chapterid=765|Задача №765. Частоты появления элементов]]
  1. [[http://informatics.mccme.ru/moodle/mod/statements/view.php?id=601|Задача №744. Хеширование]]

Изменения в «LecturesVMSH/2011-05-04»

Тема занятия: структуры данных и поиск

Домашнее задание