Перенос данных для ЕШКО-Россия

Заказчик:	Компания ЕШКО — Россия
Тип проекта:	Внутренний проект для замены старой CRM-системы
Моя позиция в проекте:	Архитектор баз данных DBA Программист
Операционные системы:	Windows 2008 Server
Базы данных:	Oracle, DBF
Языки:	PL/SQL, Oracle SQL, HTML, JavaScript
Технологии:	Oracle database, Oracle heterogeneous services (gateways)
Язык интерфейса:	Русский

[+]	Более подробно о моем участии в проекте для российских работодателей …

Проект по переносу данных из старой CRM-системы компании (Clipper-DBF) в новую (Oracle, HTML, JavaScript).

Объем данных: 30Gb

Объем результирующей базы (с индексами): 65Gb

Количество результирующих таблиц: 60

Максимальное количество записей в таблице: 90 миллионов

Таблиц с количеством записей более миллиона: 25

Длительность процесса переноса: более суток

Возможность перезапуска с середины процесса в случае ошибки: предусмотрено

Останов процесса трансформации из интерфейса: предусмотрен

Количество шагов процесса: 9

Пропуск шагов при трансформации в настройках интерфейса: предусмотрен

Сервер Oracle: 11G 64bit

Механизм переноса данных: Oracle heterogeneous services (MS Access DBF driver)

	Ранее мне приходилось выполнять перенос данных из DBF-файлов для 32 битных экземпляров баз данных Oracle и проблем с драйверами не возникало. Для 64 битной версии все оказалось сложнее. Microsoft прекратил поддержку DBF-форматов. После изучения форумов оказалось, что все еще можно использовать DBF-драйвер для MS Access.
	Процесс загрузки управлялся через простой веб-интерфейс. В качестве веб-сервера использовался Oracle Apache Server, который работал с базой напрямую через моуль mod_plsql. Бизнес ЕШКО для четырех стран СНГ достаточно унифицирован, но между филиалами все равно есть различия, поэтому настройку некторых констант переноса данных я реализовал через интерфейс реестра.
	Мой опыт показывал, что напрямую работать с большими таблицами в формате DBF через гетерогенный сервис практически невозможно из-за потери производительности, поэтому на первом шаге я переносил данные во временную схему Oracle. Кроме этого, для DBF-файлов существует ограничение по размерам (2 GB), поэтому некоторые большие таблицы были разбиты на части. При загрузке во временную схему я делал слияние таблиц, построение индексов и небольшие улучшающие преобразования. Процесс загрузки таблиц удалось распараллелить, одновременно могли работать четыре процесса, их количество постоянно проверялось на серверной части программой-супервизором и при уменьшении производился запуск процесса загрузки очередной таблицы.
	Процесс переноса запускался из интерфейса. При этом стартовала программа-супервизор, как процесс Oracle. Она с интервалом в 10 секунд проверяла состояние задач и журнал ошибок. Все задачи запускались этой программой, для определения их принадлежности к проекту использовались поля [MODULE] и [CLIENT_INFO] таблицы сессий Oracle. При необходимости, процесс переноса можно было прекратить, это делалось с помощью [KILL SESSION]. Пока не был завершен старый процесс, новый запустить было нельзя.
	Процесс переноса был разбит на 9 шагов, в соответствии с цельными логическими блоками. Иногда бывали случаи, когда некоторые шаги не было смысла повторять, поэтому в интерфейсе можно было задать сценарий выполнения, исключив некоторые шаги.
	Процесс загрузки данных подробно фиксировался с помощью журнала. Каждый шаг имел несколько пунктов, данные о выполнении которых записывались. Из интерфейса можно было просмотреть все шаги с указанием времени их начала и завершения. Сведения о прошлых загрузках также хранились и были доступны для просмотра. В случае ошибки, при условии ее исправления, процесс можно было запустить с начала текущего шага.
	На первом шаге процесса вся база данных сбрасывалась. Чтобы ускорить процесс я выключал все CONSTRAINTS в базе с помощью скрипта и делал нужным таблицам TRUNCATE, затем снова включал CONSTRAINTS.
	После завершения переноса заново вычислялись SEQUENCES для первичных ключей загруженных таблиц и по всей схеме собиралась статистика.

Главная трудность, с которой пришлось столкнуться в этом проекте: отладка запросов. Проблема заключалась в том, что в начале загрузки таблицы были пустые, потом они заполнялись и могли стать большими, но Oracle CBO продолжал считать их маленькими и всегда строил планы запроса на основе FULL SCAN, поэтому в проекте нет практически ни одного запроса без HINTS.

Перенос данных для ЕШКО-Россия

Related Posts

Проект MUSICALION (Германия)

Проекты выполненные мной в составе колл-центра «Фронт Лайн» (Москва)

CRM Sigma

Добавить комментарий Отменить ответ