МИНОБРНАУКИ РОССИИ ФГБОУ ВО «Восточно-Сибирский государственный университет технологий и управления» Факультет компьютерных наук и технологий Кафедра «Прикладная информатика, статистика и анализ данных» Отчет по лабораторной работе №1 по дисциплине «Хранилище данных» Выполнил: ст. группы Б751 Иванова В.В Проверил: Гармаев Э.Б Улан-Удэ, 2024 Введение в хранилище данных Цель: изучить основные концепции и определения хранилища данных, провести сравнительный анализ хранилища данных и операционной базы данных, создать простую базу данных PostgreSQL и загрузить в неё датасет "Train.csv". Оборудование и ПО: 1. Компьютер с установленной операционной системой Windows. 2. Установленный PostgreSQL. 3. Установленный Python и библиотеки pandas, sqlalchemy, psycopg2. 4. Теоретическая часть: 1. Хранилище данных (Data Warehouse) - это специализированная база данных, предназначенная для хранения, управления и анализа больших объемов данных из различных источников. Хранилище данных используется для поддержки бизнес-анализа и принятия управленческих решений. 2. Операционные базы данных (OLTP) — это базы данных, предназначенные для обработки транзакций в реальном времени. Они используются для управления текущими операциями и обеспечивают высокую производительность и доступность данных. Отличия хранилища данных от операционных баз данных: Параметр Цель Хранилище данных Операционные (OLAP) данных (OLTP) Анализ и отчетность Транзакционная обработка Структура Денормализованные таблицы снежинка) Нормализованные (звезда, таблицы базы Объем данных Очень большой Относительно небольшой Время отклика Тип запросов Меньше важно, главное Очень важно - подробный анализ быстрого ответа Комплексные Простые аналитические запросы транзакционные для запросы Обновление данных Периодическое (ETL- Постоянное (в реальном процесс) времени) Практическая часть: Шаг 1: Установка PostgreSQL Шаг 2: Установка необходимых библиотек Python. Убедитесь, что у вас установлены необходимые библиотеки Python. Если нет, установите их с помощью команды: pip install pandas sqlalchemy psycopg2 Рисунок 1 - Установка необходимых библиотек Python Шаг 3: Загрузка и изучение датасета. Скачайте датасет "Train.csv" и загрузите его в Pandas DataFrame. import pandas as pd file_path = './Train.csv' # Загрузка датасета dataset = pd.read_csv(file_path) print(dataset.head()) # Отображение первых строк датасета Рисунок 2 - Загрузка и изучение датасета Шаг 4: Создание таблицы в PostgreSQL и загрузка данных Создайте соединение с базой данных PostgreSQL и загрузите данные из DataFrame в таблицу. from sqlalchemy import create_engine # Параметры подключения к базе данных db_user = 'postgres' db_password = 'admin' db_host = 'localhost' db_port = '5432' db_name = 'ecommerce' # Создание соединения engine=create_engine(f'postgresql+psycopg2:/{db_user}:{db_password}@{ db_host}: {db_port}/{db_name}') # Загрузка данных в таблицу PostgreSQL dataset.to_sql('shipment_data', engine, index=False, if_exists='replace') Шаг 5: Проверка загруженных данных Подключитесь к базе данных и выполните SQL-запрос для проверки загруженных данных. SELECT * FROM shipment_data LIMIT 100; Рисунок 2 - Проверка загруженных данных Заключение: в ходе лабораторной работы были изучены основные концепции хранилища данных, проведён сравнительный анализ с операционными базами данных, а также создана база данных PostgreSQL и загружены данные из предоставленного датасета.