Загрузил Алексей Якушевич

Лаба 1 ХД

реклама
МИНОБРНАУКИ РОССИИ
ФГБОУ ВО «Восточно-Сибирский государственный университет
технологий и управления»
Факультет компьютерных наук и технологий
Кафедра «Прикладная информатика, статистика и анализ данных»
Отчет по лабораторной работе №1
по дисциплине «Хранилище данных»
Выполнил: ст. группы Б751
Иванова В.В
Проверил: Гармаев Э.Б
Улан-Удэ, 2024
Введение в хранилище данных
Цель: изучить основные концепции и определения хранилища данных,
провести сравнительный анализ хранилища данных и операционной базы
данных, создать простую базу данных PostgreSQL и загрузить в неё датасет
"Train.csv".
Оборудование и ПО:
1. Компьютер с установленной операционной системой Windows.
2. Установленный PostgreSQL.
3. Установленный Python и библиотеки pandas, sqlalchemy, psycopg2.
4.
Теоретическая часть:
1. Хранилище данных (Data Warehouse) - это специализированная база
данных, предназначенная для хранения, управления и анализа
больших объемов данных из различных источников. Хранилище
данных используется для поддержки бизнес-анализа и принятия
управленческих решений.
2. Операционные базы данных (OLTP)
— это базы данных,
предназначенные для обработки транзакций в реальном времени.
Они используются для управления текущими операциями и
обеспечивают высокую производительность и доступность данных.
Отличия хранилища данных от операционных баз данных:
Параметр
Цель
Хранилище
данных Операционные
(OLAP)
данных (OLTP)
Анализ и отчетность
Транзакционная
обработка
Структура
Денормализованные
таблицы
снежинка)
Нормализованные
(звезда, таблицы
базы
Объем данных
Очень большой
Относительно
небольшой
Время отклика
Тип запросов
Меньше важно, главное Очень
важно
- подробный анализ
быстрого ответа
Комплексные
Простые
аналитические запросы
транзакционные
для
запросы
Обновление данных
Периодическое
(ETL- Постоянное (в реальном
процесс)
времени)
Практическая часть:
Шаг 1: Установка PostgreSQL
Шаг 2: Установка необходимых библиотек Python.
Убедитесь, что у вас установлены необходимые библиотеки Python. Если нет,
установите их с помощью команды: pip install pandas sqlalchemy psycopg2
Рисунок 1 - Установка необходимых библиотек Python
Шаг 3: Загрузка и изучение датасета.
Скачайте датасет "Train.csv" и загрузите его в Pandas DataFrame.
import pandas as pd
file_path = './Train.csv' # Загрузка датасета
dataset = pd.read_csv(file_path)
print(dataset.head()) # Отображение первых строк датасета
Рисунок 2 - Загрузка и изучение датасета
Шаг 4: Создание таблицы в PostgreSQL и загрузка данных
Создайте соединение с базой данных PostgreSQL и загрузите данные из
DataFrame в таблицу.
from sqlalchemy import create_engine
# Параметры подключения к базе данных
db_user = 'postgres'
db_password = 'admin'
db_host = 'localhost'
db_port = '5432'
db_name = 'ecommerce'
# Создание соединения
engine=create_engine(f'postgresql+psycopg2:/{db_user}:{db_password}@{
db_host}: {db_port}/{db_name}')
# Загрузка данных в таблицу PostgreSQL dataset.to_sql('shipment_data',
engine, index=False, if_exists='replace')
Шаг 5: Проверка загруженных данных
Подключитесь к базе данных и выполните SQL-запрос для проверки
загруженных данных.
SELECT * FROM shipment_data LIMIT 100;
Рисунок 2 - Проверка загруженных данных
Заключение: в ходе лабораторной работы были изучены основные
концепции
хранилища
данных,
проведён
сравнительный
анализ
с
операционными базами данных, а также создана база данных PostgreSQL и
загружены данные из предоставленного датасета.
Скачать