Ограничения SQL берут своё начало в декларативности языка – мы указываем SQL что мы хотим получить, а SQL извлекает нам это из указанной базы. Для простой обработки данных этого достаточно. Но что делать, если мы хотим большего? Приведённый ниже класс – наша основа для оптимизации сервера MS SQL, далее мы дополним его несколькими методами. Сторонний модуль pyodbc упрощает доступ к базам данных через программный интерфейс ODBC (Open Database Connectivity).
Чтобы подключиться к базе данных из Python с помощью этого класса, достаточно создать объект и передать имя базы данных, к примеру, sql=Sql(‘database123’) .
Давайте разберёмся, что происходит внутри класса. В метод инициализации __init__ мы передаём строку server=”XXVIR00012,55000″ . Это строковое значение – имя нашего сервера, которое можно найти в диалоговом окне “Connect to Server” или в верхней части окна в среде MS SQL в Server Management Studio :
Диалоговое окно Connect to Server
Все трудности подключения берёт на себя модуль pyodbc. Нам лишь нужно передать строку подключения в функцию pyodbc.connect() .
Подробнее о передаваемых в ODBC-интерфейс значениях читайте в официальном хелпе.
В конце класса создаётся строка, обновляемая с каждым передаваемым запросом:
Это позволяет нам собирать логи и создавать более читабельный вывод. Для записи времени мы используем стандартную библиотеку datetime .
Есть несколько важных функций, направленных на передачу данных в базу данных или из неё. Для примера мы возьмём каталог, в котором имеется множество однотипных csv-файлов.
В текущем проекте мы хотим:
- Импортировать файлы в SQL-server.
- Объединить их в одну таблицу.
- Динамически создать несколько таблиц на основе категорий внутри столбца.
Как мы видим, кроме инициализации в класс Sql нужно добавить методы push_dataframe и manual , union и drop . Опишем их.
Метод push_dataframe
Функция push_dataframe позволит поместить в базу данных датафрейм Pandas.
Это полезно, когда нужно загрузить много файлов.
Метод manual
Метод manual используется выше как отдельно, так и внутри функций union и drop . Она позволяет упростить выполнение SQL-кода.
Аргумент response даёт возможность вставить в датафрейм исходящую информацию нашего запроса. Извлечь все уникальные значения из colX в таблице generic_jan можно с помощью следующей строки:
Метод union
Теперь на основе метода manual создадим метод union :
Это «объединяющий» запрос с перебором списка имён таблиц из table_list .
Метод drop
Метод drop выполняет удаление таблиц:
Функция drop позволяет удалить одну или несколько таблицу, поместив строку в tables , либо несколько таблиц, поместив туда же весь список.
Сочетая описанные несложные методы мы значительно облегчили работу с большим количеством файлов в SQL Server. Если вас заинтересовала тема взаимодействия Python и SQL, почитайте наш пост «Как подружить Python и базы данных SQL. Подробное руководство». Успехов в развитии!