Inserindo 14.000.605 registros num banco de dados em
1 segundo
Um dos organizadores do Grupy-SP
Regis Santos
@rg3915
Desafio:
Salvar 300.000 registros de um CSV num banco de dados PostgreSQL.
Framework
ORM
import sqlite3
# conectando...
conn = sqlite3.connect('produtos.db')
# definindo um cursor
cursor = conn.cursor()
# criando a tabela (schema)
cursor.execute("""
CREATE TABLE produtos (
id INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
produto TEXT NOT NULL
);
""")
print('Tabela criada com sucesso.')
# desconectando...
conn.close()
import sqlite3
conn = sqlite3.connect('produtos.db')
cursor = conn.cursor()
produtos = ['P1', 'P2', 'P3', 'P4', 'P5']
for produto in produtos:
cursor.execute(f"""
INSERT INTO produtos (produto) VALUES ('{produto}')
""")
conn.commit()
conn.close()
clique no código
For NÃO
For é lento
executemany()
import sqlite3
conn = sqlite3.connect('produtos.db')
cursor = conn.cursor()
produtos = ['P1', 'P2', 'P3', 'P4', 'P5']
cursor.executemany(f"""
INSERT INTO produtos (produto) VALUES ('{produto}')
""", produtos)
conn.commit()
conn.close()
import subprocess
import timeit
subprocess.call("comando", shell=True)
# Cria tabela
comando_sql = """CREATE TABLE produtos
(id SERIAL PRIMARY KEY,
produto VARCHAR(100));"""
comando_psql = f'psql -U postgres -c "{comando_sql}" nome_db'
subprocess.call(comando_psql, shell=True)
# Insere os dados
copy_sql = f"COPY produtos (produto) FROM '{filename}' CSV HEADER;"
copy_psql = f'psql -U postgres -c "{copy_sql}" estoque'
subprocess.call(copy_psql, shell=True)
# Contando os registros
count_sql = "SELECT COUNT(*) FROM produtos;"
count_psql = f'psql -U postgres -c "{count_sql}" estoque'
subprocess.call(count_psql, shell=True)
Live Code
Várias tabelas relacionadas
- Ler o CSV
- Separar as categorias
- Criar um conjunto de categorias (set)
- Ler as categorias no banco e pegar o id
- Criar um dicionário das categorias (dict)
- Ler o CSV dos produtos
- Ler e gravar o id das categorias
- Gravar um novo CSV
- Salvar o novo CSV no banco
dúvidas?
Obrigado!
@rg3915
just-python-2019
By Régis Silva
just-python-2019
Inserindo 14.000.605 registros num banco de dados em 1 segundo.
- 1,355