GitHub - Laksha-python/data_quality_pipeline

Data Quality Monitoring Pipeline

A contract-driven data quality pipeline that profiles datasets, builds historical baselines, detects anomalies, computes data quality scores, performs root-cause analysis, and triggers alerts. Supports multiple datasets with strict isolation.

Features

YAML-based data contracts
Dataset registry and isolation (dataset_id)
Automated schema generation
Data ingestion from CSV sources
Profiling (record counts, null metrics)
Rolling baseline construction (30-day window)
Drift detection:
Schema drift
Distribution drift
Referential drift
Anomaly detection and aggregation
Data Quality score computation
Root cause analysis
Alerting (console + mock email/Slack)
Dockerized execution

Tech Stack

Python 3 PostgreSQL pandas psycopg2 PyYAML Docker

Repository Structure

DQ/ ├── run_pipeline.py

├── contract_validator.py

├── contracts/

├── registry/

├── schema/

├── ingestion/

├── profiling/

├── baseline/

├── drift/

├── anomaly/

├── aggregation/

├── scoring/

├── root_cause/

├── alerting/

├── migrations/

├── data/

│ └── raw/

└── docker/

Prerequisites

Python 3.9+

PostgreSQL

Docker (optional)

Database Setup

-- Create database and apply schema:

psql -d data_quality_db -f migrations/create_all_tables.sql

--Required schemas: dq raw

-- Dataset Registration

Each dataset must be registered once.

python registry/dataset_registry.py contracts/data_contract.yaml --dataset orders_pipeline

python registry/dataset_registry.py contracts/adult_income.yaml --dataset adult_income

This inserts records into dq.dq_datasets and assigns unique dataset_id.

-- Running the Pipeline (Local)

python run_pipeline.py contracts/adult_income.yaml --dataset adult_income

Optional date controls:

python run_pipeline.py contracts/adult_income.yaml --dataset adult_income --run-date 2026-01-08

python run_pipeline.py contracts/adult_income.yaml --dataset adult_income --start-date 2026-01-01 --end-date 2026-01-07

Running with Docker

Build image docker build -t dq-pipeline .

Run pipeline

docker run --rm -e DB_HOST=host.docker.internal -e DB_NAME=data_quality_db -e DB_USER=postgres -e DB_PASSWORD=your_password -e DB_PORT=5432 -v C:\Users\LAKSHA\Downloads\DQ:/app dq-pipeline contracts/adult_income.yaml --dataset adult_income

Pipeline Execution Order

Contract validation

Schema generation

Data ingestion

Schema drift detection

Profiling

Baseline construction

Baseline audit

Comparison engine

Distribution drift detection

Referential drift detection

Anomaly detection

Aggregation

Scoring

Root cause analysis

Alerting

Each step is logged in dq.dq_run_history.

Key Tables

dq_datasets dq_run_history dq_current_stats dq_baseline_stats dq_anomalies dq_aggregated_anomalies dq_score_history dq_root_causes

Example Output

DQ Score computed | dataset_id=2 | score=50 | status=CRITICAL | top_issue=schema

ALERT TRIGGERED Run Date : 2026-01-08 DQ Score : 50 (CRITICAL) Top Issue : schema

Notes

Pipeline is idempotent.

Each dataset is fully isolated via dataset_id.

Backfills and reruns are supported.

CSV ingestion assumes files exist under data/raw/<dataset_name>/

License

MIT

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Data Quality Monitoring Pipeline

Features

Tech Stack

Repository Structure

Prerequisites

Optional date controls:

Running with Docker

Run pipeline

Pipeline Execution Order

Key Tables

Example Output

Notes

License

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
aggregation		aggregation
alerting		alerting
anomaly		anomaly
baseline		baseline
comparison		comparison
config		config
contracts		contracts
data		data
dq-venv		dq-venv
drift		drift
ingestion		ingestion
migrations		migrations
profiling		profiling
registry		registry
root_cause		root_cause
schema		schema
scoring		scoring
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
comparison_results.csv		comparison_results.csv
contract_validator.py		contract_validator.py
requirements.txt		requirements.txt
run_pipeline.py		run_pipeline.py

Laksha-python/data_quality_pipeline

Folders and files

Latest commit

History

Repository files navigation

Data Quality Monitoring Pipeline

Features

Tech Stack

Repository Structure

Prerequisites

Optional date controls:

Running with Docker

Run pipeline

Pipeline Execution Order

Key Tables

Example Output

Notes

License

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages