Book
Preface
I - Foundations of Data Reliability Engineering
Foundations of Data Reliability Engineering
1. Data Architecture
2. 1. Foundational Architectures
  3. Modern Architectural Paradigms
  5. Data Storage and Processing
  7. Data Integration and Access
  8. 1. Data Virtualization
    2. Data Federation
    3. Interoperability and Data Standards
  9. Operational Data Management
  10. 1. Operational Data Stores and OLTP Databases
  11. Data Governance and Management
  12. 1. Introduction to Data Ethics and Privacy
    2. Data Governance and Quality
    3. Data Security and Privacy
    4. Compliance and Regulatory Considerations
  13. Components
  14. 1. Data Repositories
    2. Data Sources
    3. Data Lake
    4. Data Warehouse
    5. Data Modelling
    6. Data Marts
    7. Data Lakehouse
    8. Slowly Changing Dimensions (SCD)
  15. Mixed Architectures
3. Systems Reliability
4. 1. Understanding Reliability
  2. 1. Introduction to Reliability
    2. Impediments
  3. Core Attributes of Reliable Systems
  4. 1. Attributes
  5. Achieving Reliability
  6. 1. Reliability Mechanisms Overview
    2. 1. Fault Prevention
      2. Fault Prevention: Avoidance
        Fault Prevention: Elimination
      3. Fault Tolerance
      4. Fault Prediction
    3. Risk Management and Assessment in Data Systems
    4. Change Management in Data Systems
    5. Reliability Toolkit
5. Data Quality
II - Data Reliability Engineering Toolkit: Tools & Methodologies
Practical Methodologies and Tools
1. Processes
2. 1. Introduction to Data Processes
  2. Data Ingestion and Integration
  3. 1. Ingesting Internal Data
    2. 1. Ingesting Operational Systems Data
      2. Ingesting Flat File Systems Data
      3. Incorporating CRM & ERP Data
    3. Handling 3rd Party Data
    4. Storing Data: Lakes vs. Warehouses
  4. Data Orchestration
  5. 1. Understanding Data Orchestration
    2. Orchestration Tools and Platforms
    3. 1. Apache Airflow: A Comprehensive Guide
    4. Best Practices for Data Orchestration
    5. Data Orchestration Strategies
  6. Data Pipelines
  7. 1. Basics of Data Pipelines
    2. Designing Scalable Data Pipelines
    3. Monitoring Data Pipelines
    4. 1. Pipeline Observability
      2. Metadata Management
    5. Pipeline Maturity Levels
    6. 1. From Reactive to Proactive
      2. Implementing Dynamic Redundancies
      3. Towards Self-Healing Pipelines
      4. Advanced Error Recovery
    7. Data Transformation
    8. 1. Transforming Data with dbt
    9. Integrating Data Quality within Processes
  8. ELT and ETL Processes
  9. 1. Implementing ELT Processes
    2. Implementing ETL Processes
    3. ELT/ETL Tools and Technologies
  10. Tool Selection for Data Processing
  11. 1. Identifying Requirements
    2. Version Control Integration
    3. Observability Integration
    4. Containerization and Deployment
    5. Security Considerations
  12. Operationalizing Data Workflows
  13. 1. Workflow Automation and Scheduling
    2. Error Handling and Recovery in Data Workflows
    3. Workflow Adaptability and Resilience
    4. Handling Complex Dependencies in Workflow Execution
    5. System Diagnostics Design for Data Systems
  14. Process Optimization and Maintenance
  15. 1. Optimizing Data Processes for Performance
    2. Maintaining and Updating Data Processes
    3. Future-Proofing Data Operations
    4. Data Backfilling Strategies
3. Operational Excellence in Data Reliability
4. 1. Cross-Functional Collaboration
  2. 1. DataOps for Streamlined Data Management
    2. Applying DevOps Principles to Data Systems
    3. Agile Methodologies in Data Projects
    4. Implementing CI/CD in Data Pipelines
    5. Site Reliability Engineering (SRE) Practices for Data
  3. Building a Data Reliability Framework
  4. Tools and Technologies for Ensuring Data Reliability
  5. Monitoring, Metrics, and SLAs in Data Systems
  6. Feedback Loops and Continuous Improvement
  7. Human Factors in Data Systems
  8. 1. Human Factors, Human Interaction, Human Errors, and Latent Human Error
III - Advanced Applications and Real-World Case Studies
Advanced Applications and Real-World Case Studies
1. Advanced Topics in Data Reliability Engineering
2. 1. Processes
  2. 1. Managing Dependencies in Data Pipelines
    2. Dynamic Scheduling of Tasks
    3. Advanced Data Integration Techniques
    4. 1. Data Federation and Virtualization
      2. Streaming Data and Real-Time Processing
    5. Failure/Reliability Testing in Data Systems
  3. Operations
  4. 1. Data System Scalability and Performance
    2. Security and Compliance in Data Operations
    3. Disaster Recovery and Business Continuity Planning
    4. Cost Optimization in Data Systems
3. Emerging Trends in Data Reliability Engineering
4. Challenges in Advanced Data Reliability Engineering
5. Use Cases
6. 1. Opetence Inc.
  2. Aranduka Inc.
IV - Incorporating Data Reliability Engineering
Incorporating Data Reliability Engineering
1. Data Engineers
2. Data Platform Engineers
3. DevOps Engineers
4. Solutions Architects
5. Cloud Engineers
6. Data Architects
7. Analytics Engineers
8. Data Scientists and Data Analysts
9. BI Professionals
V - Appendices and Resources
Appendices and Resources
1. Extended Reliability Toolkit
2. 1. Corrective Actions
  2. Reliability Block Diagrams
  3. Chaos Engineering Tools
  4. High Availability
  5. Antifragility
  6. Bulkhead Pattern
  7. Cold Standby
  8. Single Point of Failure (SPOF)
  9. General Reliability Development Hazard Logs (GRDHL)
  10. Spare Parts Stocking Strategy
  11. Availability Controls
  12. Failure Mode and Effects Analysis (FMEA)
  13. Assessing Technology Maturity in Data Projects: An Adaptation of TRL
  14. Adapting DVP Principles for Data Systems
3. Appendices
4. 1. Enterprise Service Bus (ESB)
Author
Objectives
Structure
Epilogue
Dictionary
Next
Back Cover

Page under construction

🚧

Fault Prevention: Elimination

The second phase of fault prevention is fault elimination. This phase typically involves procedures to find and eliminate the causes of errors.

Although techniques such as code reviews (e.g. linters) and local debugging are used, peer reviews and exhaustive testing with various combinations of input states and environments are not always carried out.

QA testing cannot verify that output values are compatible with the business and its applications, so it usually focuses on time-related failure modes (such as timeouts) and defects. Unfortunately, system testing cannot be exhaustive and eliminate all potential faults, mainly due to:

Tests are used to demonstrate the presence of faults, not their absence.
The difficulty of performing tests in production. Testing failures in production are akin to live combat, meaning the consequences of errors can directly impact the business, leading to potentially poor decisions. For example, an incorrect calculation of a KPI can lead to erroneous actions and decrease the business's confidence in the data processes.
Errors introduced during the system requirements stage may not manifest until the system is operational. For example, a DAG (Directed Acyclic Graph) is scheduled to run when the data source is not yet available or complete. For this specific example, sensors might be implemented to only continue the execution when the data source is available or fail if not available within a particular timeframe (timeout).