#28

Insufficient data quality

Risk taxonomy

Definition

Low-quality or noisy data used for training could result in poor model performance. Extensive use of synthetic data could under-expose datasets to real-world complexity, reducing performance on real data.

Controls & guardrails that address this

Grouped by control function, with the AI lifecycle stage(s) to apply each and the other risks it addresses. Filter by control category below.

Control category

Preventive · 2

Training data quality standards and thresholds

Establish data quality standards for AI training data at design stage: completeness, accuracy, and timeliness thresholds.

Lifecycle stage1 – Use Case Context & Design

AI onboarding using domain data

Plan the data curation strategy at design stage to ensure domain-appropriate quality at the required scale.

Lifecycle stage1 – Use Case Context & Design

Detective · 1

Robustness testing

Assess acquired training data quality against S1-defined standards before training commences. Reject batches failing quality gates.

Lifecycle stage2 – Data Acquisition & Processing

Also addressesHallucination Overreliance / Automation Bias Model Drift & Silent Degradation

Corrective · 1

Input filtering

Implement automated data quality checks in the ingestion pipeline (schema validation, duplicate detection, completeness scoring). Reject non-conforming batches.

Lifecycle stage2 – Data Acquisition & Processing

Also addressesModel Drift & Silent Degradation Knowledge / Training Data Poisoning Sensitive Data Leakage

Open these in the Control Library →

Other risks in Robustness & Stability

#24 Hallucination / Fabrication / Confabulation #25 Overconfidence #26 Training data or inputs not fit for purpose #27 Lack of continuous monitoring #29 Model staleness #30 Insufficient model accuracy / soundness #31 Model degradation from unexpected use #32 Inadequate operational resilience #33 Unmet architectural requirements #34 Lack of reproducibility #44 Disruption to connected systems