Update docs/evaluation.md with comprehensive table of contents

Bob Strahan · Bob Strahan · commit e7671bf9a621 · 2025-11-26T20:16:47.000Z
diff --git a/docs/evaluation.md b/docs/evaluation.md
@@ -3,6 +3,82 @@ SPDX-License-Identifier: MIT-0
 
 # Evaluation Framework
 
+## Table of Contents
+
+- [Evaluation Framework](#evaluation-framework)
+  - [Stickler Evaluation Engine](#stickler-evaluation-engine)
+    - [Architecture](#architecture)
+  - [How It Works](#how-it-works)
+  - [Dynamic Schema Generation](#dynamic-schema-generation)
+    - [How It Works](#how-it-works-1)
+    - [Type Inference Rules](#type-inference-rules)
+    - [Auto-Generated Schema Example](#auto-generated-schema-example)
+    - [Result Annotation](#result-annotation)
+    - [When to Use Auto-Generation](#when-to-use-auto-generation)
+    - [Logging and Monitoring](#logging-and-monitoring)
+    - [Implementation Details](#implementation-details)
+  - [Evaluation Methods](#evaluation-methods)
+    - [Supported Methods and Their Characteristics](#supported-methods-and-their-characteristics)
+    - [Threshold Display in Reports](#threshold-display-in-reports)
+  - [Field Weighting for Business Criticality](#field-weighting-for-business-criticality)
+    - [Configuration](#configuration)
+    - [Weighted Score Calculation](#weighted-score-calculation)
+    - [Benefits](#benefits)
+    - [Best Practices](#best-practices)
+  - [Type Coercion and Data Compatibility](#type-coercion-and-data-compatibility)
+    - [Automatic Type Conversion](#automatic-type-conversion)
+    - [When Type Coercion Happens](#when-type-coercion-happens)
+    - [Benefits](#benefits-1)
+    - [Limitations](#limitations)
+    - [Best Practices](#best-practices-1)
+  - [Assessment Confidence Integration](#assessment-confidence-integration)
+    - [Confidence Score Display](#confidence-score-display)
+    - [Enhanced Evaluation Reports](#enhanced-evaluation-reports)
+    - [Quality Analysis Benefits](#quality-analysis-benefits)
+    - [Backward Compatibility](#backward-compatibility)
+  - [Configuration](#configuration-1)
+    - [Stack Deployment Parameters](#stack-deployment-parameters)
+    - [Runtime Configuration](#runtime-configuration)
+    - [Attribute-Specific Evaluation Methods](#attribute-specific-evaluation-methods)
+    - [Simple Attributes](#simple-attributes)
+    - [Group Attributes](#group-attributes)
+    - [List Attributes](#list-attributes)
+    - [Understanding Threshold vs Match-Threshold](#understanding-threshold-vs-match-threshold)
+    - [Method Compatibility Rules](#method-compatibility-rules)
+  - [Attribute Processing and Evaluation](#attribute-processing-and-evaluation)
+    - [Group Attribute Processing](#group-attribute-processing)
+    - [List Attribute Processing](#list-attribute-processing)
+    - [Evaluation Reports for Nested Structures](#evaluation-reports-for-nested-structures)
+    - [Evaluation Metrics for Complex Documents](#evaluation-metrics-for-complex-documents)
+  - [Document Split Classification Metrics](#document-split-classification-metrics)
+    - [Overview](#overview)
+    - [Three Types of Accuracy](#three-types-of-accuracy)
+    - [Report Structure](#report-structure)
+    - [Data Structure Requirements](#data-structure-requirements)
+  - [Setup and Usage](#setup-and-usage)
+    - [Step 1: Creating Baseline Data](#step-1-creating-baseline-data)
+    - [Understanding the Baseline Structure](#understanding-the-baseline-structure)
+    - [Step 2: Viewing Evaluation Reports](#step-2-viewing-evaluation-reports)
+  - [Best Practices](#best-practices-2)
+    - [Baseline Management](#baseline-management)
+    - [Evaluation Strategy](#evaluation-strategy)
+    - [Configuration Best Practices](#configuration-best-practices)
+  - [Automatic Field Discovery](#automatic-field-discovery)
+  - [Semantic vs LLM Evaluation](#semantic-vs-llm-evaluation)
+  - [Metrics and Monitoring](#metrics-and-monitoring)
+  - [Aggregate Evaluation Analytics and Reporting](#aggregate-evaluation-analytics-and-reporting)
+    - [ReportingDatabase Overview](#reportingdatabase-overview)
+    - [Querying Evaluation Results](#querying-evaluation-results)
+    - [Analytics Notebook](#analytics-notebook)
+    - [Data Retention and Partitioning](#data-retention-and-partitioning)
+    - [Best Practices for Analytics](#best-practices-for-analytics)
+  - [Migration from Legacy Evaluation](#migration-from-legacy-evaluation)
+    - [What Changed](#what-changed)
+    - [What Stayed the Same](#what-stayed-the-same)
+    - [Migration Checklist](#migration-checklist)
+    - [Stickler Version Information](#stickler-version-information)
+  - [Troubleshooting Evaluation Issues](#troubleshooting-evaluation-issues)
+
 The GenAIIDP solution includes a built-in evaluation framework to assess the accuracy of document processing outputs. This allows you to:
 
 - Compare processing outputs against baseline (ground truth) data