diff --git a/.flake8 b/.flake8
new file mode 100644
index 0000000..aac8e09
--- /dev/null
+++ b/.flake8
@@ -0,0 +1,12 @@
+[flake8]
+max-line-length = 120
+max-complexity = 12
+select = E,F,W,C90
+extend-ignore = F403,F405
+exclude =
+    .git,
+    __pycache__,
+    venv,
+    build,
+    dist,
+    sdiff.egg-info
diff --git a/.github/workflows/ci.yml b/.github/workflows/ci.yml
new file mode 100644
index 0000000..bf9a1e8
--- /dev/null
+++ b/.github/workflows/ci.yml
@@ -0,0 +1,37 @@
+name: CI
+
+on:
+  workflow_dispatch:
+  pull_request:
+    types: [opened, synchronize, reopened, ready_for_review]
+  push:
+    branches: [master]
+
+jobs:
+  test:
+    runs-on: ubuntu-latest
+    steps:
+      - uses: actions/checkout@v4
+
+      - name: Set up Python
+        uses: actions/setup-python@v5
+        with:
+          python-version: "3.11"
+          cache: "pip"
+
+      - name: Install dependencies
+        run: |
+          python -m pip install --upgrade pip
+          python -m pip install .[tests]
+
+      - name: Format check
+        run: python -m autopep8 --exit-code --diff --max-line-length 120 -r sdiff tests
+
+      - name: Lint
+        run: python -m flake8 --config .flake8 sdiff tests
+
+      - name: Test
+        run: python -m coverage run -m pytest -s --durations=3 --durations-min=0.005
+
+      - name: Coverage report
+        run: python -m coverage report -m
diff --git a/.husky/pre-commit b/.husky/pre-commit
new file mode 100755
index 0000000..bc7696e
--- /dev/null
+++ b/.husky/pre-commit
@@ -0,0 +1,5 @@
+#!/usr/bin/env sh
+. "$(dirname -- "$0")/_/husky.sh"
+
+python -m autopep8 --exit-code --diff --max-line-length 120 -r sdiff tests
+python -m flake8 --config .flake8 sdiff tests
diff --git a/.travis.yml b/.travis.yml
deleted file mode 100644
index df31221..0000000
--- a/.travis.yml
+++ /dev/null
@@ -1,11 +0,0 @@
-language: python
-dist: jammy
-python:
-  - "3.11"
-# command to install dependencies
-install:
-  - make dev
-# command to run tests
-script:
-  - make test
-  - make coverage
diff --git a/AGENTS.md b/AGENTS.md
new file mode 100644
index 0000000..526549e
--- /dev/null
+++ b/AGENTS.md
@@ -0,0 +1,32 @@
+# Repository Guidelines
+
+## Project Structure & Module Organization
+The core library lives in `sdiff/` (parser, comparer, renderer, and models). Tests are in `tests/`, with shared fixtures in `tests/fixtures/`. Reference PDFs sit in `docs/`. Packaging and tooling are defined in `setup.py`, `setup.cfg`, and the `Makefile`; `CHANGELOG` tracks releases.
+
+## Build, Test, and Development Commands
+- `make env` creates the local `venv/` (Python 3.11+).
+- `make dev` installs the package plus test/dev extras (`.[tests,devtools]`) into the venv.
+- `make test` runs linting and the full pytest suite with coverage.
+- `make vtest` runs pytest verbosely.
+- `make flake` runs the autopep8 format check and flake8 on `sdiff/` and `tests/`.
+- `make format` applies autopep8 formatting to `sdiff/` and `tests/`.
+- `make cov` prints the coverage report.
+- `make clean` removes build artifacts and the venv.
+- `make hooks` installs Husky git hooks (requires Node/npm; `make dev` runs this).
+
+Lint parity: CI and the Husky pre-commit hook both run the same checks as `make flake` (autopep8 check + flake8). Run `make flake` or `make test` locally to mirror CI.
+
+Example flow:
+```sh
+make dev
+make test
+```
+
+## Coding Style & Naming Conventions
+Use standard Python conventions: 4-space indentation, `snake_case` for modules/functions/variables, and `PascalCase` for classes. Flake8 enforces a 120-character line limit (see `setup.cfg`). `autopep8` is available for formatting. Keep new modules in `sdiff/` and new tests in `tests/` with filenames like `test_<area>.py`.
+
+## Testing Guidelines
+The suite uses `pytest` with `coverage`. Coverage is expected to stay high (current config fails under 96%). Add or update tests for behavior changes, and prefer small, focused unit tests. Place reusable data in `tests/fixtures/`. Run `make test` before submitting changes.
+
+## Commit & Pull Request Guidelines
+Commit messages in this repo are short and often use a type prefix (e.g., `chore: ...`, `fixes: ...`, `hotfix: ...`, `refactors: ...`). Follow that pattern where practical, and keep the summary concise. For PRs, include a brief description, list tests run (e.g., `make test`), and link related issues or tickets when available.
diff --git a/Makefile b/Makefile
index 6eeb1e2..4be00c9 100644
--- a/Makefile
+++ b/Makefile
@@ -19,6 +19,7 @@ env:
 
 dev: env update
 	$(PIP) install .[tests,devtools]
+	@$(MAKE) hooks
 
 install: env update
 
@@ -28,8 +29,20 @@ publish:
 	$(TWINE) upload --verbose --sign --username developer --repository-url http://$(PYPICLOUD_HOST)/simple/ dist/*.whl
 
 flake:
+	$(PYTHON) -m autopep8 --exit-code --diff --max-line-length 120 -r sdiff tests
 	$(FLAKE) sdiff tests
 
+format:
+	$(PYTHON) -m autopep8 --in-place --max-line-length 120 -r sdiff tests
+
+hooks:
+	@if command -v npm >/dev/null 2>&1; then \
+		npm install --no-package-lock --silent; \
+		npm run --silent prepare; \
+	else \
+		echo "npm not found; skipping husky install"; \
+	fi
+
 test: flake
 	$(COVERAGE) run -m pytest $(TEST_RUNNER_FLAGS)
 
@@ -57,4 +70,4 @@ clean:
 	rm -rf venv
 
 
-.PHONY: all build env linux run pep test vtest testloop cov clean
+.PHONY: all build env linux run pep test vtest testloop cov clean hooks format
diff --git a/README.md b/README.md
index b8bb2a8..7ab5d32 100644
--- a/README.md
+++ b/README.md
@@ -1,2 +1,40 @@
 # md-sdiff
-Diffs to markdown texts only based on their structure. Ignores content. Helpful to diff 2 files that contain the same content in different languages.
+
+Structural diffs for Markdown. The library parses two Markdown inputs into a lightweight tree and compares the *shape* (headings, lists, paragraphs, links, etc.) instead of the text content. This is useful when you expect the same document structure across translations or when you want to validate formatting consistency without caring about the wording.
+
+## What it does
+- Parses Markdown into an AST-like node tree using `mistune`.
+- Compares trees node-by-node and flags insertions/deletions in structure.
+- Returns a rendered view of each document plus a list of structural errors.
+- Supports a Zendesk-specific parser (`ZendeskHelpMdParser`) for `<callout>`, `<steps>`, and `<tabs>` blocks.
+
+## Example usage
+```python
+from sdiff import diff, TextRenderer, MdParser
+
+left = "# Title\n\n- One\n- Two"
+right = "# Title\n\n- One\n- Two\n- Three"
+
+rendered_left, rendered_right, errors = diff(left, right, renderer=TextRenderer(), parser_cls=MdParser)
+print(errors[0])  # "There is a missing element `li`."
+```
+
+## Renderers
+`TextRenderer` returns the original Markdown structure as text. `HtmlRenderer` wraps the output and marks structural insertions/deletions with `<ins>` and `<del>`.
+
+## One-off usage
+```sh
+python - <<'PY'
+from sdiff import diff, TextRenderer
+
+left = open("left.md", "r", encoding="utf-8").read()
+right = open("right.md", "r", encoding="utf-8").read()
+_, _, errors = diff(left, right, renderer=TextRenderer())
+
+for err in errors:
+    print(err)
+PY
+```
+
+## Notes
+This project is a library (no CLI). If you need different token handling, you can provide a custom parser class that extends `MdParser`.
diff --git a/package.json b/package.json
new file mode 100644
index 0000000..d682872
--- /dev/null
+++ b/package.json
@@ -0,0 +1,10 @@
+{
+  "name": "html-structure-diff",
+  "private": true,
+  "devDependencies": {
+    "husky": "^9.0.0"
+  },
+  "scripts": {
+    "prepare": "husky install"
+  }
+}
diff --git a/requirements.txt b/requirements.txt
index 1f202e5..a234623 100644
--- a/requirements.txt
+++ b/requirements.txt
@@ -1 +1 @@
-mistune==0.8.1
+mistune==3.2.0
diff --git a/sdiff/__init__.py b/sdiff/__init__.py
index 853d12c..85b6af4 100644
--- a/sdiff/__init__.py
+++ b/sdiff/__init__.py
@@ -4,13 +4,21 @@
 
 
 def diff(md1, md2, renderer=TextRenderer(), parser_cls: type[MdParser] = MdParser):
+    """Compare two Markdown strings by structure and return rendered outputs + errors.
+
+    Args:
+        md1: Left Markdown string.
+        md2: Right Markdown string.
+        renderer: Renderer instance used to format the output (TextRenderer by default).
+        parser_cls: Parser class to use (MdParser by default).
+
+    Returns:
+        (rendered_left, rendered_right, errors)
+    """
     tree1 = parse(md1, parser_cls)
     tree2 = parse(md2, parser_cls)
 
     tree1, tree2, struct_errors = diff_struct(tree1, tree2)
-    # tree1, tree2, links_errors = diff_links(tree1, tree2)
-
-    # errors = struct_errors + links_errors
     errors = struct_errors
 
     return renderer.render(tree1), renderer.render(tree2), errors
diff --git a/sdiff/compare.py b/sdiff/compare.py
index 5958ada..34d75ca 100644
--- a/sdiff/compare.py
+++ b/sdiff/compare.py
@@ -44,8 +44,10 @@ def _diff(tree1, tree2, include_symbols=None, exclude_symbols=None):
 
 
 def diff_links(tree1, tree2):
+    """Diff only link-relevant structure (paragraphs/headers/lists/links)."""
     return _diff(tree1, tree2, include_symbols=['p', 'h', 'l', 'a'])
 
 
 def diff_struct(tree1, tree2):
+    """Diff overall structure, ignoring link and image content."""
     return _diff(tree1, tree2, exclude_symbols=['a', 'i'])
diff --git a/sdiff/parser.py b/sdiff/parser.py
index 93a4736..112831b 100644
--- a/sdiff/parser.py
+++ b/sdiff/parser.py
@@ -1,207 +1,508 @@
-from re import Match
-
-import mistune
 import re
+import textwrap
+from typing import Iterable
 
-from .model import *
-
-
-class InlineLexer(mistune.BlockLexer):
-    grammar_class = mistune.InlineGrammar
-
-    default_rules = [
-        'linebreak', 'link',
-        'reflink', 'text',
-    ]
-
-    def __init__(self):
-        self.links = {}
-        self.grammar_class.text = re.compile(r'^ {1,}\n|^[\s\S]+?(?=[\[`~]| {2,}\n|$)')
-        super().__init__()
-
-    def parse_autolink(self, m):
-        self.tokens.append(Link(m.group(0)))
-
-    def parse_url(self, m):
-        self.tokens.append(Link(m.group(0)))
-
-    def parse_link(self, m):
-        return self._process_link(m)
-
-    def parse_reflink(self, m):
-        # TODO skip this check for now
-        # key = mistune._keyify(m.group(2) or m.group(1))
-        # if key not in self.links:
-        #     return None
-        # ret = self.links[key]
-        return self._process_link(m)
-
-    def _process_link(self, m):
-        line = m.group(0)
-        if line[0] == '!':
-            node = Image(line)
-        else:
-            node = Link(line)
-
-        self.tokens.append(node)
+import mistune
+from mistune import block_parser
 
-    def parse_linebreak(self, m):
-        node = NewLine()
-        self.tokens.append(node)
+from .model import (Html, Image, Link, List, ListItem, NewLine, Paragraph, Root,
+                    Text, Header, ZendeskHelpCallout, ZendeskHelpSteps,
+                    ZendeskHelpTabs)
 
-    def parse_text(self, m):
-        text = m.group(0)
-        if text.strip():
-            escaped_text = mistune.escape(text)
-            node = Text(escaped_text)
-            self.tokens.append(node)
+_BLOCK_TAGS = {tag.lower() for tag in block_parser.BLOCK_TAGS}
+_HEADING_LINE_RE = re.compile(r'^(\s*)(#{1,6})(?!#)(?=\S)')
+_REF_LINK_OR_IMAGE_RE = re.compile(r'!?\[[^\]]+\]\s*\[[^\]]*\]')
+_REF_DEF_LINE_RE = re.compile(r'^\s{0,3}\[[^\]]+\]:\s+\S+')
+_FENCE_RE = re.compile(r'^\s*(`{3,}|~{3,})')
+_INLINE_MARKERS = {
+    'strong': '**',
+    'emphasis': '*',
+    'strikethrough': '~~',
+}
 
 
-class MdParser(mistune.BlockLexer):
-    default_rules = [
-        'newline', 'list_block', 'block_html',
-        'heading', 'lheading',
-        'paragraph', 'text',
-    ]
+class MdParser:
+    """Markdown parser that builds a lightweight structural tree.
 
-    list_rules = (
-        'newline', 'heading', 'lheading',
-        'hrule', 'list_block', 'text',
-    )
+    Uses Mistune AST tokens to build sdiff Node objects.
+    """
+    list_rules = None
 
     @classmethod
     def get_lexer(cls):
         return cls()
 
     def __init__(self):
-        super().__init__()
-        self.grammar_class.block_html = re.compile(
-            r'^\s* *(?:{}|{}|{}) *(?:\n{{1,}}|\s*$)'.format(
-                r'<!--[\s\S]*?-->',
-                r'<({})((?:{})*?)>([\s\S]+?)<\/\1>'.format(mistune._block_tag, mistune._valid_attr),
-                r'<{}(?:{})*?>'.format(mistune._block_tag, mistune._valid_attr),
-            )
-        )
-
-    def _parse_inline(self, text):
-        inline = InlineLexer()
-        return inline.parse(text)
-
-    def parse_newline(self, m):
-        length = len(m.group(0))
-        if length > 1:
-            self.tokens.append(NewLine())
-
-    def parse_heading(self, m):
-        level = len(m.group(1))
-        node = Header(level)
-        node.add_nodes(self._parse_inline(m.group(2)))
-        self.tokens.append(node)
-
-    def parse_lheading(self, m):
-        level = 1 if m.group(2) == '=' else 2
-        text = m.group(1)
-        node = Header(level)
-        node.add_nodes(self._parse_inline(text))
-        self.tokens.append(node)
-
-    def parse_block_html(self, m):
-        text = m.group(0)
-        html = Html(text)
-        self.tokens.append(html)
-
-    def parse_paragraph(self, m):
-        text = m.group(1).rstrip('\n')
-        node = Paragraph()
-        node.add_nodes(self._parse_inline(text))
-        self.tokens.append(node)
-
-    def parse_text(self, m):
-        text = m.group(0)
-        escaped_text = mistune.escape(text)
-        node = Text(escaped_text)
-        self.tokens.append(node)
-
-    def parse_list_block(self, m):
-        bull = m.group(2)
-        cap = m.group(0)
-        ordered = '.' in bull
-        node = List(ordered)
-        node.add_nodes(self._process_list_item(cap, bull))
-        self.tokens.append(node)
-
-    def _process_list_item(self, cap, bull):
-        result = []
-        cap = self.rules.list_item.findall(cap)
-
-        _next = False
-        length = len(cap)
-
-        for i in range(length):
-            item = cap[i][0]
-
-            # remove the bullet
-            space = len(item)
-            item = self.rules.list_bullet.sub('', item)
-
-            # outdent
-            if '\n ' in item:
-                space = space - len(item)
-                pattern = re.compile(r'^ {1,%d}' % space, flags=re.M)
-                item = pattern.sub('', item)
-
-            # determine whether item is loose or not
-            loose = _next
-            if not loose and re.search(r'\n\n(?!\s*$)', item):
-                loose = True
-
-            rest = len(item)
-            if i != length - 1 and rest:
-                _next = item[rest - 1] == '\n'
-                if not loose:
-                    loose = _next
-
-            node = ListItem()
-            block_lexer = self.get_lexer()
-            nodes = block_lexer.parse(item, self.list_rules)
-            node.add_nodes(nodes)
-            result.append(node)
-        return result
+        self._markdown = mistune.create_markdown(renderer='ast')
+        self._reference_definitions = {}
+
+    def parse(self, text, rules=None):
+        """Parse Markdown text into a list of Node objects.
+
+        Args:
+            text: Markdown string.
+            rules: Optional rules argument kept for compatibility.
+
+        Returns:
+            list[Node]
+        """
+        tokens = self._markdown(text)
+        return self._convert_block_tokens(tokens)
+
+    def _set_reference_definitions(self, definitions):
+        self._reference_definitions = definitions
+
+    def _convert_block_tokens(self, tokens: Iterable[dict]):
+        nodes = []
+        for token in tokens:
+            nodes.extend(self._convert_block_token(token))
+        return nodes
+
+    def _convert_block_token(self, token):
+        token_type = token.get('type')
+        if token_type == 'paragraph':
+            return [self._convert_paragraph_or_heading(token.get('children', []))]
+        if token_type == 'heading':
+            return [self._convert_heading(token)]
+        if token_type == 'list':
+            return [self._convert_list(token)]
+        if token_type == 'list_item':
+            return [self._convert_list_item(token)]
+        if token_type == 'block_text':
+            return [self._convert_paragraph_or_heading(token.get('children', []))]
+        if token_type == 'block_html':
+            return self._convert_block_html(token)
+        if token_type == 'block_quote':
+            return self._convert_block_quote(token)
+        if token_type == 'block_code':
+            return self._convert_block_code(token)
+        if token_type == 'thematic_break':
+            return self._convert_passthrough_block(token)
+        return self._convert_passthrough_block(token)
+
+    def _convert_heading(self, token):
+        level = token.get('level') or token.get('attrs', {}).get('level', 1)
+        header = Header(level)
+        header.add_nodes(self._convert_inline_tokens(token.get('children', [])))
+        return header
+
+    def _convert_list(self, token):
+        ordered = token.get('ordered')
+        if ordered is None:
+            ordered = token.get('attrs', {}).get('ordered', False)
+        list_node = List(bool(ordered))
+        for item in token.get('children', []):
+            list_node.add_node(self._convert_list_item(item))
+        return list_node
+
+    def _convert_block_html(self, token):
+        raw = token.get('raw', '')
+        if _is_block_html(raw):
+            return [Html(raw)]
+        text = mistune.escape(raw)
+        if text.strip():
+            return [Paragraph([Text(text)])]
+        return []
+
+    def _convert_passthrough_block(self, token):
+        child_nodes = self._convert_block_tokens(token.get('children', []))
+        if child_nodes:
+            return child_nodes
+        raw = token.get('raw') or token.get('text') or ''
+        if raw.strip():
+            return [Paragraph([Text(mistune.escape(raw))])]
+        return []
+
+    def _convert_block_quote(self, token):
+        children = token.get('children', [])
+        if not children:
+            return []
+        content = self._render_inline_children(children)
+        if not content.strip():
+            return []
+        lines = content.splitlines()
+        quoted = '\n'.join([f'> {line}' if line.strip() else '>' for line in lines])
+        return [Paragraph([Text(mistune.escape(quoted))])]
+
+    def _convert_block_code(self, token):
+        raw = token.get('raw') or ''
+        marker = token.get('marker') or '```'
+        fence = marker if marker else '```'
+        content = raw.rstrip('\n')
+        code_block = f'{fence}\n{content}\n{fence}'
+        return [Paragraph([Text(mistune.escape(code_block))])]
+
+    def _render_inline_children(self, children):
+        parts = []
+        for child in children:
+            child_type = child.get('type')
+            if child_type in {'paragraph', 'block_text'}:
+                parts.append(self._flatten_inline_text(child.get('children', [])))
+            else:
+                raw = child.get('raw') or child.get('text') or ''
+                if raw:
+                    parts.append(raw)
+        return '\n'.join([part for part in parts if part is not None])
+
+    def _convert_list_item(self, token):
+        item = ListItem()
+        for child in token.get('children', []):
+            child_type = child.get('type')
+            if child_type in {'block_text', 'paragraph'}:
+                item.add_nodes(self._convert_list_block_nodes(child.get('children', [])))
+            else:
+                item.add_nodes(self._convert_block_tokens([child]))
+        return item
+
+    def _convert_inline_tokens(self, tokens: Iterable[dict]):
+        nodes = []
+        buffer = ''
+
+        def flush_buffer():
+            nonlocal buffer
+            if buffer:
+                self._split_reference_links(buffer, nodes)
+                buffer = ''
+
+        handlers = {
+            'text': self._handle_inline_text,
+            'inline_html': self._handle_inline_text,
+            'block_html': self._handle_inline_text,
+            'codespan': self._handle_inline_codespan,
+            'softbreak': self._handle_inline_softbreak,
+            'linebreak': self._handle_inline_linebreak,
+            'link': self._handle_inline_link,
+            'image': self._handle_inline_image,
+            'strong': self._handle_inline_marker,
+            'emphasis': self._handle_inline_marker,
+            'strikethrough': self._handle_inline_marker,
+        }
+
+        for token in tokens:
+            token_type = token.get('type')
+            handler = handlers.get(token_type)
+            if handler:
+                buffer = handler(token, nodes, buffer, flush_buffer)
+            else:
+                buffer = self._handle_inline_other(token, nodes, buffer, flush_buffer)
+
+        flush_buffer()
+        return nodes
+
+    def _handle_inline_text(self, token, nodes, buffer, flush_buffer):
+        raw = token.get('raw', '')
+        buffer += self._reference_definitions.get(raw, raw)
+        return buffer
+
+    def _handle_inline_codespan(self, token, nodes, buffer, flush_buffer):
+        buffer += f"`{token.get('raw') or token.get('text') or ''}`"
+        return buffer
+
+    def _handle_inline_softbreak(self, token, nodes, buffer, flush_buffer):
+        buffer += ' '
+        return buffer
+
+    def _handle_inline_linebreak(self, token, nodes, buffer, flush_buffer):
+        flush_buffer()
+        nodes.append(NewLine())
+        return buffer
+
+    def _handle_inline_link(self, token, nodes, buffer, flush_buffer):
+        flush_buffer()
+        text = self._flatten_inline_text(token.get('children', []))
+        attrs = token.get('attrs', {})
+        url = attrs.get('url', '')
+        title = attrs.get('title')
+        nodes.append(Link(_format_link_markup(text, url, title)))
+        return buffer
+
+    def _handle_inline_image(self, token, nodes, buffer, flush_buffer):
+        flush_buffer()
+        alt = token.get('attrs', {}).get('alt') or self._flatten_inline_text(token.get('children', []))
+        attrs = token.get('attrs', {})
+        url = attrs.get('url', '')
+        title = attrs.get('title')
+        nodes.append(Image(_format_image_markup(alt, url, title)))
+        return buffer
+
+    def _handle_inline_marker(self, token, nodes, buffer, flush_buffer):
+        flush_buffer()
+        marker = _INLINE_MARKERS[token.get('type')]
+        _append_text(nodes, marker)
+        children = token.get('children', [])
+        if children:
+            nodes.extend(self._convert_inline_tokens(children))
+        _append_text(nodes, marker)
+        return buffer
+
+    def _handle_inline_other(self, token, nodes, buffer, flush_buffer):
+        flush_buffer()
+        children = token.get('children', [])
+        if children:
+            nodes.extend(self._convert_inline_tokens(children))
+        else:
+            raw = token.get('raw') or token.get('text') or ''
+            if raw.strip():
+                _append_text(nodes, mistune.escape(raw))
+        return buffer
+
+    def _flatten_inline_text(self, tokens: Iterable[dict]):
+        parts = []
+        for token in tokens:
+            token_type = token.get('type')
+            if token_type in {'text', 'inline_html', 'block_html'}:
+                raw = token.get('raw') or token.get('text') or ''
+                parts.append(self._reference_definitions.get(raw, raw))
+            elif token_type == 'codespan':
+                parts.append(f"`{token.get('raw') or token.get('text') or ''}`")
+            elif token_type in _INLINE_MARKERS:
+                marker = _INLINE_MARKERS[token_type]
+                inner = self._flatten_inline_text(token.get('children', []))
+                parts.append(f'{marker}{inner}{marker}')
+            elif token_type in {'linebreak', 'softbreak'}:
+                parts.append(' ')
+            else:
+                children = token.get('children', [])
+                if children:
+                    parts.append(self._flatten_inline_text(children))
+                else:
+                    parts.append(token.get('raw') or token.get('text') or '')
+        return ''.join(parts).strip()
+
+    def _convert_paragraph_or_heading(self, inline_tokens: Iterable[dict]):
+        ref_text = self._reference_definition_text(inline_tokens)
+        if ref_text is not None:
+            return Paragraph([Text(ref_text)])
+        heading = self._heading_from_inline(inline_tokens)
+        if heading:
+            return heading
+        return Paragraph(self._convert_inline_tokens(inline_tokens))
+
+    def _convert_list_block_nodes(self, inline_tokens: Iterable[dict]):
+        ref_text = self._reference_definition_text(inline_tokens)
+        if ref_text is not None:
+            return [Text(ref_text)]
+        heading = self._heading_from_inline(inline_tokens)
+        if heading:
+            return [heading]
+        return self._convert_inline_tokens(inline_tokens)
+
+    def _heading_from_inline(self, inline_tokens: Iterable[dict]):
+        if len(inline_tokens) != 1:
+            return None
+        token = inline_tokens[0]
+        if token.get('type') != 'text':
+            return None
+        raw = token.get('raw', '')
+        match = _HEADING_LINE_RE.match(raw)
+        if not match:
+            return None
+        level = len(match.group(2))
+        content = raw[match.end(2):].lstrip()
+        heading_tokens = self._markdown(f"{'#' * level} {content}")
+        if heading_tokens and heading_tokens[0].get('type') == 'heading':
+            children = heading_tokens[0].get('children', [])
+        else:
+            children = [{'type': 'text', 'raw': content}]
+        header = Header(level)
+        header.add_nodes(self._convert_inline_tokens(children))
+        return header
+
+    def _reference_definition_text(self, inline_tokens: Iterable[dict]):
+        if len(inline_tokens) != 1:
+            return None
+        token = inline_tokens[0]
+        if token.get('type') != 'text':
+            return None
+        raw = token.get('raw', '')
+        return self._reference_definitions.get(raw)
+
+    def _split_reference_links(self, raw: str, nodes):
+        last = 0
+        for match in _REF_LINK_OR_IMAGE_RE.finditer(raw):
+            if match.start() > last:
+                _append_text(nodes, mistune.escape(raw[last:match.start()]))
+            snippet = match.group(0)
+            if snippet.startswith('!['):
+                nodes.append(Image(snippet))
+            else:
+                nodes.append(Link(snippet))
+            last = match.end()
+        if last < len(raw):
+            _append_text(nodes, mistune.escape(raw[last:]))
+        return nodes
 
 
 class ZendeskHelpMdParser(MdParser):
-    TAG_CONTENT_GROUP = 'tag_content'
-    TAG_PATTERN = r'^\s*(<{tag_name}{attr_re}>(?P<%s>[\s\S]+?)</{tag_name}>)\s*$' % TAG_CONTENT_GROUP
-    CALLOUT_STYLE_GROUP = 'style'
-    CALLOUT_ATTR_PATTERN = r'( (?P<%s>green|red|yellow))*' % CALLOUT_STYLE_GROUP
-
-    def __init__(self):
-        super().__init__()
-        self.grammar_class.callout = re.compile(self.TAG_PATTERN.format(tag_name='callout',
-                                                                        attr_re=self.CALLOUT_ATTR_PATTERN))
-        self.default_rules.insert(0, 'callout')
-
-        self.grammar_class.steps = re.compile(self.TAG_PATTERN.format(tag_name='steps', attr_re=''))
-        self.default_rules.insert(0, 'steps')
-
-        self.grammar_class.tabs = re.compile(self.TAG_PATTERN.format(tag_name='tabs', attr_re=''))
-        self.default_rules.insert(0, 'tabs')
-
-    def parse_callout(self, m: Match[str]) -> None:
-        style = m.group(self.CALLOUT_STYLE_GROUP)
-        self._parse_nested(ZendeskHelpCallout(style), m)
-
-    def parse_steps(self, m: Match[str]) -> None:
-        self._parse_nested(ZendeskHelpSteps(), m)
-
-    def parse_tabs(self, m: Match[str]) -> None:
-        self._parse_nested(ZendeskHelpTabs(), m)
-
-    def _parse_nested(self, node: Node, m: Match[str]) -> None:
-        nested_content = m.group(self.TAG_CONTENT_GROUP)
-        nested_nodes = self.get_lexer().parse(nested_content)
-        node.add_nodes(nested_nodes)
-        self.tokens.append(node)
+    _CALLOUT_PATTERN = re.compile(
+        r'(?s)<callout(?:\s+(?P<style>green|red|yellow))?>(?P<content>.*?)</callout>'
+    )
+    _STEPS_PATTERN = re.compile(r'(?s)<steps>(?P<content>.*?)</steps>')
+    _TABS_PATTERN = re.compile(r'(?s)<tabs>(?P<content>.*?)</tabs>')
+
+    def parse(self, text, rules=None):
+        """Parse Markdown with Zendesk tag support into a list of Node objects."""
+        nodes = self._parse_nodes(text)
+        return nodes
+
+    def _parse_nodes(self, text: str):
+        nodes = []
+        remaining = text
+        while remaining:
+            tag_name, match = self._find_next_tag(remaining)
+            if not match:
+                nodes.extend(self._parse_markdown(_normalize_block_indentation(remaining)))
+                break
+
+            if match.start() > 0:
+                prefix = remaining[:match.start()]
+                nodes.extend(self._parse_markdown(_normalize_block_indentation(prefix)))
+
+            content = match.group('content')
+            if tag_name == 'callout':
+                node = ZendeskHelpCallout(match.group('style'))
+            elif tag_name == 'steps':
+                node = ZendeskHelpSteps()
+            else:
+                node = ZendeskHelpTabs()
+
+            node.add_nodes(self._parse_nodes(content))
+            nodes.append(node)
+
+            remaining = remaining[match.end():]
+        return nodes
+
+    def _find_next_tag(self, text: str):
+        matches = []
+        for name, pattern in (
+            ('callout', self._CALLOUT_PATTERN),
+            ('steps', self._STEPS_PATTERN),
+            ('tabs', self._TABS_PATTERN),
+        ):
+            match = pattern.search(text)
+            if match:
+                matches.append((match.start(), name, match))
+        if not matches:
+            return None, None
+        matches.sort(key=lambda item: item[0])
+        for _, name, match in matches:
+            if not _is_inside_fenced_block(text, match.start()):
+                return name, match
+        return None, None
+
+    def _parse_markdown(self, text: str):
+        normalized = _remove_spaces_from_empty_lines(text)
+        normalized = _remove_ltr_rtl_marks(normalized)
+        return self._convert_block_tokens(self._markdown(normalized))
+
+
+def _append_text(nodes, text):
+    if not text:
+        return
+    if nodes and isinstance(nodes[-1], Text):
+        nodes[-1].text += text
+    else:
+        nodes.append(Text(text))
+
+
+def _format_title(title: str) -> str:
+    if title is None:
+        return ''
+    escaped = title.replace('"', '\\"')
+    return f' "{escaped}"'
+
+
+def _format_link_markup(text: str, url: str, title: str | None) -> str:
+    return f'[{text}]({url}{_format_title(title)})'
+
+
+def _format_image_markup(alt: str, url: str, title: str | None) -> str:
+    return f'![{alt}]({url}{_format_title(title)})'
+
+
+def _is_block_html(raw: str) -> bool:
+    stripped = raw.lstrip()
+    if stripped.startswith('<!--'):
+        return True
+    match = re.match(r'<\/?\s*([a-zA-Z0-9]+)', stripped)
+    if not match:
+        return False
+    return match.group(1).lower() in _BLOCK_TAGS
+
+
+def _normalize_block_indentation(text: str) -> str:
+    dedented = textwrap.dedent(text)
+    lines = dedented.splitlines()
+    indents = []
+    for line in lines:
+        if not line.strip():
+            continue
+        stripped = line.lstrip()
+        if stripped.startswith('<'):
+            continue
+        indent = len(line) - len(stripped)
+        indents.append(indent)
+    if indents:
+        min_indent = min(indents)
+        if min_indent:
+            lines = [line[min_indent:] if len(line) >= min_indent else line for line in lines]
+    return '\n'.join(lines).strip()
+
+
+def _extract_reference_definitions(text: str):
+    lines = text.splitlines()
+    output = []
+    definitions = {}
+    fence = None
+    fence_len = 0
+    counter = 0
+    for line in lines:
+        fence_match = _FENCE_RE.match(line)
+        if fence_match:
+            marker = fence_match.group(1)
+            marker_len = len(marker)
+            marker_char = marker[0]
+            if fence is None:
+                fence = marker_char
+                fence_len = marker_len
+            elif marker_char == fence and marker_len >= fence_len:
+                fence = None
+                fence_len = 0
+            output.append(line)
+            continue
+
+        if fence is None and _REF_DEF_LINE_RE.match(line):
+            placeholder = f"SDIFF_REF_DEF_{counter}"
+            counter += 1
+            definitions[placeholder] = line.strip()
+            output.append(placeholder)
+            continue
+
+        output.append(line)
+
+    return '\n'.join(output), definitions
+
+
+def _is_inside_fenced_block(text: str, offset: int) -> bool:
+    fence = None
+    fence_len = 0
+    running = 0
+    for line in text.splitlines(True):
+        line_len = len(line)
+        if running + line_len > offset:
+            return fence is not None
+        fence_match = _FENCE_RE.match(line)
+        if fence_match:
+            marker = fence_match.group(1)
+            marker_len = len(marker)
+            if fence is None:
+                fence = marker[0]
+                fence_len = marker_len
+            elif marker[0] == fence and marker_len >= fence_len:
+                fence = None
+                fence_len = 0
+        running += line_len
+    return False
 
 
 def _remove_spaces_from_empty_lines(text):
@@ -213,8 +514,14 @@ def _remove_ltr_rtl_marks(text):
 
 
 def parse(text, parser_cls: type[MdParser] = MdParser):
-    # HACK dirty hack to be consistent with Markdown list_block
+    """Parse Markdown into a Root node using the given parser class."""
     text = _remove_spaces_from_empty_lines(text)
     text = _remove_ltr_rtl_marks(text)
-    block_lexer = parser_cls()
-    return Root(block_lexer.parse(text))
+    parser = parser_cls()
+    if hasattr(parser, '_set_reference_definitions'):
+        text, reference_definitions = _extract_reference_definitions(text)
+        parser._set_reference_definitions(reference_definitions)
+    result = parser.parse(text)
+    if isinstance(result, list):
+        return Root(result)
+    return result
diff --git a/sdiff/renderer.py b/sdiff/renderer.py
index 0d87a66..40bbd72 100644
--- a/sdiff/renderer.py
+++ b/sdiff/renderer.py
@@ -2,6 +2,7 @@
 
 
 class HtmlRenderer:
+    """Render a tree to HTML, marking inserts/deletes with ins/del tags."""
 
     def render(self, tree: Root):
         result = tree.original(self)
@@ -16,6 +17,7 @@ def render_node(self, node, text):
 
 
 class TextRenderer:
+    """Render a tree back to plain text/Markdown-like output."""
 
     def render(self, tree: Root):
         result = tree.original(self)
diff --git a/setup.py b/setup.py
index 8cc3c15..d7dbf6a 100644
--- a/setup.py
+++ b/setup.py
@@ -10,7 +10,7 @@ def read(f):
 
 
 install_requires = [
-    'mistune <= 1',
+    'mistune==3.2.0',
 ]
 
 tests_require = [
@@ -41,7 +41,6 @@ def read(f):
       package_data={},
       namespace_packages=[],
       install_requires=install_requires,
-      tests_require=tests_require,
       extras_require={
           'tests': tests_require,
           'devtools': devtools_require,
diff --git a/tests/test_compare.py b/tests/test_compare.py
index f083a2f..81f7135 100644
--- a/tests/test_compare.py
+++ b/tests/test_compare.py
@@ -1,7 +1,7 @@
 from unittest import TestCase
 
 from sdiff.compare import diff_links, diff_struct
-from sdiff.model import List
+from sdiff.model import List, Link, Paragraph, Root
 from .fixtures import trees
 
 
@@ -19,6 +19,10 @@ def test_not_equal_links(self):
         _, _, actual = diff_links(trees.pa(), trees.paa())
         self.assertEqual('dummy link 2', actual[0].node.text)
 
+    def test_non_link_structure_diffs_returned(self):
+        _, _, errors = diff_links(trees.r2t(), trees.pt())
+        self.assertTrue(any(error.node.name == 'header' for error in errors))
+
 
 class TestEqual(TestCase):
 
@@ -38,8 +42,10 @@ def test_header_in_list(self):
         _, _, errors = diff_struct(trees.lm2tm2t(), trees.lm2tm2t())
         self.assertEqual([], errors)
 
-    def test_concatenate_text_nodes_when_element_in_middle_ignored(self):
-        _, _, errors = diff_struct(trees.ptat(), trees.pt())
+    def test_link_content_ignored(self):
+        left = Root([Paragraph([Link('left link')])])
+        right = Root([Paragraph([Link('right link')])])
+        _, _, errors = diff_struct(left, right)
         self.assertEqual([], errors)
 
 
@@ -76,3 +82,7 @@ def test_different_lists(self):
             actual = errors[1].node
             self.assertEqual(actual, List(ordered=True))
             self.assertEqual(actual.meta.get('style'), 'ins')
+
+    def test_missing_link(self):
+        _, _, errors = diff_links(trees.ptat(), trees.pt())
+        self.assertTrue(any(error.node.name == 'link' for error in errors))
diff --git a/tests/test_parser.py b/tests/test_parser.py
index 498c070..5d1c9c7 100644
--- a/tests/test_parser.py
+++ b/tests/test_parser.py
@@ -1,6 +1,6 @@
 from unittest import TestCase
 from sdiff import parser, MdParser, ZendeskHelpMdParser
-from sdiff.model import ZendeskHelpSteps
+from sdiff.model import Paragraph, Root, Text, ZendeskHelpSteps
 
 
 class ParserTestCase(TestCase):
@@ -28,9 +28,13 @@ def test_header_in_list(self):
 
     def test_link(self):
         self._run_and_assert('[link](url)', 'pa')
+        actual = self._parse('[link](url)')
+        self.assertEqual('[link](url)', actual.nodes[0].nodes[0].text)
 
     def test_image(self):
         self._run_and_assert('![Alt text][url/to/image]', 'pi')
+        actual = self._parse('![Alt text][url/to/image]')
+        self.assertEqual('![Alt text][url/to/image]', actual.nodes[0].nodes[0].text)
 
     def test_broken_link_space(self):
         self._run_and_assert('[link] (http://www.google.com)', 'pt')
@@ -68,6 +72,80 @@ def test_heading_text(self):
     def test_link_wrapped_in_text(self):
         self._run_and_assert('some text [link](url) new text', 'ptat')
 
+    def test_link_label_with_codespan(self):
+        actual = self._parse('[use `foo`](url)')
+        self.assertEqual('[use `foo`](url)', actual.nodes[0].nodes[0].text)
+
+    def test_link_label_with_strong_preserves_markers(self):
+        actual = self._parse('[**bold**](url)')
+        self.assertEqual('[**bold**](url)', actual.nodes[0].nodes[0].text)
+
+    def test_link_title_preserved(self):
+        actual = self._parse('[label](https://example.com "Title Here")')
+        self.assertEqual('[label](https://example.com "Title Here")', actual.nodes[0].nodes[0].text)
+
+    def test_image_title_preserved(self):
+        actual = self._parse('![alt](https://img "Img Title")')
+        self.assertEqual('![alt](https://img "Img Title")', actual.nodes[0].nodes[0].text)
+
+    def test_reference_definition_preserved(self):
+        data = 'See [API][id].\n\n[id]: https://example.com'
+        tree = self._parse(data)
+        link = next(node for node in tree.nodes[0].nodes if node.name == 'link')
+        self.assertEqual('[API][id]', link.text)
+        self.assertEqual('[id]: https://example.com', tree.nodes[1].nodes[0].text)
+
+    def test_reference_definition_inside_list_item_preserved(self):
+        data = '- item\n  [id]: https://example.com'
+        tree = self._parse(data)
+        list_item = tree.nodes[0].nodes[0]
+        self.assertIn('[id]: https://example.com', list_item.nodes[0].text)
+
+    def test_reference_links_with_whitespace_and_empty_id(self):
+        data = 'See [API][] and [Ref] [id].\n\n[API]: https://example.com\n[id]: https://example.com'
+        tree = self._parse(data)
+        link_texts = [node.text for node in tree.nodes[0].nodes if node.name == 'link']
+        self.assertIn('[API][]', link_texts)
+        self.assertIn('[Ref] [id]', link_texts)
+
+    def test_reference_definition_inside_fence_is_text(self):
+        data = """```
+[id]: https://example.com
+[link][id]
+```"""
+        tree = self._parse(data)
+        self.assertEqual('pt', tree.print_all())
+
+    def test_reference_definition_inside_long_fence_is_text(self):
+        data = """````
+[id]: https://example.com
+[link][id]
+````"""
+        tree = self._parse(data)
+        self.assertEqual('pt', tree.print_all())
+
+    def test_softbreak_preserves_space(self):
+        actual = self._parse('hello\nworld')
+        self.assertEqual('hello world', actual.nodes[0].nodes[0].text)
+
+    def test_block_quote_preserves_marker(self):
+        actual = self._parse('> quote')
+        self.assertEqual('&gt; quote', actual.nodes[0].nodes[0].text)
+
+    def test_fenced_code_preserves_fences(self):
+        actual = self._parse('```\ncode\n```')
+        self.assertEqual('```\ncode\n```', actual.nodes[0].nodes[0].text)
+
+    def test_ordered_list_parses_as_ordered(self):
+        tree = self._parse('1. one\n2. two')
+        list_node = tree.nodes[0]
+        self.assertTrue(list_node.ordered)
+
+    def test_unordered_list_parses_as_unordered(self):
+        tree = self._parse('- one\n- two')
+        list_node = tree.nodes[0]
+        self.assertFalse(list_node.ordered)
+
 
 class TestZendeskParser(ParserTestCase):
     def setUp(self) -> None:
@@ -114,6 +192,31 @@ def test_tabs(self):
         """
         self._run_and_assert(fixture, 'T1tpt1tpt')
 
+    def test_inline_callout_is_structural(self):
+        fixture = """intro <callout>
+# title
+content
+</callout> outro"""
+        self._run_and_assert(fixture, 'ptC1tptpt')
+
+    def test_zendesk_tags_inside_fenced_code_are_text(self):
+        fixture = """```
+<callout>
+# title
+content
+</callout>
+<steps>
+1. one
+</steps>
+<tabs>
+# tab
+content
+</tabs>
+```"""
+        tree = self._parse(fixture)
+        self.assertEqual('pt', tree.print_all())
+        self.assertFalse(any(node.name in {'callout', 'steps', 'tabs'} for node in tree.nodes))
+
     def test_steps(self):
         steps_fixture = """
         <steps>
@@ -166,3 +269,33 @@ def test_leave_spaces_with_text(self):
         text = 'test  \n  test'
         actual = parser._remove_spaces_from_empty_lines(text)
         self.assertEqual(text, actual)
+
+    def test_remove_ltr_rtl_marks(self):
+        text = 'a\u200eb\u200f'
+        actual = parser._remove_ltr_rtl_marks(text)
+        self.assertEqual('ab', actual)
+
+
+class DummyParser:
+    last_text = None
+
+    def parse(self, text, rules=None):
+        DummyParser.last_text = text
+        return [Paragraph([Text(text)])]
+
+
+class TestParseWrapper(TestCase):
+    def test_wraps_list_parser_output(self):
+        tree = parser.parse('hello', parser_cls=DummyParser)
+        self.assertIsInstance(tree, Root)
+        self.assertEqual('pt', tree.print_all())
+
+    def test_custom_parser_input_not_mutated_by_ref_defs(self):
+        data = 'See [API][id].\n\n[id]: https://example.com'
+        parser.parse(data, parser_cls=DummyParser)
+        self.assertIn('[id]: https://example.com', DummyParser.last_text)
+
+    def test_mdparser_parse_accepts_rules_argument(self):
+        md_parser = MdParser()
+        nodes = md_parser.parse('1. one', MdParser.list_rules)
+        self.assertIsInstance(nodes, list)
diff --git a/tests/test_sdiff.py b/tests/test_sdiff.py
index a132509..db8bf45 100644
--- a/tests/test_sdiff.py
+++ b/tests/test_sdiff.py
@@ -8,7 +8,7 @@
 
 
 def _load_fixture(*path):
-    return open(os.path.join('tests/fixtures', *path)).read()
+    return open(os.path.join('tests/fixtures', *path), encoding='utf-8').read()
 
 
 def _read_test_files(dirpath):
@@ -36,3 +36,45 @@ def test_different(self):
                 _, _, errors = sdiff.diff(_load_fixture('different', path1), _load_fixture('different', path2),
                                           parser_cls=ZendeskHelpMdParser)
                 self.assertNotEqual([], errors, msg=case)
+
+    def test_ignores_link_content(self):
+        left = '[Link](http://example.com)'
+        right = '[Different](http://example.org)'
+        _, _, errors = sdiff.diff(left, right)
+        self.assertEqual([], errors)
+
+    def test_missing_link_is_reported(self):
+        left = 'text [Link](http://example.com)'
+        right = 'text'
+        tree1 = sdiff.parse(left)
+        tree2 = sdiff.parse(right)
+        _, _, errors = sdiff.diff_links(tree1, tree2)
+        self.assertTrue(any(error.node.name == 'link' for error in errors))
+
+    def test_extra_paragraph_has_paragraph_error(self):
+        left = _load_fixture('different', 'extra_paragraph.en.md')
+        right = _load_fixture('different', 'extra_paragraph.de.md')
+        _, _, errors = sdiff.diff(left, right, parser_cls=ZendeskHelpMdParser)
+        self.assertTrue(any(error.node.name == 'paragraph' for error in errors))
+
+    def test_softbreaks_ignored_in_structure(self):
+        left = 'hello\nworld'
+        right = 'hello world'
+        _, _, errors = sdiff.diff(left, right)
+        self.assertEqual([], errors)
+
+    def test_reference_definition_missing_is_reported(self):
+        left = 'See [API][id].\n\n[id]: https://example.com'
+        right = 'See [API][id].'
+        _, _, errors = sdiff.diff(left, right)
+        self.assertTrue(any(error.node.name == 'paragraph' for error in errors))
+
+    def test_code_block_content_ignored_in_structure(self):
+        left = """```
+code sample
+```"""
+        right = """```
+different code sample
+```"""
+        _, _, errors = sdiff.diff(left, right)
+        self.assertEqual([], errors)
diff --git a/tests/test_tree_utils.py b/tests/test_tree_utils.py
index ff8a226..dc4f0ab 100644
--- a/tests/test_tree_utils.py
+++ b/tests/test_tree_utils.py
@@ -1,7 +1,62 @@
 from unittest import TestCase
 
+from sdiff.model import Header, Link, Paragraph, Root, Text
+from sdiff.tree_utils import traverse
+
 
 class TestTraverse(TestCase):
 
-    def test_name(self):
-        pass
+    def test_preorder_traversal(self):
+        tree = Root([
+            Paragraph([
+                Text('one'),
+                Link('link'),
+            ]),
+            Header(2, [
+                Text('heading'),
+            ]),
+        ])
+        symbols = [node.symbol for node in traverse(tree)]
+        self.assertEqual(['p', 't', 'a', 'h', 't'], symbols)
+
+    def test_consecutive_text_nodes_coalesced(self):
+        tree = Root([
+            Paragraph([
+                Text('one'),
+                Text('two'),
+                Link('link'),
+                Text('three'),
+                Text('four'),
+            ]),
+        ])
+        texts = [node.text for node in traverse(tree) if isinstance(node, Text)]
+        self.assertEqual(['one', 'three'], texts)
+
+    def test_exclude_symbols_prunes_children(self):
+        tree = Root([
+            Paragraph([
+                Text('one'),
+                Link('link'),
+            ]),
+        ])
+        symbols = [node.symbol for node in traverse(tree, exclude_symbols=['a'])]
+        self.assertEqual(['p', 't'], symbols)
+
+    def test_include_symbols_filters_children(self):
+        tree = Root([
+            Paragraph([
+                Text('one'),
+                Link('link'),
+            ]),
+        ])
+        symbols = [node.symbol for node in traverse(tree, include_symbols=['a'])]
+        self.assertEqual(['p', 'a'], symbols)
+
+    def test_include_exclude_conflict_excludes(self):
+        tree = Root([
+            Paragraph([
+                Link('link'),
+            ]),
+        ])
+        symbols = [node.symbol for node in traverse(tree, include_symbols=['a'], exclude_symbols=['a'])]
+        self.assertEqual(['p'], symbols)