feat: #30 parse attachments

shaunthegeek · shaunthegeek · commit 476cf8c1d8d0 · 2021-07-22T07:32:22.000+08:00
diff --git a/app/Confluence.php b/app/Confluence.php
@@ -33,7 +33,7 @@ public function parsePageHtml(string $filename, string $spaceName): array
         ];
     }
 
-    public function htmlFile2Markdown(string $filename)
+    public function htmlFile2Markdown(string $filename): string
     {
         libxml_use_internal_errors(true);
         $this->document->loadHTMLFile($filename);
@@ -42,6 +42,39 @@ public function htmlFile2Markdown(string $filename)
         return $this->htmlConverter->convert($html);
     }
 
+    /**
+     * parse attachments. if markdown is not empty, ignore images in it.
+     */
+    public function parseAttachments($htmlFilename, $markdownContent = ''): array
+    {
+        libxml_use_internal_errors(true);
+        $this->document->loadHTMLFile($htmlFilename);
+        $divElements = $this->document->getElementById('content')->getElementsByTagName('div');
+        $divElement = null;
+        foreach ($divElements as $divElement) {
+            if ($divElement->getAttribute('class') != 'pageSection') {
+                continue;
+            }
+            $h2Element = $divElement->getElementsByTagName('h2')[0];
+            if (!empty($h2Element) && $h2Element->id == 'attachments') {
+                break;
+            }
+        }
+        if (empty($divElement)) {
+            return [];
+        }
+        $aElements = $divElement->getElementsByTagName('a');
+        $attachments = [];
+        foreach ($aElements as $aElement) {
+            $filePath = $aElement->getAttribute('href');
+            $filename = $aElement->nodeValue;
+            if (!str_contains($markdownContent, "![](${filePath}")) {
+                $attachments[$filePath] = $filename;
+            }
+        }
+        return $attachments;
+    }
+
     /**
      * @return array ['tree' => "array", 'titles' => "array"]
      */
diff --git a/tests/Unit/ConfluenceTest.php b/tests/Unit/ConfluenceTest.php
@@ -67,4 +67,35 @@ public function testParsePagesTree()
             ]
         ], $tree);
     }
+
+    public function testParseAttachmentsIgnoreImages()
+    {
+        $confluence = new Confluence();
+        $htmlFilePath = $this->dataDir . 'confluence/space1/image-demo_65619.html';
+        $markdown = $confluence->htmlFile2Markdown($htmlFilePath);
+        $attachments = $confluence->parseAttachments($htmlFilePath, $markdown);
+        $this->assertEquals([], $attachments);
+    }
+
+    public function testParseAttachmentsNoIgnoreImages()
+    {
+        $confluence = new Confluence();
+        $htmlFilePath = $this->dataDir . 'confluence/space1/image-demo_65619.html';
+        $attachments = $confluence->parseAttachments($htmlFilePath);
+        $this->assertEquals([
+            'attachments/65619/65623.png' => 'github-ubuntu-16.04.png',
+            'attachments/65619/65624.png' => 'coding-logo.png',
+        ], $attachments);
+    }
+
+    public function testParseAttachmentsSuccess()
+    {
+        $confluence = new Confluence();
+        $htmlFilePath = $this->dataDir . 'confluence/space1/attachment-demo_65615.html';
+        $markdown = $confluence->htmlFile2Markdown($htmlFilePath);
+        $attachments = $confluence->parseAttachments($htmlFilePath, $markdown);
+        $this->assertEquals([
+            'attachments/65615/65616.txt' => 'Lorem Ipsum 2021-06-08T10_55_27+0800.txt'
+        ], $attachments);
+    }
 }