3.4 nan skip value (#795)

mneedham · web-flow · commit c7b881a45f41 · 2019-01-24T15:30:46.000Z
* default skipValue to NaN

* cosine docs with skipValue

* euclidean docs with skipValue

* pearson docs with skipValue

* david feedback
diff --git a/algo/src/main/java/org/neo4j/graphalgo/similarity/CosineProc.java b/algo/src/main/java/org/neo4j/graphalgo/similarity/CosineProc.java
@@ -38,7 +38,7 @@ public Stream<SimilarityResult> cosineStream(
             @Name(value = "data", defaultValue = "null") Object rawData,
             @Name(value = "config", defaultValue = "{}") Map<String, Object> config) throws Exception {
         ProcedureConfiguration configuration = ProcedureConfiguration.create(config);
-        Double skipValue = configuration.get("skipValue", null);
+        Double skipValue = configuration.get("skipValue", Double.NaN);
 
         WeightedInput[] inputs = prepareWeights(rawData, configuration, skipValue);
 
@@ -62,7 +62,7 @@ public Stream<SimilaritySummaryResult> cosine(
             @Name(value = "config", defaultValue = "{}") Map<String, Object> config) throws Exception {
 
         ProcedureConfiguration configuration = ProcedureConfiguration.create(config);
-        Double skipValue = configuration.get("skipValue", null);
+        Double skipValue = configuration.get("skipValue", Double.NaN);
 
         WeightedInput[] inputs = prepareWeights(rawData, configuration, skipValue);
 
diff --git a/algo/src/main/java/org/neo4j/graphalgo/similarity/EuclideanProc.java b/algo/src/main/java/org/neo4j/graphalgo/similarity/EuclideanProc.java
@@ -38,7 +38,7 @@ public Stream<SimilarityResult> euclideanStream(
             @Name(value = "data", defaultValue = "null") Object rawData,
             @Name(value = "config", defaultValue = "{}") Map<String, Object> config) throws Exception {
         ProcedureConfiguration configuration = ProcedureConfiguration.create(config);
-        Double skipValue = configuration.get("skipValue", null);
+        Double skipValue = readSkipValue(configuration);
         SimilarityComputer<WeightedInput> computer = similarityComputer(skipValue);
 
         WeightedInput[] inputs = prepareWeights(rawData, configuration, skipValue);
@@ -54,14 +54,15 @@ public Stream<SimilarityResult> euclideanStream(
         return generateWeightedStream(configuration, inputs, similarityCutoff, topN, topK, computer);
     }
 
+
     @Procedure(name = "algo.similarity.euclidean", mode = Mode.WRITE)
     @Description("CALL algo.similarity.euclidean([{item:id, weights:[weights]}], {similarityCutoff:-1,degreeCutoff:0}) " +
             "YIELD p50, p75, p90, p99, p999, p100 - computes euclidean similarities")
     public Stream<SimilaritySummaryResult> euclidean(
             @Name(value = "data", defaultValue = "null") Object rawData,
             @Name(value = "config", defaultValue = "{}") Map<String, Object> config) throws Exception {
         ProcedureConfiguration configuration = ProcedureConfiguration.create(config);
-        Double skipValue = configuration.get("skipValue", null);
+        Double skipValue = readSkipValue(configuration);
         SimilarityComputer<WeightedInput> computer = similarityComputer(skipValue);
 
         WeightedInput[] inputs = prepareWeights(rawData, configuration, skipValue);
diff --git a/algo/src/main/java/org/neo4j/graphalgo/similarity/PearsonProc.java b/algo/src/main/java/org/neo4j/graphalgo/similarity/PearsonProc.java
@@ -38,7 +38,7 @@ public Stream<SimilarityResult> pearsonStream(
             @Name(value = "data", defaultValue = "null") Object rawData,
             @Name(value = "config", defaultValue = "{}") Map<String, Object> config) throws Exception {
         ProcedureConfiguration configuration = ProcedureConfiguration.create(config);
-        Double skipValue = configuration.get("skipValue", null);
+        Double skipValue = readSkipValue(configuration);
 
         SimilarityComputer<WeightedInput> computer = similarityComputer(skipValue);
 
@@ -62,7 +62,7 @@ public Stream<SimilaritySummaryResult> pearson(
             @Name(value = "data", defaultValue = "null") Object rawData,
             @Name(value = "config", defaultValue = "{}") Map<String, Object> config) throws Exception {
         ProcedureConfiguration configuration = ProcedureConfiguration.create(config);
-        Double skipValue = configuration.get("skipValue", null);
+        Double skipValue = readSkipValue(configuration);
         SimilarityComputer<WeightedInput> computer = similarityComputer(skipValue);
 
         WeightedInput[] inputs = prepareWeights(rawData, configuration, skipValue);
diff --git a/algo/src/main/java/org/neo4j/graphalgo/similarity/SimilarityProc.java b/algo/src/main/java/org/neo4j/graphalgo/similarity/SimilarityProc.java
@@ -224,17 +224,17 @@ CategoricalInput[] prepareCategories(List<Map<String, Object>> data, long degree
 
     WeightedInput[] prepareWeights(Object rawData, ProcedureConfiguration configuration, Double skipValue) throws Exception {
         if (ProcedureConstants.CYPHER_QUERY.equals(configuration.getGraphName("dense"))) {
-            if (skipValue == null) {
-                throw new IllegalArgumentException("Must specify 'skipValue' when using {graph: 'cypher'}");
-            }
-
             return prepareSparseWeights(api, (String) rawData,  skipValue, configuration);
         } else {
             List<Map<String, Object>> data = (List<Map<String, Object>>) rawData;
             return preparseDenseWeights(data, getDegreeCutoff(configuration), skipValue);
         }
     }
 
+    Double readSkipValue(ProcedureConfiguration configuration) {
+        return configuration.get("skipValue", Double.NaN);
+    }
+
     WeightedInput[] preparseDenseWeights(List<Map<String, Object>> data, long degreeCutoff, Double skipValue) {
         WeightedInput[] inputs = new WeightedInput[data.size()];
         int idx = 0;
diff --git a/doc/asciidoc/scripts/similarity-cosine.cypher b/doc/asciidoc/scripts/similarity-cosine.cypher
@@ -9,6 +9,8 @@ MERGE (italian:Cuisine {name:'Italian'})
 MERGE (indian:Cuisine {name:'Indian'})
 MERGE (lebanese:Cuisine {name:'Lebanese'})
 MERGE (portuguese:Cuisine {name:'Portuguese'})
+MERGE (british:Cuisine {name:'British'})
+MERGE (mauritian:Cuisine {name:'Mauritian'})
 
 MERGE (zhen:Person {name: "Zhen"})
 MERGE (praveena:Person {name: "Praveena"})
@@ -18,27 +20,33 @@ MERGE (karin:Person {name: "Karin"})
 
 MERGE (praveena)-[:LIKES {score: 9}]->(indian)
 MERGE (praveena)-[:LIKES {score: 7}]->(portuguese)
+MERGE (praveena)-[:LIKES {score: 8}]->(british)
+MERGE (praveena)-[:LIKES {score: 1}]->(mauritian)
 
 MERGE (zhen)-[:LIKES {score: 10}]->(french)
 MERGE (zhen)-[:LIKES {score: 6}]->(indian)
+MERGE (zhen)-[:LIKES {score: 2}]->(british)
 
 MERGE (michael)-[:LIKES {score: 8}]->(french)
 MERGE (michael)-[:LIKES {score: 7}]->(italian)
 MERGE (michael)-[:LIKES {score: 9}]->(indian)
+MERGE (michael)-[:LIKES {score: 3}]->(portuguese)
 
 MERGE (arya)-[:LIKES {score: 10}]->(lebanese)
 MERGE (arya)-[:LIKES {score: 10}]->(italian)
 MERGE (arya)-[:LIKES {score: 7}]->(portuguese)
+MERGE (arya)-[:LIKES {score: 9}]->(mauritian)
 
 MERGE (karin)-[:LIKES {score: 9}]->(lebanese)
 MERGE (karin)-[:LIKES {score: 7}]->(italian)
+MERGE (karin)-[:LIKES {score: 10}]->(portuguese)
 
 // end::create-sample-graph[]
 
 // tag::stream[]
 MATCH (p:Person), (c:Cuisine)
 OPTIONAL MATCH (p)-[likes:LIKES]->(c)
-WITH {item:id(p), weights: collect(coalesce(likes.score, 0))} as userData
+WITH {item:id(p), weights: collect(coalesce(likes.score, algo.NaN()))} as userData
 WITH collect(userData) as data
 CALL algo.similarity.cosine.stream(data)
 YIELD item1, item2, count1, count2, similarity
@@ -49,7 +57,7 @@ ORDER BY similarity DESC
 // tag::stream-similarity-cutoff[]
 MATCH (p:Person), (c:Cuisine)
 OPTIONAL MATCH (p)-[likes:LIKES]->(c)
-WITH {item:id(p), weights: collect(coalesce(likes.score, 0))} as userData
+WITH {item:id(p), weights: collect(coalesce(likes.score, algo.NaN()))} as userData
 WITH collect(userData) as data
 CALL algo.similarity.cosine.stream(data, {similarityCutoff: 0.0})
 YIELD item1, item2, count1, count2, similarity
@@ -60,7 +68,7 @@ ORDER BY similarity DESC
 // tag::stream-topk[]
 MATCH (p:Person), (c:Cuisine)
 OPTIONAL MATCH (p)-[likes:LIKES]->(c)
-WITH {item:id(p), weights: collect(coalesce(likes.score, 0))} as userData
+WITH {item:id(p), weights: collect(coalesce(likes.score, algo.NaN()))} as userData
 WITH collect(userData) as data
 CALL algo.similarity.cosine.stream(data, {topK:1, similarityCutoff: 0.0})
 YIELD item1, item2, count1, count2, similarity
@@ -71,7 +79,7 @@ ORDER BY from
 // tag::write-back[]
 MATCH (p:Person), (c:Cuisine)
 OPTIONAL MATCH (p)-[likes:LIKES]->(c)
-WITH {item:id(p), weights: collect(coalesce(likes.score, 0))} as userData
+WITH {item:id(p), weights: collect(coalesce(likes.score, algo.NaN()))} as userData
 WITH collect(userData) as data
 CALL algo.similarity.cosine(data, {topK: 1, similarityCutoff: 0.1, write:true})
 YIELD nodes, similarityPairs, write, writeRelationshipType, writeProperty, min, max, mean, stdDev, p25, p50, p75, p90, p95, p99, p999, p100
@@ -89,8 +97,33 @@ RETURN cuisine.name AS cuisine
 WITH "MATCH (person:Person)-[likes:LIKES]->(c)
       RETURN id(person) AS item, id(c) AS category, likes.score AS weight" AS query
 CALL algo.similarity.cosine(query, {
-  graph: "cypher", topK: 1, similarityCutoff: 0.1, write:true
+  graph: 'cypher', topK: 1, similarityCutoff: 0.1, write:true
 })
 YIELD nodes, similarityPairs, write, writeRelationshipType, writeProperty, min, max, mean, stdDev, p95
 RETURN nodes, similarityPairs, write, writeRelationshipType, writeProperty, min, max, mean, p95
-// end::cypher-projection[]
+// end::cypher-projection[]
+
+
+// tag::create-sample-embedding-graph[]
+
+MERGE (french:Cuisine {name:'French'})          SET french.embedding = [0.71, 0.33, 0.81, 0.52, 0.41]
+MERGE (italian:Cuisine {name:'Italian'})        SET italian.embedding = [0.31, 0.72, 0.58, 0.67, 0.31]
+MERGE (indian:Cuisine {name:'Indian'})          SET indian.embedding = [0.43, 0.26, 0.98, 0.51, 0.76]
+MERGE (lebanese:Cuisine {name:'Lebanese'})      SET lebanese.embedding = [0.12, 0.23, 0.35, 0.31, 0.39]
+MERGE (portuguese:Cuisine {name:'Portuguese'})  SET portuguese.embedding = [0.47, 0.98, 0.81, 0.72, 0.89]
+MERGE (british:Cuisine {name:'British'})        SET british.embedding = [0.94, 0.12, 0.23, 0.4, 0.71]
+MERGE (mauritian:Cuisine {name:'Mauritian'})    SET mauritian.embedding = [0.31, 0.56, 0.98, 0.21, 0.62]
+
+// end::create-sample-embedding-graph[]
+
+// tag::embedding-graph-stream[]
+
+MATCH (c:Cuisine)
+WITH {item:id(c), weights: c.embedding} as userData
+WITH collect(userData) as data
+CALL algo.similarity.cosine.stream(data, {skipValue: null})
+YIELD item1, item2, count1, count2, similarity
+RETURN algo.getNodeById(item1).name AS from, algo.getNodeById(item2).name AS to, similarity
+ORDER BY similarity DESC
+
+// end::embedding-graph-stream[]
diff --git a/doc/asciidoc/scripts/similarity-euclidean.cypher b/doc/asciidoc/scripts/similarity-euclidean.cypher
@@ -38,7 +38,7 @@ MERGE (karin)-[:LIKES {score: 7}]->(italian)
 // tag::stream[]
 MATCH (p:Person), (c:Cuisine)
 OPTIONAL MATCH (p)-[likes:LIKES]->(c)
-WITH {item:id(p), weights: collect(coalesce(likes.score, 0))} as userData
+WITH {item:id(p), weights: collect(coalesce(likes.score, algo.NaN()))} as userData
 WITH collect(userData) as data
 CALL algo.similarity.euclidean.stream(data)
 YIELD item1, item2, count1, count2, similarity
@@ -49,9 +49,9 @@ ORDER BY similarity
 // tag::stream-similarity-cutoff[]
 MATCH (p:Person), (c:Cuisine)
 OPTIONAL MATCH (p)-[likes:LIKES]->(c)
-WITH {item:id(p), weights: collect(coalesce(likes.score, 0))} as userData
+WITH {item:id(p), weights: collect(coalesce(likes.score, algo.NaN()))} as userData
 WITH collect(userData) as data
-CALL algo.similarity.euclidean.stream(data, {similarityCutoff: 17.0})
+CALL algo.similarity.euclidean.stream(data, {similarityCutoff: 4.0})
 YIELD item1, item2, count1, count2, similarity
 RETURN algo.getNodeById(item1).name AS from, algo.getNodeById(item2).name AS to, similarity
 ORDER BY similarity
@@ -60,7 +60,7 @@ ORDER BY similarity
 // tag::stream-topk[]
 MATCH (p:Person), (c:Cuisine)
 OPTIONAL MATCH (p)-[likes:LIKES]->(c)
-WITH {item:id(p), weights: collect(coalesce(likes.score, 0))} as userData
+WITH {item:id(p), weights: collect(coalesce(likes.score, algo.NaN()))} as userData
 WITH collect(userData) as data
 CALL algo.similarity.euclidean.stream(data, {topK:1})
 YIELD item1, item2, count1, count2, similarity
@@ -71,7 +71,7 @@ ORDER BY from
 // tag::write-back[]
 MATCH (p:Person), (c:Cuisine)
 OPTIONAL MATCH (p)-[likes:LIKES]->(c)
-WITH {item:id(p), weights: collect(coalesce(likes.score, 0))} as userData
+WITH {item:id(p), weights: collect(coalesce(likes.score, algo.NaN()))} as userData
 WITH collect(userData) as data
 CALL algo.similarity.euclidean(data, {topK: 1, write:true})
 YIELD nodes, similarityPairs, write, writeRelationshipType, writeProperty, min, max, mean, stdDev, p25, p50, p75, p90, p95, p99, p999, p100
@@ -89,8 +89,34 @@ RETURN cuisine.name AS cuisine
 WITH "MATCH (person:Person)-[likes:LIKES]->(c)
       RETURN id(person) AS item, id(c) AS category, likes.score AS weight" AS query
 CALL algo.similarity.euclidean(query, {
-  graph: "cypher", topK: 1, similarityCutoff: 17.0, write:true
+  graph: 'cypher', topK: 1, similarityCutoff: 4.0, write:true
 })
 YIELD nodes, similarityPairs, write, writeRelationshipType, writeProperty, min, max, mean, stdDev, p95
 RETURN nodes, similarityPairs, write, writeRelationshipType, writeProperty, min, max, mean, p95
-// end::cypher-projection[]
+// end::cypher-projection[]
+
+
+// tag::create-sample-embedding-graph[]
+
+MERGE (french:Cuisine {name:'French'})          SET french.embedding = [0.71, 0.33, 0.81, 0.52, 0.41]
+MERGE (italian:Cuisine {name:'Italian'})        SET italian.embedding = [0.31, 0.72, 0.58, 0.67, 0.31]
+MERGE (indian:Cuisine {name:'Indian'})          SET indian.embedding = [0.43, 0.26, 0.98, 0.51, 0.76]
+MERGE (lebanese:Cuisine {name:'Lebanese'})      SET lebanese.embedding = [0.12, 0.23, 0.35, 0.31, 0.39]
+MERGE (portuguese:Cuisine {name:'Portuguese'})  SET portuguese.embedding = [0.47, 0.98, 0.81, 0.72, 0.89]
+MERGE (british:Cuisine {name:'British'})        SET british.embedding = [0.94, 0.12, 0.23, 0.4, 0.71]
+MERGE (mauritian:Cuisine {name:'Mauritian'})    SET mauritian.embedding = [0.31, 0.56, 0.98, 0.21, 0.62]
+
+// end::create-sample-embedding-graph[]
+
+// tag::embedding-graph-stream[]
+
+MATCH (c:Cuisine)
+WITH {item:id(c), weights: c.embedding} as userData
+WITH collect(userData) as data
+CALL algo.similarity.euclidean.stream(data, {skipValue: null})
+YIELD item1, item2, count1, count2, similarity
+RETURN algo.getNodeById(item1).name AS from, algo.getNodeById(item2).name AS to, similarity
+ORDER BY similarity DESC
+
+// end::embedding-graph-stream[]
+
diff --git a/doc/asciidoc/scripts/similarity-pearson.cypher b/doc/asciidoc/scripts/similarity-pearson.cypher
@@ -22,7 +22,7 @@ MERGE (praveena)-[:RATED {score: 5}]->(jerry)
 MERGE (praveena)-[:RATED {score: 3}]->(home_alone)
 
 MERGE (zhen)-[:RATED {score: 3}]->(home_alone)
-MERGE (zhen)-[:RATED {score: 8}]->(good_men)
+MERGE (zhen)-[:RATED {score: 5}]->(good_men)
 MERGE (zhen)-[:RATED {score: 9}]->(matrix)
 
 MERGE (michael)-[:RATED {score: 8}]->(home_alone)
@@ -31,20 +31,23 @@ MERGE (michael)-[:RATED {score: 9}]->(good_men)
 
 MERGE (arya)-[:RATED {score: 3}]->(top_gun)
 MERGE (arya)-[:RATED {score: 10}]->(matrix)
-MERGE (arya)-[:RATED {score: 7}]->(jerry)
+MERGE (arya)-[:RATED {score: 1}]->(jerry)
 
 MERGE (karin)-[:RATED {score: 9}]->(top_gun)
 MERGE (karin)-[:RATED {score: 7}]->(matrix)
+MERGE (karin)-[:RATED {score: 2}]->(home_alone)
 
 MERGE (michael)-[:RATED {score: 7}]->(home_alone)
 MERGE (michael)-[:RATED {score: 9}]->(good_men)
+MERGE (michael)-[:RATED {score: 3}]->(jerry)
+MERGE (michael)-[:RATED {score: 4}]->(top_gun)
 
 // end::create-sample-graph[]
 
 // tag::stream[]
 MATCH (p:Person), (m:Movie)
 OPTIONAL MATCH (p)-[rated:RATED]->(m)
-WITH {item:id(p), weights: collect(coalesce(rated.score, 0))} as userData
+WITH {item:id(p), weights: collect(coalesce(rated.score, algo.NaN()))} as userData
 WITH collect(userData) as data
 CALL algo.similarity.pearson.stream(data)
 YIELD item1, item2, count1, count2, similarity
@@ -55,7 +58,7 @@ ORDER BY similarity DESC
 // tag::stream-similarity-cutoff[]
 MATCH (p:Person), (m:Movie)
 OPTIONAL MATCH (p)-[rated:RATED]->(m)
-WITH {item:id(p), weights: collect(coalesce(rated.score, 0))} as userData
+WITH {item:id(p), weights: collect(coalesce(rated.score, algo.NaN()))} as userData
 WITH collect(userData) as data
 CALL algo.similarity.pearson.stream(data, {similarityCutoff: 0.0})
 YIELD item1, item2, count1, count2, similarity
@@ -66,7 +69,7 @@ ORDER BY similarity DESC
 // tag::stream-topk[]
 MATCH (p:Person), (m:Movie)
 OPTIONAL MATCH (p)-[rated:RATED]->(m)
-WITH {item:id(p), weights: collect(coalesce(rated.score, 0))} as userData
+WITH {item:id(p), weights: collect(coalesce(rated.score, algo.NaN()))} as userData
 WITH collect(userData) as data
 CALL algo.similarity.pearson.stream(data, {topK:1, similarityCutoff: 0.0})
 YIELD item1, item2, count1, count2, similarity
@@ -77,15 +80,15 @@ ORDER BY similarity DESC
 // tag::write-back[]
 MATCH (p:Person), (m:Movie)
 OPTIONAL MATCH (p)-[rated:RATED]->(m)
-WITH {item:id(p), weights: collect(coalesce(rated.score, 0))} as userData
+WITH {item:id(p), weights: collect(coalesce(rated.score, algo.NaN()))} as userData
 WITH collect(userData) as data
 CALL algo.similarity.pearson(data, {topK: 1, similarityCutoff: 0.1, write:true})
 YIELD nodes, similarityPairs, write, writeRelationshipType, writeProperty, min, max, mean, stdDev, p25, p50, p75, p90, p95, p99, p999, p100
 RETURN nodes, similarityPairs, write, writeRelationshipType, writeProperty, min, max, mean, p95
 // end::write-back[]
 
 // tag::query[]
-MATCH (p:Person {name: "Karin"})-[:SIMILAR]->(other),
+MATCH (p:Person {name: "Praveena"})-[:SIMILAR]->(other),
       (other)-[r:RATED]->(movie)
 WHERE not((p)-[:RATED]->(movie)) and r.score >= 8
 RETURN movie.name AS movie
@@ -96,8 +99,30 @@ RETURN movie.name AS movie
 WITH "MATCH (person:Person)-[likes:LIKES]->(c)
       RETURN id(person) AS item, id(c) AS category, likes.score AS weight" AS query
 CALL algo.similarity.pearson(query, {
-  graph: "cypher", topK: 1, similarityCutoff: 0.1, write:true
+  graph: 'cypher', topK: 1, similarityCutoff: 0.1, write:true
 })
 YIELD nodes, similarityPairs, write, writeRelationshipType, writeProperty, min, max, mean, stdDev, p95
 RETURN nodes, similarityPairs, write, writeRelationshipType, writeProperty, min, max, mean, p95
-// end::cypher-projection[]
+// end::cypher-projection[]
+
+// tag::create-sample-embedding-graph[]
+
+MERGE (home_alone:Movie {name:'Home Alone'})    SET home_alone.embedding = [0.71, 0.33, 0.81, 0.52, 0.41]
+MERGE (matrix:Movie {name:'The Matrix'})        SET matrix.embedding = [0.31, 0.72, 0.58, 0.67, 0.31]
+MERGE (good_men:Movie {name:'A Few Good Men'})  SET good_men.embedding = [0.43, 0.26, 0.98, 0.51, 0.76]
+MERGE (top_gun:Movie {name:'Top Gun'})          SET top_gun.embedding = [0.12, 0.23, 0.35, 0.31, 0.3]
+MERGE (jerry:Movie {name:'Jerry Maguire'})      SET jerry.embedding = [0.47, 0.98, 0.81, 0.72, 0]
+
+// end::create-sample-embedding-graph[]
+
+// tag::embedding-graph-stream[]
+
+MATCH (m:Movie)
+WITH {item:id(m), weights: m.embedding} as userData
+WITH collect(userData) as data
+CALL algo.similarity.pearson.stream(data, {skipValue: null})
+YIELD item1, item2, count1, count2, similarity
+RETURN algo.getNodeById(item1).name AS from, algo.getNodeById(item2).name AS to, similarity
+ORDER BY similarity DESC
+
+// end::embedding-graph-stream[]
diff --git a/doc/asciidoc/similarity-cosine.adoc b/doc/asciidoc/similarity-cosine.adoc
diff --git a/doc/asciidoc/similarity-euclidean.adoc b/doc/asciidoc/similarity-euclidean.adoc
diff --git a/doc/asciidoc/similarity-pearson.adoc b/doc/asciidoc/similarity-pearson.adoc