Debugging Techniques

import static com.pervasive.datarush.types.TokenTypeConstant.INT;
import static com.pervasive.datarush.types.TokenTypeConstant.STRING;
import static com.pervasive.datarush.types.TokenTypeConstant.record;
import com.pervasive.datarush.graphs.LogicalGraph;
import com.pervasive.datarush.graphs.LogicalGraphFactory;
import com.pervasive.datarush.io.WriteMode;
import com.pervasive.datarush.operators.group.Group;
import com.pervasive.datarush.operators.io.textfile.ReadDelimitedText;
import com.pervasive.datarush.operators.io.textfile.WriteDelimitedText;
import com.pervasive.datarush.operators.join.Join;
import com.pervasive.datarush.operators.join.JoinMode;
import com.pervasive.datarush.schema.TextRecord;
import com.pervasive.datarush.tokens.record.JoinKey;
import com.pervasive.datarush.types.RecordTokenType;

/**
* Join the ratings and movie data sets
*/
public class JoinRatings {
    public static void main(String[] args) {

        // Create an empty logical graph
        LogicalGraph graph = LogicalGraphFactory.newLogicalGraph("ReadAndWrite");

        // Create a delimited text reader for the "ratings.txt" file
        ReadDelimitedText ratingsReader = graph.add(new ReadDelimitedText("data/ratings.txt"));
        ratingsReader.setFieldSeparator("::");
        ratingsReader.setHeader(true);
        RecordTokenType ratingsType = record(INT("userID"), INT("movieID"), INT("rating"), STRING("timestamp"));
        ratingsReader.setSchema(TextRecord.convert(ratingsType));

        // Create a delimited text reader for the "movies.txt" file
        ReadDelimitedText moviesReader = graph.add(new ReadDelimitedText("data/movies.txt"));
        moviesReader.setFieldSeparator("::");
        moviesReader.setHeader(true);
        RecordTokenType moviesType = record(INT("movieID"), STRING("movieName"), STRING("genre"));
        moviesReader.setSchema(TextRecord.convert(moviesType));

        // Join the ratings and the movie definitions
        Join joiner = graph.add(new Join());
        joiner.setJoinKeys(JoinKey.keys("movieID"));    // Join on movieID field
        joiner.setJoinMode(JoinMode.LEFT_OUTER);
        joiner.setUseHashJoinHint(true);

        // Connect ratings reader, movies reader to join
        graph.connect(ratingsReader.getOutput(), joiner.getLeft());
        graph.connect(moviesReader.getOutput(), joiner.getRight());

        // Group the joined data by movieName
        Group group = graph.add(new Group());
        group.setKeys(new String[] {"movieName"});
        group.setAggregations("count(rating) as count_ratings, min(rating) as min_rating, max(rating) as max_rating, avg(rating) as avg_rating");

        // Connect join and group
        graph.connect(joiner.getOutput(), group.getInput());

        // Create a delimited text writer
        WriteDelimitedText writer = graph.add(new WriteDelimitedText("results/join-ratings.txt", WriteMode.OVERWRITE));
        writer.setFieldDelimiter("");
        writer.setHeader(true);
        writer.setWriteSingleSink(true);

        // Connect group to the writer
        graph.connect(group.getOutput(), writer.getInput());

        // Compile and run the graph
        graph.run();
    }
}