Rapidminer 4.6 Tutorial

  • View
    4.112

  • Download
    0

Embed Size (px)

DESCRIPTION

Software/tools for statistical analysis

Transcript

RapidMiner 4.6User Guide Operator Reference Developer Tutorial

2 Rapid-I GmbH Stockumer Str. 475 44227 Dortmund, Germany http://www.rapidminer.com/

Copyright 2001-2009 by Rapid-I

October 1, 2009

Contents1 Introduction 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 Modeling Knowledge Discovery Processes as Operator Trees . . RapidMiner as a Data Mining Interpreter . . . . . . . . . . . Dierent Ways of Using RapidMiner . . . . . . . . . . . . . . Multi-Layered Data View Concept . . . . . . . . . . . . . . . . Transparent Data Handling . . . . . . . . . . . . . . . . . . . . Meta Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Large Number of Built-in Data Mining Operators . . . . . . . . Extending RapidMiner . . . . . . . . . . . . . . . . . . . . . Example Applications . . . . . . . . . . . . . . . . . . . . . . . 29 30 30 32 32 33 33 33 34 35 36 37 37 37 37 38 38 40 40 40 41 41

1.10 How this tutorial is organized . . . . . . . . . . . . . . . . . . . 2 Installation and starting notes 2.1 2.2 Download . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Installation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 2.2.2 2.3 2.4 2.5 2.6 2.7 2.8 Installing the Windows executable . . . . . . . . . . . . Installing the Java version (any platform) . . . . . . . .

Starting RapidMiner . . . . . . . . . . . . . . . . . . . . . . Memory Usage . . . . . . . . . . . . . . . . . . . . . . . . . . . Plugins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . General settings . . . . . . . . . . . . . . . . . . . . . . . . . . External Programs . . . . . . . . . . . . . . . . . . . . . . . . . Database Access . . . . . . . . . . . . . . . . . . . . . . . . . . 3

4 3 First steps 3.1 3.2 3.3 3.4

CONTENTS 45 45 48 49 50 51 55 55 56 56 57 59 59 61 61 61 63 66 69 70 70 70 71 72 72 74 74 75 76

First example . . . . . . . . . . . . . . . . . . . . . . . . . . . Process conguration les . . . . . . . . . . . . . . . . . . . . . Parameter Macros . . . . . . . . . . . . . . . . . . . . . . . . . File formats . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1 3.4.2 3.4.3 3.4.4 3.4.5 Data les and the attribute description le . . . . . . . . Model les . . . . . . . . . . . . . . . . . . . . . . . . . Attribute construction les . . . . . . . . . . . . . . . . Parameter set les . . . . . . . . . . . . . . . . . . . . . Attribute weight les . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.5

File format summary

4 Advanced processes 4.1 4.2 Feature selection . . . . . . . . . . . . . . . . . . . . . . . . . . Splitting up Processes . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 4.2.2 4.3 4.4 Learning a model . . . . . . . . . . . . . . . . . . . . . Applying the model . . . . . . . . . . . . . . . . . . . .

Parameter and performance analysis . . . . . . . . . . . . . . . Support and tips . . . . . . . . . . . . . . . . . . . . . . . . . .

5 Operator reference 5.1 Basic operators . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 5.1.2 5.1.3 5.1.4 5.1.5 5.2 ModelApplier . . . . . . . . . . . . . . . . . . . . . . . ModelGrouper . . . . . . . . . . . . . . . . . . . . . . . ModelUngrouper . . . . . . . . . . . . . . . . . . . . . . ModelUpdater . . . . . . . . . . . . . . . . . . . . . . . OperatorChain . . . . . . . . . . . . . . . . . . . . . . .

Core operators . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.1 5.2.2 5.2.3 CommandLineOperator . . . . . . . . . . . . . . . . . . DataMacroDenition . . . . . . . . . . . . . . . . . . . Experiment . . . . . . . . . . . . . . . . . . . . . . . .

October 1, 2009

CONTENTS 5.2.4 5.2.5 5.2.6 5.2.7 5.2.8 5.2.9 FileEcho . . . . . . . . . . . . . . . . . . . . . . . . . . IOConsumer . . . . . . . . . . . . . . . . . . . . . . . . IOMultiplier . . . . . . . . . . . . . . . . . . . . . . . . IORetriever . . . . . . . . . . . . . . . . . . . . . . . . IOSelector . . . . . . . . . . . . . . . . . . . . . . . . . IOStorer . . . . . . . . . . . . . . . . . . . . . . . . . .

5 77 78 79 79 80 81 82 85 86 87 87 88 89 90 92 92 93 93 95 96 97 97 98 99

5.2.10 MacroConstruction . . . . . . . . . . . . . . . . . . . . 5.2.11 MacroDenition . . . . . . . . . . . . . . . . . . . . . . 5.2.12 MaterializeDataInMemory . . . . . . . . . . . . . . . . . 5.2.13 MemoryCleanUp . . . . . . . . . . . . . . . . . . . . . . 5.2.14 Process . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.15 SQLExecution . . . . . . . . . . . . . . . . . . . . . . . 5.2.16 Script . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.17 SingleMacroDenition . . . . . . . . . . . . . . . . . . . 5.3 Input/Output operators . . . . . . . . . . . . . . . . . . . . . . 5.3.1 5.3.2 5.3.3 5.3.4 5.3.5 5.3.6 5.3.7 5.3.8 5.3.9 AccessExampleSource . . . . . . . . . . . . . . . . . . . ArExampleSetWriter . . . . . . . . . . . . . . . . . . . ArExampleSource . . . . . . . . . . . . . . . . . . . . AttributeConstructionsLoader . . . . . . . . . . . . . . . AttributeConstructionsWriter . . . . . . . . . . . . . . . AttributeWeightsLoader . . . . . . . . . . . . . . . . . . AttributeWeightsWriter . . . . . . . . . . . . . . . . . . BibtexExampleSource . . . . . . . . . . . . . . . . . . . C45ExampleSource . . . . . . . . . . . . . . . . . . . .

5.3.10 CSVExampleSetWriter . . . . . . . . . . . . . . . . . . 101 5.3.11 CSVExampleSource . . . . . . . . . . . . . . . . . . . . 102 5.3.12 CachedDatabaseExampleSource . . . . . . . . . . . . . 103

5.3.13 ChurnReductionExampleSetGenerator . . . . . . . . . . 105 5.3.14 ClusterModelReader . . . . . . . . . . . . . . . . . . . . 106 5.3.15 ClusterModelWriter . . . . . . . . . . . . . . . . . . . . 106The RapidMiner 4.6 Tutorial

6

CONTENTS 5.3.16 DBaseExampleSource . . . . . . . . . . . . . . . . . . . 107 5.3.17 DasyLabExampleSource . . . . . . . . . . . . . . . . . . 108 5.3.18 DatabaseExampleSetWriter . . . . . . . . . . . . . . . . 108 5.3.19 DatabaseExampleSource . . . . . . . . . . . . . . . . . 110 5.3.20 DirectMailingExampleSetGenerator . . . . . . . . . . . . 112 5.3.21 ExampleSetGenerator . . . . . . . . . . . . . . . . . . . 112 5.3.22 ExampleSetWriter . . . . . . . . . . . . . . . . . . . . . 113 5.3.23 ExampleSource . . . . . . . . . . . . . . . . . . . . . . 116 5.3.24 ExcelExampleSetWriter . . . . . . . . . . . . . . . . . . 118 5.3.25 ExcelExampleSource . . . . . . . . . . . . . . . . . . . . 118 5.3.26 GnuplotWriter . . . . . . . . . . . . . . . . . . . . . . . 120 5.3.27 IOContainerReader . . . . . . . . . . . . . . . . . . . . 120 5.3.28 IOContainerWriter . . . . . . . . . . . . . . . . . . . . . 121 5.3.29 IOObjectReader . . . . . . . . . . . . . . . . . . . . . . 122 5.3.30 IOObjectWriter . . . . . . . . . . . . . . . . . . . . . . 122 5.3.31 MassiveDataGenerator . . . . . . . . . . . . . . . . . . 123 5.3.32 ModelLoader . . . . . . . . . . . . . . . . . . . . . . . . 124 5.3.33 ModelWriter . . . . . . . . . . . . . . . . . . . . . . . . 124 5.3.34 MultipleLabelGenerator . . . . . . . . . . . . . . . . . . 126 5.3.35 NominalExampleSetGenerator . . . . . . . . . . . . . . . 126 5.3.36 ParameterSetLoader . . . . . . . . . . . . . . . . . . . . 127 5.3.37 ParameterSetWriter . . . . . . . . . . . . . . . . . . . . 128 5.3.38 PerformanceLoader . . . . . . . . . . . . . . . . . . . . 128 5.3.39 PerformanceWriter . . . . . . . . . . . . . . . . . . . . 129 5.3.40 ResultWriter . . . . . . . . . . . . . . . . . . . . . . . . 130 5.3.41 SPSSExampleSource . . . . . . . . . . . . . . . . . . . 130 5.3.42 SalesExampleSetGenerator . . . . . . . . . . . . . . . . 131 5.3.43 SimpleExampleSource . . . . . . . . . . . . . . . . . . . 132 5.3.44 SingleTextObjectInput . . . . . . . . . . . . . . . . . . . 134 5.3.45 SparseFormatExampleSource . . . . . . . . . . . . . . . 135October 1, 2009

CONTENTS 5.3.46 StataExampleSource

7 . . . . . . . . . . . . . . . . . . . 136

5.3.47 TeamProtExampleSetGenerator . . . . . . . . . . . . . 137 5.3.48 TextCleaner . . . . . . . . . . . . . . . . . . . . . . . . 138 5.3.49 TextExtractor . . . . . . . . . . . . . . . . . . . . . . . 138 5.3.50 TextObject2ExampleSet . . . . . . . . . . . . . . . . . . 139 5.3.51 TextObjectLoader . . . . . . . . . . . . . . . . . . . . . 140 5.3.52 TextObjectWriter . . . . . . . . . . . . . . . . . . . . . 140 5.3.53 TextSegmenter . . . . . . . . . . . . . . . . . . . . . . 141 5.3.54 ThresholdLoader . . . . . . . . . . . . . . . . . . . . . . 142 5.3.55 ThresholdWriter . . . . . . . . . . . . . . . . . . . . . . 142 5.3.56 TransfersExampleSetGenerator . . . . . . . . . . . . . . 143 5.3.57 URLExampleSource . . . . . . . . . . . . . . . . . . . . 144 5.3.58 UpSellingExampleSetGenerator . . . . . . . . . . . . . . 145 5.3.59 WekaModelLoader . . . . . . . . . . . . . . . . . . . . . 145 5.3.60 XrExampleSetWriter . . . . . . . . . . . . . . . . . . . 146 5.3.61 XrExampleSource . . . . . . . . . . . . . . . . . . . . 147 5.4 Learning schemes . . . . . . . . . . . . . . . . . . . . . . . . . 150 5.4.1 5.4.2 5.4.3 5.4.4 5.4.5 5.4.6 5.4.7 5.4.8 5.4.9 AdaBoost . . . . . . . . . . . . . . . . . . . . . . . . . 150 AdditiveRegression . . . . . . . . . . . . . . . . . . . . 151 AgglomerativeClustering . . . . . . . . . . . . . . . . . 152 AssociationRuleGenerator . . . . . . . . . . . . . . . . . 153 AttributeBasedVote . . . . . . . . . . . . . . . . . . . . 154 Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . 155 BasicRuleLearner . . . . . . . . . . . . . . . . . . . . . 156 BayesianBoosting . . . . . . . . . . . . . . . . . . . . . 156 BestRuleInduction . . . . . . . . . . . . . . . . . . . . . 158

5.4.10 Binary2MultiClassLearner . . . . . . . . . . . . . . . . . 159 5.4.11 CHAID . . . . . . . . . . . . . . . . . . . . . . . . . . . 16