Talend Open Studio for Big Data入門ガイド...Talend Open Studio for Big Dataを使用する前提条件 Talend Studioがインストールされているクライアントマシンが、使用するHadoopクラス

Talend Open Studio for BigData入門ガイド

7.3.1Last updated: 2020-02-19

目次

Copyleft...........................................................................................................................3

Talend Open Studio for Big Dataの概要................................................................... 5Talend Open Studio for Big Dataの論理機能アーキテクチャ..........................................................................5

Talend Open Studio for Big Dataを使用する前提条件........................................... 6メモリ要件............................................................................................................................................................................ 6ソフトウェア要件.............................................................................................................................................................. 6Javaのインストール...........................................................................................................................................................7WindowsでJava環境変数を設定する...........................................................................................................................7LinuxでJava環境変数を設定する..................................................................................................................................87-Zipのインストール(Windows)....................................................................................................................................8

Talend Open Studio for Big Dataのダウンロードとインストール........................9Talend Open Studio for Big Dataのダウンロード.................................................................................................9Talend Studioのインストール.......................................................................................................................................9

Talend製品の設定...................................................................................................... 11初回のStudioの起動........................................................................................................................................................ 11Studioへのログオン........................................................................................................................................................ 11追加のパッケージをインストールする..................................................................................................................12DBFS(Databricks File System)へのファイルのアップロード......................................................................... 12動画メタデータのプレパレーション...................................................................................................................... 16

ビッグデータのデータ統合タスクを実行する......................................................20映画と監督の情報を結合する.................................................................................................................................... 20次のステップ?...................................................................................................................................................................29

Copyleft

Copyleft

7.3.1に対応しており、以前のリリースの更新版となります。

このドキュメントの内容は公開の時点で正確なものです。

ただし、オンライン(Talend Help Center)で最新の更新バージョンが入手できる場合があります。

このドキュメンテーションは、クリエイティブコモンズ公共ライセンス(CCPL)の条件の下で提供されています。

CCPLに準拠した本ドキュメンテーションにおける許可事項および禁止事項の詳細は、http://creativecommons.org/licenses/by-nc-sa/2.0/を参照してください。

商標について

TalendはTalend, Inc.の商標です。

すべてのブランド、商品名、会社名、商標、およびサービスマークは各所有者に帰属します。

ライセンス契約

このドキュメンテーションに記述されているソフトウェアは、Apache License、バージョン2.0(以下「本ライセンス」という)の下でライセンスされています。本ライセンスを遵守せずに、このソフトウェアを使用することはできません。ライセンスのコピーは、http://www.apache.org/licenses/LICENSE-2.0.htmlで取得できます。当該の法律による要求または書面での同意がない限り、本ライセンスの下で配布されるソフトウェアは、「現状有姿」で、明示または暗示にかかわらず、あらゆる保証あるいは条件なしで提供されます。ライセンスの下で許可および制限を適用する特定の言語のライセンスを参照してください。

本製品には、AOP アライアンス(Java/J2EE AOP標準)で開発されたソフトウェア、ASM、Amazon、AntlR、Apache ActiveMQ、Apache Ant、Apache Avro、Apache Axiom、Apache Axis、ApacheAxis 2、Apache Batik、Apache CXF、Apache Cassandra、Apache Chemistry、Apache Common HttpClient、Apache Common Http Core、Apache Commons、Apache Commons Bcel、Apache CommonsJxPath、Apache Commons Lang、Apache Datafu、Apache Derby Database Engine and EmbeddedJDBC Driver、Apache Geronimo、Apache HCatalog、Apache Hadoop、Apache Hbase、ApacheHive、Apache HttpClient、Apache HttpComponents Client、Apache JAMES、Apache Log4j、ApacheLucene Core、Apache Neethi、Apache Oozie、Apache POI、Apache Parquet、Apache Pig、ApachePiggyBank、Apache ServiceMix、Apache Sqoop、Apache Thrift、Apache Tomcat、ApacheVelocity、Apache WSS4J、Apache WebServices Common Utilities、Apache Xml-RPC、ApacheZookeeper、Box Java SDK (V2)、CSV Tools、Cloudera HTrace、ConcurrentLinkedHashMapfor Java、Couchbase Client、DataNucleus、DataStax Java Driver for Apache Cassandra、Ehcache、Ezmorph、Ganymed SSH-2 for Java、Google APIs Client Library for Java、GoogleGson、Groovy、Guava: Java、H2 Embedded Database、および DBCドライバーのためのGoogleCoreLibraries、ヘクター: Apache Cassandraのための高レベルのJavaクライアント、HibernateBeanValidation API、Hibernate Validator、HighScale Lib、HsqlDB、Ini4j、JClouds、JDO-API、JLine、JSON、JSR 305: Annotations for Software Defect Detection in Java、JUnit、JacksonJava JSON-processor、Java API for RESTful Services、Java Agent for Memory Measurements、Jaxb、Jaxen、JetS3T、Jettison、Jetty、Joda-Time、Json Simple、LZ4: Extremely Fast Compressionalgorithm、LightCouch、MetaStuff、Metrics API、Metrics Reporter Config、Microsoft Azure SDK forJava、Mondrian、MongoDB Java Driver、Netty、Ning Compression codec for LZF encoding、OpenSAML、Paraccel JDBC Driver、Parboiled、PostgreSQL JDBC Driver、Protocol Buffers - Google's data

3

https://help.talend.com

http://creativecommons.org/licenses/by-nc-sa/2.0/

http://creativecommons.org/licenses/by-nc-sa/2.0/

http://www.apache.org/licenses/LICENSE-2.0.html

http://www.apache.org/licenses/LICENSE-2.0.html

Copyleft

interchange format、Resty: Java、Rocoto、SL4Jのための単純なHTTP RESTクライアント: Java用のシンプルなLogging Facade、SQLite JDBC Driver、Scala Lang、Simple API for CSS、Snappy for Java afast compressor/decompresser、SpyMemCached、SshJ、StAX API、StAXON - JSON via StAX、SuperSCV、The Castor Project、The Legion of the Bouncy Castle、Twitter4J、Uuid、W3C、WindowsAzure Storage libraries for Java、Woden、Woodstox: 高パフォーマンスのXMLプロセス、Xalan-J、Xerces2、XmlBeans、XmlSchema Core、Xmlsec - Apache Santuario、YAML parser and emitter forJava、Zip4J、atinject、dropbox-sdk-java: Dropbox Core API用のJavaライブラリ、google-guice。各ライセンスの下でライセンスされています。

4

Talend Open Studio for Big Dataの概要

Talend Open Studio for Big Dataの概要

Talendには、ビジュアルで使いやすいデザイナーですべてのデータを統合し、処理できる統合開発/管理ツールが用意されています。

Talendのデータ統合ソリューションを基礎とするビッグデータソリューションは、Apache HadoopBig Data Platformを活用してユーザーがビッグデータへのアクセス、変換、移動、同期を行ったり、Hadoopプラットフォームをごく手軽に使ったりできるパワフルなツールです。

Talend Open Studio for Big Dataの論理機能アーキテクチャTalend Open Studio for Big Data論理機能アーキテクチャーは、Talend Open Studio for Big Data機能、相互作用、対応するITニーズを特定するアーキテクチャーモデルです。アーキテクチャー全体は、特定の機能を機能ブロックに分離することで説明されています。

下の図は主なアーキテクチャー機能ブロックです。

機能ブロックのタイプは以下のとおりです。

• Talend Studioから、Hadoopクラスターを活用するビッグデータジョブをデザインして起動し、大量のデータセットを処理します。これらのジョブは起動後にこのHadoopクラスターに送られ、そこでデプロイおよび実行されます。

• サブスクリプションによるワークフロースケジューラーシステムによって、Hadoopクラスター上にビッグデータジョブをデプロイ、スケジュール設定、実行、ジョブの実行ステータスや結果を監視できます。

• Talendシステムから独立したHadoopクラスターでは、大量のデータセットを処理します。

5

Talend Open Studio for Big Dataを使用する前提条件


この章では、Talend Open Studio for Big Dataの使用を開始するために必要なソフトウェアとハードウェアの基本情報と推奨される情報を提供します。

• メモリ要件（6ページ）• ソフトウェア要件（6ページ）

また、必要なサードパーティツールと推奨されるサードパーティツールのインストールと設定の手順を説明します。

• Javaのインストール（7ページ）• WindowsでJava環境変数を設定する（7ページ）または LinuxでJava環境変数を設定す

る（8ページ）• 7-Zipのインストール(Windows)（8ページ）

メモリ要件

Talend製品を最大限に活用できるよう、メモリとディスク容量について以下の使用量を考慮して下さい:

メモリ使用量最低3 GB、4 GBを推奨

ディスク容量 3GB

ソフトウェア要件Talend製品を最大限に活用できるよう、システムとソフトウェアについて以下の要件を考慮してください。

必要なソフトウェア

• Talend Studio用のオペレーティングシステム:

サポートタイプオペレーティングシステム(64ビットのみ)

推奨 Ubuntu 18.04 LTS

推奨 Microsoft Windows 10

Apple macOS 10.14/Mojave

Apple macOS 10.13/High Sierra

サポート

Apple macOS 10.12/Sierra

• Oracle Java 8と11 JREのいずれか、またはOpenJDK 1.8と11のいずれかをインストールする必要があります。

• 正しくインストールされ、設定されたHadoopクラスター。

6


Talend Studioがインストールされているクライアントマシンが、使用するHadoopクラスターのノードのホスト名を認識できることを確認する必要があります。そのためには、そのHadoopクラスターのサービスに使用するIPアドレス/ホスト名のマッピングエントリをクライアントマシンのhostsファイルに追加します。

たとえば、Hadoopネームノードサーバーのホスト名がtalend-cdh550.weave.localで、IPアドレスが192.168.x.xの場合、マッピングエントリーは192.168.x.x talend-cdh550.

weave.localとなります。

オプションのソフトウェア

• 7-Zip.

JavaのインストールTalend製品を使用するには、お使いのコンピューターにJAVA環境をインストールする必要があります。

このドキュメンテーションでは、Oracle JREのインストールについて説明しています。OpenJDKの詳細は、http://openjdk.java.net/を参照して下さい。

手順

1. Java SE DownloadsページのJava Platform, Standard Editionの下にある[JRE Download] (JREのダウンロード)をクリックします。

2. [Java SE Runtime Environment 8 Downloads] (Java SE Runtime Environment 8ダウンロード)ページで、[Accept License Agreement] (ライセンス契約に同意する)ラジオボタンをクリックします。

3. お使いのオペレーティングシステムに適したダウンロードを選択します。4. Oracleのインストール手順に従ってJavaをインストールします。

タスクの結果

Javaがインストールされたら、JAVA_HOME環境変数を設定する必要があります。詳細は、以下を参照して下さい:

• WindowsでJava環境変数を設定する（7ページ）.• LinuxでJava環境変数を設定する（8ページ）.

WindowsでJava環境変数を設定するTalend製品をインストールする前に、JAVA_HOMEとPath環境変数を設定する必要があります。

手順

1. お使いのコンピューターの[Start Menu] (スタートメニュー)を開き、[Computer] (コンピューター)を右クリックし、[Properties] (プロパティ)を選択します。

7

http://openjdk.java.net/

http://www.oracle.com/technetwork/java/javase/downloads/index.html


2. [Control Panel Home] (コントロールパネルホーム)ウィンドウで[Advanced system settings] (システムの詳細設定)をクリックします。

3. [System Properties] (システムプロパティ)ウィンドウで[Environment Variables...] (環境変数...)をクリックします。

4. [System Variables](システム変数)で、[New...] (新規...)をクリックして変数を作成します。変数JAVA_HOMEに名前を付け、Java 8 JREのパスを入力して、[OK]をクリックします。

デフォルトJREパスのサンプル: C:\Program Files\Java\jre1.8.0_77。5. [System Variables] (システム変数)の下で[Path] (パス)変数を選択し、[Edit...] (編集...)をクリック

して、以前に定義したJAVA_HOME変数をPath環境変数の末尾に追加し、セミコロンで区切ります。

サンプル: <PathVariable>;%JAVA_HOME%\bin。

LinuxでJava環境変数を設定するTalend製品をインストールする前に、JAVA_HOMEとPath環境変数を設定する必要があります。

手順

1. JREインストールのホームディレクトリーを見つけます。

サンプル: /usr/lib/jvm/jre1.8.0_65

2. それをJAVA_HOME環境変数内にエクスポートします。

サンプル:

export JAVA_HOME=/usr/lib/jvm/jre1.8.0_65export PATH=$JAVA_HOME/bin:$PATH

3. 上記の行を~/.profileファイル内のユーザープロファイルの末尾に、またはスーパーユーザーとして、/etc/profileファイルのグローバルプロファイルの末尾に追加します。

4. 再びログオンします。

7-Zipのインストール(Windows)

Talendでは7-Zipをインストールし、これを使用してインストールファイルを抽出することを推奨しています: http://www.7-zip.org/download.html。

手順

1. お使いのオペレーティングシステムに対応する7-Zipのインストーラーをダウンロードします。

2. ローカルフォルダーに移動し、7z exeファイルを見つけてダブルクリックしてインストールします。

タスクの結果

ダウンロードが自動的に開始します。

8

http://www.7-zip.org/download.html

Talend Open Studio for Big Dataのダウンロードとインストール


Talend Open Studio for Big Dataは簡単にインストールできます。TalendのWebサイトからダウンロードした後に、解凍するだけでインストールされます。

この章では、ダウンロードとインストールに役立つ基本情報を提供します。

Talend Open Studio for Big DataのダウンロードTalend Open Studio for Big Dataは無料のオープンソース製品で、TalendのWebサイトから直接ダウンロードできます。

手順

1. https://www.talend.com/products/talend-open-studioに移動し、Talend Open Studio for BigDataの[Windows Download] (Windowsダウンロード)ボタンをクリックします。

2. プロンプトが表示されたら、[Save File] (ファイルを保存)をクリックし、[OK]をクリックします。

タスクの結果

ダウンロードTalend Open Studio for Big DataのZIPファイルがダウンロードされます。

Talend Studioのインストール以前にダウンロードしたアーカイブを解凍し、Talend Studioをインストールします。

次のいずれかを使用してください。

• 7Zip (Windows推奨): 7-Zipによる解凍(Windows推奨)（9ページ）• Windowsのデフォルト解凍ツール: Windowsのデフォルト解凍ツールを使用した抽

出（10ページ）• Linuxのデフォルト解凍ツール(Linuxベースのオペレーティングシステム用): Windowsのデフォ

ルト解凍ツールを使用した抽出（10ページ）

7-Zipによる解凍(Windows推奨)

Windowsの場合、Talendでは7-Zipをインストールしてファイルを解凍することを推奨します。

Studioをインストールするには、以下の手順に従います。

手順

1. ローカルフォルダーに移動し、以前ダウンロードしたZIPファイルを見つけ、できるだけ短く、スペース文字が含まれていない別のパスにそのZIPファイルを移動します。

サンプル: C:/Talend/

9

https://www.talend.com/products/talend-open-studio?utm_medium=help&utm_source=help_content


2. 圧縮ファイルを右クリックして解凍します。[7-Zip] > [Extract Here] (ここに解凍)の順に選択してください。

Windowsのデフォルト解凍ツールを使用した抽出

7-Zipを使用したくない場合は、Windowsのデフォルト解凍ツールが使えます。

手順

1. 圧縮ファイルを右クリックし、[Extract All] (全て抽出)を選択して解凍します。2. [Browse] (参照)をクリックし、C:ドライブに移動します。ドライブ。3. [Make new folder] (新規フォルダーの作成)を選択し、フォルダーにTalendという名前を付け

ます。[OK]をクリックします。4. [Extract] (抽出)をクリックするとインストールが開始します。

Linux GUI解凍ツールを使用した抽出

Studioをインストールするには、以下の手順に従います。

手順

1. ローカルフォルダーに移動して以前にダウンロードしたZIPファイルを見つけ、できるだけ短く、スペース文字が含まれていない別のパスにZIPファイルを移動します。

例: home/user/talend/

2. 圧縮ファイルを右クリックし、[Extract Here] (ここに抽出)を選択して解凍します。

10

Talend製品の設定


この章では、Talend Open Studio for Big Dataの設定に必要な基本情報を提供します。

初回のStudioの起動Studioインストールディレクトリーには、Mac OS XおよびLinux/Unixを含む、いくつかのプラットフォーム用のバイナリが含まれています。

Talend Studioを初めて開くには、次の手順を実行します。

手順

1. 次のように、使用するオペレーティングシステムに対応する実行可能ファイルをダブルクリックします。

• Windowsの場合、TOS_*-win-x86_64.exe。• Linuxの場合、TOS_*-linux-gtk-x86_64。• Macの場合、TOS_*-macosx-cocoa.app。

2. [User License Agreement] (ユーザーライセンス契約)ダイアログボックスが開いたら、エンドユーザー使用許諾契約の条項を読み、同意し作業を続行します。

StudioへのログオンTalend Studioに初めてログオンする場合、次の手順を実行します。

手順

1. Talend Studioログインウィンドウで、[Create a new project] (プロジェクトの新規作成)を作成し、ログインウィンドウでプロジェクト名: getting_startedを指定して、[Finish] (終了)をクリックして新しいローカルプロジェクトを作成します。

2. 使用している製品に応じて、次のいずれかが開きます:

• クイックツアー。これを再生するとStudioのユーザーインタフェースに関する詳細情報を取得でき、[Stop] (停止)をクリックすると終了します。

• [Welcome](ようこそ)ページこのリンクに従うとStudioに関する詳細情報を取得できます。[Start Now!](今すぐ開始!)クリックしてページを閉じ、Studioを開いてください。

ヒント:

Studioが正常に起動したら、Studioのメインウィンドウの上部にある[Videos] (動画)リンクをクリックして、Talend Studioの開始に役立つ短い動画を見ることもできます。オペレーティングシステムによっては、動画を再生するためにMP4デコーダー/プレーヤーのインストールが必要となる場合があります。

11


タスクの結果

これでTalend Studioに正常にログオンできるようになります。次に、Talend Studioが正しく動作するために必要となる追加パッケージをインストールする必要があります。

追加のパッケージをインストールするTalendでは、Studioの諸機能をフルに活用できるように、Talend Studioにログインした直後に、サードパーティのライブラリーやデータベースドライバーを含め、追加パッケージをインストールすることをお勧めします。

始める前に

警告: -Dtalend.disable.internetパラメーターがStudioの.iniファイル内に存在しないか、falseに設定されていることを確認します。

手順

1. [Additional Talend Packages] (追加のTalendパッケージ)ウィザードが開いたら、[Required] (必須)および[Optional third-party libraries] (オプションのサードパーティライブラリ)チェックボックスをオンにして[Finish] (終了)をクリックし、追加パッケージをインストールします。

インストールできる追加パッケージがある場合は、Studioを起動するたびにこのウィザードが開きます。表示を無効にするには、[Do not show this again] (以降表示しない)チェックボックスをオンにします。このウィザードは、メニューバーから[Help] (ヘルプ) > [Install AdditionalPackages] (追加パッケージのインストール)をクリックしても表示できます。

詳細は、 Talend Open Studio for Big Data インストールおよびアップグレードガイド2. [Download external modules] (外部モジュールをダウンロード)ウィンドウで、ウィザードの下

部にある[Accept all] (すべて同意)ボタンをクリックして、Studioで使用する外部モジュールのすべてのライセンスに同意します。

選択したライブラリーによっては、ライセンスに同意する手順を複数回行う必要があります。

すべてのライブラリーがインストールされるのを待ってからStudioの使用を開始します。3. 必要に応じて、特定の追加パッケージを有効にするためにTalend Studioを再起動します。

DBFS(Databricks File System)へのファイルのアップロードファイルをDBFSにアップロードすると、ビッグデータジョブによる読み取りと処理が可能になります。DBFSは、この例で使用されるビッグデータファイルシステムです。

この手順では、DBFSシステムにデータを書き込むジョブを作成します。ユースケースに必要なファイルについては、でこのページのオンラインバージョンのhttps://help.talend.com[Downloads](ダウンロード)タブからtos_bd_gettingstarted_source_files.zipをダウンロードします。

12

https://help.talend.com


手順

1. [Repository] (リポジトリ)ツリービューで、[Job Designs] (ジョブデザイン)ノードを右クリックして、コンテキストメニューから[Create folder] (フォルダーの作成)を選択します。

2. [New Folder] (新規フォルダー)ウィザードでジョブフォルダーにgetting_startedという名前を付け、[Finish] (終了)をクリックしてフォルダーを作成します。

3. getting_startedフォルダーを右クリックし、コンテキストメニューから[Create Job] (ジョブの作成)を選択します。

4. [New Job] (新規ジョブ)ウィザードで、作成するジョブに名前を付け、必要に応じてその他の有用な情報を入力します。

たとえば、[Name] (名前)フィールドにwrite_to_dbfsと入力します。

ウィザードのこの手順では、[Name] (名前)が唯一の必須フィールドです。[Description] (説明)フィールドに入力した情報は、[Repository] (リポジトリー)ツリービュー内のジョブにマウスポインターを移動するとホバーテキストとして表示されます。

5. [Finish] (終了)をクリックしてジョブを作成します。

Studioに空のジョブが開きます。6. この空のジョブのデザインスペースで、dbfsと入力して、DBFS関連のコンポーネントを検索

します。表示されるコンポーネントリストで、tDBFSConnectionをダブルクリックして選択します。tDBFSConnectionがデザインスペースに追加されます。

7. この操作を繰り返して、tDBFSPutをデザインスペースに追加します。8. Right click tDBFSConnection and from the contextual menu that is displayed, select Trigger > On

Subjob Ok.

例

9. tDBFSPutをクリックしてtDBFSConnectionをtDBFSPutに接続します。10. tDBFSConnectionコンポーネントをダブルクリックし、[Component] (コンポーネント)ビューを

開きます。

13


例

11. [Endpoint] (エンドポイント)フィールドに、Azure DatabricksワークスペースのURLアドレスを入力します。このURLは、AzureポータルのDatabricksワークスペースページの[Overview] (概要)のブレードにあります。たとえば、このURLはhttps://westeurope.azuredatabricks.netのようになります。

12. [Token] (トークン)フィールドの横の[...]ボタンをクリックして、Databricksユーザーアカウントに生成された認証トークンを入力します。このトークンは、Databricksワークスペースの[Usersettings] (ユーザー設定)ページで生成または検索できます。詳細は、Azureドキュメントの「Token management(トークン管理)」を参照してください。

13. tDBFSPutをダブルクリックして[Component] (コンポーネント)ビューを開きます。

例

14. [Use an existing connection] (既存の接続を使用)を選択して、tDBFSConnectionで定義された接続情報を使用します。

15. [Local directory] (ローカルディレクトリー)フィールドにパスを入力するか、またはDBFSにコピーするファイルが保存されているフォルダーに移動します。

16. DBFS directoryフィールドで、DBFSのターゲットディレクトリーへのパスを入力して、ファイルを保存します。DatabricksドキュメントのFileStoreセクションによると、この場所はFileStoreフォルダーにすることをお薦めします。

このディレクトリーが存在しない場合は、オンザフライで作成されます。17. [Overwrite file] (ファイルの上書き)ドロップダウンリストで[always](常に)を選択して、HDFS内

のターゲットディレクトリーにファイルが既に存在する場合は上書きするようにします。

14

https://docs.azuredatabricks.net/api/latest/authentication.html#token-management

https://docs.databricks.com/user-guide/advanced/filestore.html


18. コピーするファイルを選択する条件を定義するために、[Files] (ファイル)テーブルで[+]ボタンをクリックして1行を追加します。

19. [Filemask] (ファイルマスク)カラムで二重引用符の間にアスタリスク(*)を入力し、tDBFSPutが、[Local directory] (ローカルディレクトリ)フィールドで指定したフォルダーに保存されている全てのファイルを選択するようにします。

20. [New name] (新しい名前)カラムは空のままにしておきます。すなわち、デフォルトの二重引用符はそのままにしておきます。これは、アップロード後もファイルの名前が変わらないようにするためです。

21. [F6]を押してジョブを実行します。

[Run] (実行)映画とその監督に関するファイルはこのビューに保存され、自動的に開かれます。ビューにはこのジョブの進行状況が示されます。

タスクの結果

ジョブが完了すると、アップロードしたファイルはDBFS内の指定したディレクトリーにあります。

15


動画メタデータのプレパレーションこのサンプルでは、ソースファイルmovies.csvのメタデータを[Repository] (リポジトリ)内で設定する方法を説明しています。リポジトリーメタデータは複数のジョブにまたがって使用できるため、各パラメーターとスキーマを手動で定義する必要がなく、ジョブの設定をすばやく行うことができます。

始める前に

• ディレクトリC:\getting_started\input_data\内にソースファイルmovies.csvの準備ができていること。

手順

1. [Repository] (リポジトリ)ツリービューで[Metadata] (メタデータ)ノードを展開し、[Filedelimited] (区切り記号付きファイル)を右クリックし、コンテキストメニューから[Create filedelimited] (区切り記号付きファイルの作成)を選択して、[New Delimited File] (新規の区切り記号付きファイル)ウィザードを開きます。

2. [New Delimited File] (新規の区切り記号付きファイル)ウィザードで、ファイルメタデータの名前(このサンプルではmovies)、およびファイルメタデータの説明に役立つその他の有用な情報を入力し、[Next] (次へ)をクリックして次の手順へ進み、ファイルの一般的なプロパティを定義します。

16


ウィザードのこの手順では、[Name] (名前)が唯一の必須フィールドです。[Description] (説明)フィールドに入力した情報は、ファイル接続にマウスのポインターを移動すると、ツールヒントとして表示されます。

3. [File] (ファイル)フィールドにソースファイルのパスを指定するか、または[Browse] (参照)をクリックしてファイルに移動します。

ファイルがロードされ、[File Viewer] (ファイルビューワー)エリアにファイルの抽象が表示され、ファイルの一貫性、ヘッダーの有無、さらに一般的にファイルストラクチャーを確認することができます。

4. [Format] (形式)リストからお使いのオペレーティングシステムを選択し、[Next] (次へ)をクリックしてファイルを解析します。

5. [Preview] (プレビュー)タブで[Set heading row as column names] (先頭行をカラム名に設定)チェックボックスをオンにしてファイルのカラム名を先頭行から取得し、[Refresh Preview](プレビューの更新)をクリックします。

17


ファイルプレビューが更新され、[Rows To Skip] (スキップする行)エリアの[Header] (ヘッダー)チェックボックスが自動的に選択され、スキップするヘッダー行の数が1つ増えます。

6. ファイル解析でスキップする必要のある先頭行がファイルに複数含まれている場合は、このフィールドに数を指定し、[Refresh Preview] (プレビューの更新)をもう一度クリックします。

7. [Next] (次へ)をクリックしてファイルスキーマを取得します。

生成されたファイルスキーマが[Description of the Schema] (スキーマの説明)テーブルに表示されます。

8. スキーマにmovies_schemaという名前を付け、ファイルスキーマを確認し、実際の必要に合わせて編集します。

この例では、[title] (タイトル)カラムと[url]カラムを長くします。

18


9. [Finish] (終了)をクリックしてスキーマを確定し、ウィザードを閉じます。

作成されたファイルメタデータは[Repository] (リポジトリー)ツリービューに表示されます。

タスクの結果

これで、動画ファイルメタデータがすぐに使える状態になりました。次に、作成したメタデータを、ソースファイルを読み取るコンポーネントに適用する必要があります。

19

ビッグデータのデータ統合タスクを実行する


この章では、動画レンタルとストリーミングビデオサービスを提供する会社の例を取り上げ、そのような会社によるTalend Open Studio for Big Dataの利用方法について説明します。

以下の方法を習得すれば、動画とディレクターに関するデータ、および顧客に関するデータの作業を行えるようになります。

• 会社のビッグデータプラットフォームのファイルシステムからジョブのデータフローにデータをロードします。この例では、このプラットフォームはAzure Databricksであり、このファイルシステムはDBFSです。

• ディレクターデータを動画データに結合して新しいデータセットを作成し、このデータセットをAzure Blob Storageコンテナーに保存する。

映画と監督の情報を結合するこのシナリオでは以下について説明します。

1. Talendジョブを作成する方法。詳細は、ジョブの作成（20ページ）を参照して下さい。2. ジョブで使用するコンポーネントをドロップおよびリンクする方法。詳細は、コンポーネント

のドロップおよびリンク（21ページ）を参照して下さい。3. [Repository] (リポジトリー)から関連するメタデータを使用して入力コンポーネントを設定す

る方法。詳細は、入力データの読み取り方法の設定（22ページ）を参照して下さい。4. 入力データを結合するための変換を設定する方法。詳細は、データ変換コンポーネントの設

定（26ページ）を参照して下さい。5. 変換されたデータをAzure Blobストレージコンテナに書き込む方法。詳細は、出力の書き込

み（27ページ）を参照して下さい。

ジョブの作成

Talendジョブでは、Talendコンポーネントにアクセスして使用し、データの読み取り、変換、または書き込みを行う技術プロセスを設計することができます。

始める前に

• Talend Studioを起動し、統合パースペクティブを開いていること。

手順

1. getting_startedフォルダーを右クリックし、コンテキストメニューから[Create Job] (ジョブの作成)を選択します。

2. [New Job] (新規ジョブ)ウィザードで、作成するジョブに名前を付け、必要に応じてその他の有用な情報を入力します。

たとえば、[Name] (名前)フィールドにaggregate_movie_directorと入力します。

ウィザードのこの手順では、[Name] (名前)が唯一の必須フィールドです。[Description] (説明)フィールドに入力した情報は、[Repository] (リポジトリー)ツリービュー内のジョブにマウスポインターを移動するとホバーテキストとして表示されます。

20


3. [Finish] (終了)をクリックしてジョブを作成します。

Studioに空のジョブが開きます。

タスクの結果

Studioでコンポーネント[Palette] (パレット)が使用できるようになりました。この[Palette] (パレット)、および[Repository] (リポジトリ)内の[Metadata] (メタデータ)ノードを活用して、ジョブの設計を開始することができます。

コンポーネントのドロップおよびリンク

使用するDBFS、Azureおよび処理コンポーネントは、データ変換のための完了プロセスを構成するために、ジョブのワークスペース内でオーケストレーションが行われます。

始める前に

• Talend Studioを起動し、統合パースペクティブを開いていること。• 空のジョブがジョブの作成（20ページ）の説明に従って作成され、ワークスペース内に開

いていること。

手順

1. ジョブ内に使用するコンポーネントの名前を入力し、表示されるリストからこのコンポーネントを選択します。このシナリオでは、コンポーネントはtFileInputDelimitedコンポーネントが2つ、tMapコンポーネントが1つ、tFileOutputDelimitedコンポーネントが2つ、tDBFSConnectionコンポーネントが1つ、tDBFSGetコンポーネントが1つ、tAzureStoragePutコンポーネントが1つです。

• DBFSコンポーネントは、Databricksファイルシステム(DBFS)に接続して、映画や監督に関するファイルをダウンロードします。

• 2つのtFileInputDelimitedコンポーネントは、映画データと監督データをHDFSから現在のジョブのデータフローにロードするために使用されます。

• tMapコンポーネントは入力データの変換に使用されます。• tFileOutputDelimitedコンポーネントはローカルシステム内の指定のディレクトリーに結果

を書き込みます。• tAzureStoragePutコンポーネントは、変換されたデータをAzure Blobストレージコンテナに

アップロードするために使用されます。2. 2つのtFileInputDelimitedコンポーネントのうち1つをダブルクリックしてこのラベルを編集可

能にし、movieと入力してこのコンポーネントのラベルを変更します。3. directorのもう一方のラベルtFileInputDelimitedコンポーネントにも同じ手順を実行しま

す。4. tDBFSConnectionを右クリックし、表示されるコンテキストメニューから、[Trigger] (トリガー)

> [TriggerOn Subjob Ok] (サブジョブOKでトリガー)を選択します。5. tDBFSGetをクリックしてtDBFSConnectionをtDBFSGetに接続します。6. 同じ操作を繰り返し、常に[On Subjob Ok] (サブジョブOK時)リンクを使用し

てtDBFSGetをmovieというラベルのtFileInputDelimitedコンポーネントに接続し、次に同じtFileInputDelimitedコンポーネントをtAzureStoragePutに接続します。

21


7. movieのラベルが付いたtFileInputDelimitedコンポーネントを右クリックし、コンテキストメニューから[Row] (行) > [Main] (メイン)の順に選択し、tMapをクリックして2つのコンポーネントを接続します。これは、映画データがtMapに送信される際のメインリンクです。

8. 同様に、[Row] (行) > [Main] (メイン)リンクを使用し、director tFileInputDelimitedコンポーネントをtMapに接続します。これは、監督データがルックアップデータとしてtMapに送信される際の[Lookup] (ルックアップ)リンクです。

9. 同様に、[Row] (行) > [Main] (メイン)リンクを使用してtMapコンポーネントをtFileOutputDelimitedコンポーネントに接続し、ポップアップウィザードで、このリンクにout1という名前を付け、[OK]をクリックしてこの変更を確定します。

10. これらのオペレーションを繰り返し、[Row] (行) > [Main] (メイン)リンクを使用してtMapコンポーネントをtFileOutputDelimitedコンポーネントに接続し、rejectという名前を付けます。

タスクの結果

ワークスペース内で、ジョブ全体は以下のようになります。

入力データの読み取り方法の設定

DBFSからジョブにデータをロードするようにDBFSコンポーネントおよび2つのtFileInputDelimitedコンポーネントを設定します。

始める前に

• ソースファイルmovies.csvとdirectors.txtがDBFS(Databricks File System)へのファイルのアップロード（12ページ）の説明に従ってDBFSにロードされていること。

• [Repository] (リポジトリ)の[ delimited] (ファイル区切り)ノードの下で、movie.csvファイルのメタデータが設定されていること。

22


設定していない場合は、動画メタデータのプレパレーション（16ページ）を参照してメタデータを作成します。

手順

1. tDBFSConnectionコンポーネントをダブルクリックし、[Component] (コンポーネント)ビューを開きます。

例

2. [Endpoint] (エンドポイント)フィールドに、Azure DatabricksワークスペースのURLアドレスを入力します。このURLは、AzureポータルのDatabricksワークスペースページの[Overview] (概要)のブレードにあります。たとえば、このURLはhttps://westeurope.azuredatabricks.netのようになります。

3. [Token] (トークン)フィールドの横の[...]ボタンをクリックして、Databricksユーザーアカウントに生成された認証トークンを入力します。このトークンは、Databricksワークスペースの[Usersettings] (ユーザー設定)ページで生成または検索できます。詳細は、Azureドキュメントの「Token management(トークン管理)」を参照してください。

4. tDBFSGetをダブルクリックして[Component] (コンポーネント)ビューを開きます。

例

5. [Use an existing connection] (既存の接続を使用)を選択して、tDBFSConnectionで定義された接続情報を使用します。

6. [DBFS directory] (DBFSディレクトリー)フィールドに、映画とその監督に関するファイルが保存されているDBFSのディレクトリーへのパスを入力します。

23

https://docs.azuredatabricks.net/api/latest/authentication.html#token-management


7. [Local directory] (ローカルディレクトリー)フィールドにパスを入力するか、またはDBFSからダウンロードするファイルが保存されているフォルダーに移動します。

このディレクトリーが存在しない場合は、オンザフライで作成されます。8. [Overwrite file] (ファイルの上書き)ドロップダウンリストで[always](常に)を選択して、ローカ

ルファイルシステムS内のターゲットディレクトリーにファイルが既に存在する場合は上書きするようにします。

9. コピーするファイルを選択する条件を定義するために、[Files] (ファイル)テーブルで[+]ボタンをクリックして1行を追加します。

10. [Filemask] (ファイルマスク)カラムで二重引用符の間にアスタリスク(*)を入力し、tDBFSGetが、[Local directory] (ローカルディレクトリ)フィールドで指定したフォルダーに保存されている全てのファイルを選択するようにします。

11. [New name] (新しい名前)カラムは空のままにしておきます。すなわち、デフォルトの二重引用符はそのままにしておきます。これは、アップロード後もファイルの名前が変わらないようにするためです。

12. [Repository] (リポジトリ)の[Metadata] (メタデータ)ノードの下の[File delimited] (ファイル区切り)ノードを展開して、動画メタデータのプレパレーション（16ページ）で説明したように設定した moviesスキーマメタデータノードを表示します。

13. ジョブのワークスペースで、このスキーマメタデータノードをmovie tFileInputDelimitedコンポーネントにドロップします。

14. movie tFileInputDelimitedコンポーネントをダブルクリックして[Component] (コンポーネント)ビューを開きます。

このtFileInputDelimitedは、映画メタデータを[Repository] (リポジトリ)から自動的に再利用し、関連するパラメーターをその[Basic settings] (基本設定)ビューで定義しています。

15. [File name/Stream] (ファイル名/ストリーム)フィールドをクリックして[Edit parameter usingrepository] (リポジトリーを使用してパラメーターを編集)ダイアログボックスを開き、フィールド区切りを更新します。tFileInputDelimitedでは[File delimited] (ファイル区切り)メタデータ用に定義したデフォルトのファイルの場所を再利用しています。このファイルをDBFSからダウンロードしたディレクトリからmovieファイルを読み取るには、このファイルを変更する必要があります。

24


16. [Change to built-in property] (組み込みプロパティに変更)を選択し、[OK]をクリックして選択を確定します。[File name/Stream] (ファイル名/ストリーム)フィールドが編集可能になります。

17. DBFSからダウンロードしたmovieファイルが保存されているディレクトリーを入力します18. director tFileInputDelimitedコンポーネントをダブルクリックし、その[Component] (コン

ポーネント)ビューを開きます。

19. [Edit schema] (スキーマの編集)の横の[...]ボタンをクリックし、スキーマエディターを開きます。

20. [+]ボタンを2回クリックして2つの行を追加し、[Column] (カラム)カラムで名前をそれぞれIDとNameに変更します。

21. [OK]をクリックしてこれらの変更を確認し、ポップアップ表示されるダイアログボックスで求められるプロパゲーションを承認します。

22. [File name/Stream] (ファイル名/ストリーム)フィールドに、映画監督に関するデータが保存されているディレクトリーを入力します。

23. [Field separator] (フィールド区切り)フィールドで、二重引用符の間にコンマ(;)を入力します。

25


タスクの結果

これで、映画データと監督データをジョブにロードするようにtFileInputDelimited コンポーネントが設定されました。

データ変換コンポーネントの設定

映画データと監督データを結合するようにtMapコンポーネントを設定します。

映画データと監督データがジョブにロードされたら、両方を結合して目的の出力を生成するようにtMapコンポーネントを設定する必要があります。

手順

1. tMapをダブルクリックし、[Map Editor] (マップエディター)ビューを開きます。

2. movieIDカラム、titleカラム、releaseYearカラム、およびurlカラムを、左側からそれぞれの出力フローテーブルにドロップします。

[Map Editor] (マップエディター)の入力側(左側)にある2つのテーブルは、それぞれ入力フローの1つを表します。上のテーブルはメインフロー、下のテーブルはルックアップフローです。

出力側(右側)にある2つのテーブルは、コンポーネントのドロップおよびリンク（21ページ）でtMapをtFileOutputDelimitedとtFileOutputDelimitedにリンクしたときに、out1およびrejectという名前を付けた出力フローを表します。

3. 入力側で、directorIDカラムをメインフローテーブルから、ルックアップフローテーブルのID行のExpr.keyカラムにドロップします。

このようにして、メインフローとルックアップフローの間の結合キーが定義されます。

26


4. directorIDカラムをメインフローテーブルから出力側のrejectテーブルにドロップし、Nameカラムをルックアップフローテーブルからout1テーブルにドロップします。

前の2つの手順の設定では、入力データのカラムが出力データフローのカラムにどうマップされるかを説明しています。

エディターの下側にある[Schema editor] (スキーマエディター)ビューから、両側のスキーマが自動入力されていることが確認できます。

5.out1出力フローテーブルでボタンをクリックし、フィルター式の編集フィールドを表示します。

6. row1.directorId != nullと入力します。

これによりtPigMapは、directorIDフィールドがいずれも空でない映画レコードのみを出力することができます。空のdirectorIDフィールドを持つレコードは除外されます。

7.reject出力フローテーブルでボタンをクリックし、設定パネルを開きます。

8. [Catch Output Reject] (出力リジェクトのキャッチ)行で[true] (真)を選択し、rejectフロー内に空のdirectorIDフィールドを持つレコードを出力します。

9. [Apply] (適用)に続いて[OK]をクリックしてこれらの変更を確認し、ポップアップ表示されるダイアログボックスで求められるプロパゲーションを承認します。

タスクの結果

これで、映画データにその監督名を添えて完成し、監督データを含まない映画レコードを別のデータフローに書き込むように、変換が設定されました。

出力の書き込み

2つのtFileInputDelimitedコンポーネントでは、予想される映画データと拒否される映画データをローカルファイルシステムの異なるディレクトリーに書き込むように設定されています。次にこれらのファイルはtAzureStoragePutにより既存のAzure Blobコンテナにアップロードされます。

手順

1. out1リンクを受け取るtFileOutputDelimitedコンポーネントをダブルクリックします。

[Basic settings] (基本設定)ビューがStudioの下側に開きます。

27


2. [File Name] (ファイル名)フィールドで、結果を書き込む必要のあるディレクトリーを入力します。このシナリオではC:/tos_bd_gettingstarted_source_files/temps/out.csvです。映画の監督の名前を含むレコードがここに入ります。

3. [Field separator] (フィールド区切り)フィールドで、二重引用符の間に;を入力します。4. Click [Advanced settings] (詳細設定)タブをクリックしてビューを開き、[Throw an error if the

file already exists] (ファイルが既に存在する場合はエラーをスローする)チェックボックスをオフにして、コンポーネントが同じ名前の既存のファイルを上書きできるようにします。

5. 同じ操作を繰り返して、rejectリンクを受け取るtFileOutputDelimitedを設定しますが、[FileName] (ファイル名)フィールドでディレクトリーをC:/tos_bd_gettingstarted_sou

rce_files/temps/reject.csvに設定します。6. tAzureStoragePutをダブルクリックして、その[Component] (コンポーネント)ビューを開きま

す。

7. [Account Name] (アカウント名)フィールドおよび[Account Key] (アカウントキー)フィールドで、使用するAzure Blobストレージアカウントの資格情報を入力します。このストレージアカウントへの適切なアクセス権をシステム管理者から得ていることを確認します。

28


8. [Container] (コンテナ)フィールドに、使用するAzure Blobコンテナの名前を入力します。このコンテナはすでに存在している必要があります。

9. [Local folder] (ローカルフォルダー)フィールドにtFileOutputDelimitedコンポーネントが出力ファイルを書き込むディレクトリーを入力します。この例では、ディレクトリーはC:/

tos_bd_gettingstarted_source_files/tempsになります。10. [Azure storage folder] (Azureストレージフォルダー)フィールドでAzureにアップロードする

データを保存するために使用するフォルダーの名前を入力します。存在しない場合、このフォルダーは、上記で[Container name] (コンテナ名)フィールドで指定したコンテナーにただちに作成されます。

11. [F6]を押してジョブを実行します。

タスクの結果

[Run] (実行)ビューがStudioの下側に自動的に開き、このジョブの実行の進行状況を示します。

完了したら、出力がAzure Blobストレージコンテナに書き込まれたことを確認できます。

次のステップ?

Talend Studioが、Talendジョブを使用してビッグデータを管理するのにどう役立つかを見てきました。データにアクセスし、所定のHadoopクラスターにTalendジョブ経由で移動し、データをフィルター処理して変換し、フィルター処理して変換したデータをHadoopクラスターのHDFSシステムに保存する方法について学びました。その際に、使用頻度の高いHadoop接続を[Repository](リポジトリー)内で一元管理してそれらの接続をジョブ内で再利用しやすいようにする方法を学びました。

Talend Studioの詳細は、以下を参照して下さい。

• Talend Studioユーザーガイド• Talendコンポーネントに関するドキュメンテーション

29


データがクリーンであることを確認するには、Talend Open Studio for Data QualityとTalend DataPreparation Free Desktopが使用できます。

Talend製品とソリューションの詳細は、www.talend.comを参照してください。

30

http://www.talend.com?utm_medium=help&utm_source=help_content

Documents

Talend Open Studio for Big Data入門ガイド...Talend Open Studio for Big Dataを使用する前提条件 Talend Studioがインストールされているクライアントマシンが、使用するHadoopクラス