メインコンテンツまでスキップ
メインコンテンツまでスキップ

urlCluster テーブル関数

指定されたクラスター内の多くのノードから、URLのファイルを並行して処理することを可能にします。イニシエーターでは、クラスター内のすべてのノードへの接続を作成し、URLファイルパスのアスタリスクを明示し、各ファイルを動的に配信します。ワーカーノードでは、イニシエーターに次の処理タスクを尋ね、それを処理します。これをすべてのタスクが完了するまで繰り返します。

構文

引数

引数説明
cluster_nameリモートおよびローカルサーバーへのアドレスと接続パラメータのセットを構築するために使用されるクラスターの名前。
URLGETリクエストを受け入れることができるHTTPまたはHTTPSサーバーのアドレス。タイプ: String
formatデータのフォーマット。タイプ: String
structure'UserID UInt64, Name String'形式のテーブル構造。カラムの名前とタイプを決定します。タイプ: String

戻り値

指定されたフォーマットおよび構造を持ち、定義されたURLからのデータを含むテーブル。

HTTPサーバーから String および UInt32 型のカラムを含むテーブルの最初の3行を取得します。サーバーは CSV フォーマットで応答します。

  1. 標準のPython 3ツールを使用して基本的なHTTPサーバーを作成し、起動します:

URL のグロブ

中括弧 { } 内のパターンは、シャードのセットを生成したり、フェイルオーバーアドレスを指定するために使用されます。サポートされているパターンのタイプと例については、remote 関数の説明を参照してください。 パターン内の文字 | は、フェイルオーバーアドレスを指定するために使用されます。リストされている順序と同じ順序で反復されます。生成されるアドレスの数は glob_expansion_max_elements 設定によって制限されます。