なぜPostGISを気にする必要がありますか？ -空間データベースのやさしい入門

データベース？あまり面白くない。

だから、GISやデータビジュアライゼーションを扱う平均的な人は考えるかもしれません。私は、データベースが世界で最もセクシーなものではないことを認めなければなりません（申し訳ありませんが、DBAの）が、より深刻な方法で（空間的な）データを分析このブログ記事では、空間データベースを効率的に使用することでどのような利点が得られるかを考えてみたいと思います。

誇大広告の用語が入り交じっていて、ほんの数年前にはまだビッグデータの周りに大きな誇大広告がありましたが、それは徐々に消えています。まあ、データはまだ大きく、実際にはこれまで以上に大きくなっています。ファイルサイズが増加し、”データサイエンス”と地球科学では、人々は簡単にギガバイトの範囲にすることができ、データに対処する必要があります。データが大きければ大きいほど、データの保存と分析の方法にもっと注意を払う必要があります。

それがデータベースが画像に入る場所です。

ソフトウェア開発では、データベースを操作する必要があります。しかし、コンピュータサイエンスの他のサブドメイン（GISなど）の人々にとって、データベースの利点は必ずしも明白ではないかもしれません。もちろん、人々は最も使い慣れたツールを使用する傾向がありますが、目標を達成するための最も効率的な方法ではありません。しかし時々あなたの慰めの地帯から歩むことは実際に大きい利点を持って来ることができる。私は、空間SQLにある可能性をゆっくりと認識してきました。

ブラジルでのフライトの週。元のファイルは、原点と目的地の座標を持つ単なるcsvでした。データをPostGISにロードし、座標からポイントジオメトリを作成し、ポイント間に線を作成し、最終的にQGIS Time Managerでデータを視覚化しました。

このブログ記事は、主に地理空間データを扱う人々のためのものですが、PostGISに触れていない、またはそれについて聞いたことがないかもしれません。私はPostgreSQL/PostGISをインストールする方法を説明するつもりはありませんが、むしろそれが何であるか、それが何のために良いのかの概要を試してみてくださ

私のワークフローと例は主にQGIS+PostGISの組み合わせに焦点を当てていますが、PostGIS、独自のコード、または他のGISクライアントのみで作業することもできます。

ポスト…何？
PostGIS for dataviz
結論
もっと知りたいですか？このブログ記事のソースとさらにPostGISは

ポスト…何？

すでに私のGIS研究中に、「PostGISはPostgresの空間的拡張です」というフレーズを何度も聞いていました。それは私がそれが何を意味するか考えていたという意味ではありませんでした。私はPostgresとは何か、空間的な拡張はおろか、何の手がかりもありませんでした。

できるだけ簡単にブレーキをかけてみましょう。

一部の人々は、この比較のために私を憎むかもしれないが、私はリスクを取るだろう：あなたはデータベースで作業したことがない場合は、データベーステーブルを大規模なExcelシートと考えることができます。しかし、行番号433 285の3番目の列にある値をミリ秒で見つけることができる大規模なインテリジェントなExcelシート。また、シート内の関数を単一のセルに書き込む代わりに、それらをSQLコマンドウィンドウに書き込みます。だから、データを保存する場所と、効率的にデータを取り出すことができる場所。

PostGISは、PostgreSQLデータベース管理システム（別名DBMS）のためのオープンソース、自由に利用可能な空間データベースエクステンダーです。したがって、PostgreSQL（別名Postgres）はデータベースであり、PostGISはそのデータベースへのアドオンのようなものです。 PostGISの最新リリースバージョンは現在、PostgreSQLにパッケージ化されています。一言で言えば、PostGISはdistance、area、union、intersection、specialty geometryデータ型などの空間関数をPostgreSQLに追加します。空間データベースは、データベース内の他のオブジェクトと同様に、空間オブジェクトを格納および操作します。したがって、通常のデータベースでは、さまざまなタイプ（数値、テキスト、タイムスタンプ、画像…）のデータを格納し、必要に応じてデータを照会（フェッチ）して質問に質問は、”あなたのウェブサイトにログオンしている人の数”または”オンラインストアで行われたトランザクションの数”についてです。空間関数は、代わりに”最も近い店がどれくらい近いか”、”このエリアの中にこの点があるか”、”この国の大きさは何か”などの質問に答えることができます。

そのため、データは行と列に格納されます。 PostGISは空間データベースであるため、データには、空間参照識別子（SRID）によって定義された特定の座標系のデータを含むgeometry列もあります。しかし、主に空間データにPostGISを使用していますが、通常のPostgreSQLデータベースのすべての機能をまだ持っているので、そこに非空間データを格納することも可能で

それはデータベースです。 ITアーキテクチャでは、データベースは円柱として表されます。それはあなたがあなたのデータを保存することができる場所です。

優れた無限のPostGISイントロは、空間データをデータベースに関連付ける三つのコア概念を紹介します。これらを組み合わせることで、最適化された性能と分析のための柔軟な構造を提供します。

ポイント、ライン、ポリゴンなどの空間データ型。空間データのほとんどの作業に精通しています。
多次元空間インデックスは、空間操作の効率的な処理に使用されます。
SQLで提起された空間関数は、空間

SQL、または”構造化クエリ言語”は、リレーショナルデータベースの質問をし、データを更新する手段です。（あなたが質問をするために使用する）選択クエリは、一般的に次の形式のコマンドです

SELECT some_columns FROM some_data_source WHERE some_condition;

PostGIS特定の関数は、通常、St_Functionnameの形式です。

これらのコマンドは、データベースにログインした後、またはデータベースGUIツール（pgAdminやQGIS DB Managerなど）にコマンドラインで記述します。だから、はい、SQLはあなたが本当に何かを書く必要があります。右クリックは一般的に過小評価されているかもしれませんが、コードを書かない人にとっては、SQLは独自のコマンドと後でコードを書くための最初のス

PostGIS以外にも空間データベースがあります。 SQL Server Spatial、ESRI ArcSDE、Oracle Spatial、およびGeoMesaは、空間データを管理および分析するための他のいくつかのオプションです。しかし、PostGISはより多くの機能と一般的に優れたパフォーマンスを持っていると言われています。また、言及された他のもの（GeoMesaを除く）はオープンソースではありません。

あなたはこれに慣れていない場合は、今、あなたは混乱するかもしれません: だから、それはデータを格納する場所であり、コマンドラインに奇妙なものを書くことによって複雑な方法で情報を取得する必要がありますか？それを待ってください。あなたが本当にそれにコミットした場合、PostGISがあなたに提供できるいくつかの本当の利点もあります。

Twitterからブログ投稿のアイデアをいくつか聞いて、良いフィードバックをたくさん得ました。そこから私はこれを2つの部分に分割するという考えを得ました。最初の部分では、私はPostGISがあなたの毎日の仕事にもたらすことができる利点に見ていきます。第2部では、spatial SQLに焦点を当てます。

PostGISは新しい働き方を採用することを可能にすることができます。この新しい方法は、より簡単に再現することができ、バージョン管理の使用をより簡単に開始することができ、マルチユーザーワークフローを有効にするこ

ファイルの読み書きには特別なソフトウェアが必要なことがよくあります。 SQLは、ランダムデータアクセスと分析の抽象化です。その抽象化がなければ、操作を行うために特定のソフトウェアが必要か、すべてのアクセスコードと分析コードを自分で記述する必要があります。

ランダムなパラメータを持ついくつかのランダムなツールでファイルのランダムな操作を行うのではなく、SQLで分析を行うと、結果をより簡単に共有現在、シェープファイルにいくつかの空間結合とクリップ操作を行って、想定されているようにする”マスターシェープファイル”があるかもしれません。それが消えたら？

Johnnieは、誤ってすべてのデータを削除した方法についてTwitterに良い例を書いたが、GITに保存したSQLスクリプトで最小限の労力でそれらを再現できた。

ソフトウェア開発に携わっている人は、おそらく（またはうまくいけば）バージョン管理に精通しています。私はこのブログ記事でそれにもっと深く入るつもりはありませんが、GITのようなバージョン管理システムにSQLスクリプトを置くことができます（そしあなたの本棚に保管し、常においしいデータ分析のための最高のレシピを見つけるために常に更新する料理の本と考えてください。あなたの家が燃え尽きた場合、あなたは再びAmazonからこの正確な料理の本の新しいコピーを購入することができます。

データベースは、空間データをより良い順序で維持するのにも役立ちます。私たちの誰も本当に完璧ではなく、おそらくあなたはまだtemp_1、final_finalのようなテーブルを作成しますが、データベースはファイルだけよりもデータ構造を標準化

そして、それらの大きなデータセットはどうですか？空間データベースでは、大規模なデータセットでの作業が可能になります。簡単なだけでなく、データベースなしで大規模なデータセットで作業することはほとんど不可能な場合もあります。 2gb csvファイルを開こうとしたことがありますか？または、800mb GeoJSONのジオプロセシングを実行しようとしましたか？シェープファイルにはサイズ制限があることを知っていましたか？もちろん、Geopackageやその他のファイル形式を使用してこれらの問題のいくつかに取り組むことができますが、一般的にPostGISは大きな（地理空間）データを処理す

22 QgisでPostGISからレンダリングされた船のGPS位置の百万ポイント。船が川に移動している場所と、彼らが外海にいる場所を見ることができますか？

データベースの非常に良い機能の1つは、通常は手動で行うプロセスをより簡単に自動化できることです。たとえば、PostgreSQL NOTIFY機能を使用すると、QGISマップを自動的に更新できます。また、作業を自動化するためにETLツール（FMEなど）を使用している場合は、PostGISテーブルとの読み書きはファイルよりもはるかに簡単です。

あなたは私のようではない場合（私は現在、自分自身で、楽しみのためにこのようなものを行います）、あなたはチームと呼ばれるものを持っているかもしれまた、同僚として知られています。彼らはあなたと同じデータにアクセスする必要があるかもしれません。ワークフローでデータベースを使用すると、共有ドライブ上にファイルを持つだけでなく、別のレベルで完全に並列作業が可能になります。

これの主な理由の1つは、同時ユーザーが破損を引き起こす可能性があることです。同じファイルへの複数の書き込みでデータが破損しないように余分なコードを記述することは可能ですが、問題を解決し、関連するパフォーマンスの問題

もちろん、新しいワークフローを採用するには長所と短所の両方があります。ファイルを整理しておくのと同じように、一日の終わりには、データベースを維持することも多くの作業になる可能性があります。たとえば、PostGISを新しいバージョンに更新することは、Twitterで指摘されているように、本当の苦痛になる可能性があります。大きな力で大きな責任が来ます。

しかし、その力の部分についてもっと話しましょう。パート2：spatial SQLの魔法の世界

Spatial SQLは、（賢明に使用すると）処理を本当に高速化できます。以下は、シェープファイルとQGIS処理で同じプロセスを実行し、次にSt_Generatepointsを使用してPostGISで同じプロセスを実行することの比較です。