Porovnání použitelnosti dat družice Sentinel-2 a Pléiades v lokálním měřítku pro klasifikaci obrazu

Cieľ práce

Cieľom bakalárskej práce je previesť vo vybranom GIS software dostupné metódy klasifikácie nad dátami s veľmi vysokým rozlíšením (Pléiades 1) a v porovnávanej úrovni s dátami vysokého rozlíšenia (Sentinel-2). Porovnať použiteľnosť dát, ktoré majú vyššie priestorové rozlíšenie s dátami, ktoré majú ďaleko nižšie priestorové rozlíšenie, ale obsahujú dôležité pásma v oblasti Red Edge a SWIR a sú tak účinné v identifikácii vegetácie. Aplikovanými metódami je riadená aj neriadená klasifikácia zastúpená algoritmami Maximum Likelihood, Random Forest, K-Nearest Neighbors a K-means. Pre klasifikáciu boli vytvorené štyri vstupné sady, ktoré boli následne klasifikované. Výsledky práce sú spracované a vyhodnotené pre mierku 1 : 10 000,
1 : 20 000, 1 : 50 000 a na záver validované s porovnávacími dátami. Výstupnou formou sú tabuľky a tematické mapy.

Postup práce a metódy

Použité metódy

Pre tvorbu klasifikácií boli použité metódy per-pixel riadenej a neriadenej klasifikácie algoritmami Maximum Likelihood, Random Forest, K-Nearest Neighbors a K-means. Následne došlo k porovnávaniu a analýze výsledkov.

Použité dáta

V práci boli použité snímky zo satelitov Sentinel-2 a Pléiades z oblasti zvoleného územia povodia Všeminky a Trnávky. Zo satelitu Pleiades boli zakúpené katedrou geoinformatiky dva snímky, kvôli veľkosti povodia a potrebe pokrytia celej záujmovej oblasti. Snímky obsahujú päť spektrálnych pásiem, a to štyri v priestorovom rozlíšení 2 m (modré, zelené, červené a blízke infračervené) a panchromatické pásmo s priestorovým rozlíšením 2 m. Dáta zo satelitu Sentinel-2 sú voľne dostupné cez program Copernicus. Validačnými dátami bude Detailní kombinovaná vrstva (DKV), ktorá rozlišuje 152 typov habitatov v Českej republike.

Použité programy

Pre spracovanie dát a tvorbu bakalárskej práce bolo potrebných niekoľko počítačových programov. Na počiatočnú prípravu dát a hlavnú časť práce, a to klasifikácia snímov a výpočet vegetačných indexov, bol použitý program SNAP vo verzii 8.0.0. spracovávanie výsledkov prebiehalo v programe QGIS vo verzii 3.24.0-Tisler, tabuľky a texty boli vytvorené pomocou balíčka MS Office 365 a programom MS Word a MS Excel.

Postup práce

Prvým krokom k spracovaniu bakalárskej práce bola potrebná rešerš a preštudovanie dostupných domácich a zahraničných zdrojov. Z tých boli vybrané poznatky, vďaka ktorým sa dalo priblížiť k výberu vhodných klasifikačných metód a nasledujúcemu postupu. Po vykonaní dostatočnej rešerše bolo možné prejsť k praktickej časti. Ako prvé bolo potrebné získať dáta, na ktorých sa vykonáva celá práca. Došlo k ich úprave a tvorbe štyroch vstupných sád, na ktorých prebiehali podobné procesy a na záver boli porovnávané. Vytvorené klasifikačné mapy boli validované pomocou kontrolnej vrstvy DKV a zároveň bola zisťovaná presnosť chybovou maticou. Posledným krokom pred finalizáciou práce boli vytvorené výstupné mapové výstupy a tabuľky.

Výsledky

Po vykonaní klasifikácií bolo pre zistenie úspešnosti klasifikácie potrebné získané výsledky spracovať. Bola zisťovaná celková, užívateľská a spracovateľská presnosť klasifikácie pomocou chybovej matice a ručne vypočítaný Kappa koeficient. Klasifikácie s najvyššie dosiahnutými presnosťami v rámci jednotlivých sád boli porovnávané s DKV v mierke 1 : 10 000, 1 : 20 000
a 1 : 50 000.

Klasifikácia Random Forest vykonaná na snímku Sentinel-2 s pásmami s priestorovým rozlíšením 10 metrov. Ako nastavenie klasifikátora ostali predvolené parametre s 10 stromami, pri ktorom bola dosiahnutá najvyššia presnosť pre danú sadu, a to 76 %.

Neriadená klasifikácia K-means dosiahla rovnakú celkovú presnosť 76 % pri snímku Sentinelu
s 20 m rozlíšením. Za ňou sa nachádza chybová matica.

V sade Pléiades s multispektrálnymi pásmami dosiahol najvyššiu presnosť klasifikátor Maximum Likelihood s počtom trénovacích vzoriek 50 000.

V poslednej sade snímok Pléiades po pansharpeningu mal najlepší výsledok s klasifikátorom Random Forest s počtom stromov 250 a zvýšeným počtom trénovacích vzoriek na 50 000.

V tabuľkách vyššie sú porovnané plochy Detailní kombinované vrstvy a klasifikácií znázornených vyššie.

Záver

Cieľom bakalárskej práce bolo vytvoriť a porovnať klasifikácie rôznych algoritmov v oblasti riadenej a neriadenej klasifikácie, aplikovaných na štyroch sadách snímok satelitov s veľmi vysokým rozlíšením (Pléiades) a vysokým rozlíšením (Sentinel). S cieľom dosiahnuť presnejšie výsledky, boli použité aj vegetačné indexy. Vytvorené klasifikácie boli zhodnotené prostredníctvom chybových matíc, z ktorých boli získané hodnoty presnosti klasifikácie. Ďalším cieľom práce bolo porovnať klasifikácie s DKV v troch rôznych mierkach, ktoré znázorňujú tri rôzne detaily povrchu krajiny. Následne boli vytvorené výstupy vo forme tabuliek a máp. V teoretickej časti práce bola urobená rešerš danej problematiky, kde boli preštudované práce s podobným, alebo rovnakým zámerom. Z týchto štúdií vyplynulo, že v mnohých prípadoch dosiahli najlepšie výsledky klasifikácie pri použití algoritmu Maximum Likelihood v kombinácii so snímkom vysokého rozlíšenia. Pre vykonanie klasifikácie boli vybrané štyri algoritmy dostupné v programe SNAP: Maximum Likelihood, Random Forest, K-nearest neighbors a K-means cluster analysis. Podľa potreby boli skúšané rozdielne parametre algoritmov a kombinácie pásiem, kým nebol získaný najlepší výsledok. Po vykonaní klasifikácie boli výstupy vyexportované do softwaru QGIS, kde boli dodatočne upravené a následne boli porovnávané. Aj keď očakávaným výsledkom bol najlepší výstup pri snímku z Pléiades, v praxi bola väčšia presnosť pre danú mierku pri snímku Sentinel-2 s najnižším rozlíšením, ale spektrálnymi pásmami navyše. Pre podrobnú klasifikáciu sú snímky od Pléiades vyhovujúce, avšak príliš veľký detail vytváral problematické miesta vo vybraných klasifikovaných kategóriách. V zvolenej mierke je prospešnejšia prítomnosť viacerých spektrálnych pásiem, ako veľmi vysoké rozlíšenie.

Summary

The aim of the bachelor thesis was to perform and compare classifications of different algorithms in the field of supervised and unsupervised classification, applied to 4 sets of very high resolution (Pléiades) and high resolution (Sentinel) satellite images. In order to achieve more accurate results, vegetation indices were also used. The generated classifications were evaluated through error matrices, from which classification accuracy values were obtained. Another objective of the work was to compare the classifications with validation layer at three different scales, which represent three different details of the landscape surface. Subsequently, outputs in the form of tables and maps were produced. In the theoretical part of the thesis, a search of the subject matter was made, where works with similar or the same intention were studied. These studies showed that in many cases the best classification results were obtained when using the Maximum Likelihood algorithm in combination with a high resolution image. Four algorithms available in SNAP were selected to perform classification: Maximum Likelihood, Random Forest, K-nearest neighbors, and K-means cluster analysis. Different algorithm parameters and band combinations were tried as needed until the best result was obtained. After the classification was performed, the outputs were exported to QGIS software where they were post-edited and then compared. Although the expected result was the best output for the Pléiades image, in practice the Sentinel-2 image with the lowest resolution but extra spectral bands was more accurate for a given scale. For detailed classification, the images from Pléiades are satisfactory, but too much detail created bottlenecks in selected classified categories. At the chosen scale, the presence of more spectral bands is more beneficial than very high resolution.

K stiahnutiu