Khi dữ liệu vệ tinh ngày càng được ứng dụng rộng rãi trong giám sát môi trường, quy hoạch đô thị và phân tích địa không gian, bài toán nâng cao độ phân giải ảnh viễn thám trở thành hướng nghiên cứu quan trọng nhằm cải thiện chất lượng ảnh đầu vào cho các hệ thống AI và GIS. Hãy cùng VSGA khám phá nghiên cứu về mô hình nâng cao độ phân giải ảnh viễn thám – ứng dụng kỹ thuật phân tách ảnh thành các vùng tần số khác nhau (Wavelet) và cơ chế thích ứng Key-value.

Bối cảnh: Khi dữ liệu vệ tinh bị giới hạn về độ phân giải

Trong lĩnh vực viễn thám, ảnh có độ phân giải cao đóng vai trò quan trọng trong việc nâng cao độ chính xác của các bài toán phân tích như phân loại lớp phủ, phát hiện đối tượng hay giám sát môi trường. Tuy nhiên, dữ liệu thu nhận từ vệ tinh thường bị giới hạn về độ phân giải do ràng buộc của cảm biến và điều kiện chụp ảnh. Điều này làm cho các chi tiết nhỏ hoặc ranh giới đối tượng trở nên khó nhận biết. Vì vậy, bài toán nâng cao độ phân giải ảnh viễn thám (Super-Resolution – SR) trở thành một hướng nghiên cứu cần thiết. 

Phương pháp nâng cao độ phân giải ảnh viễn thám

Mô hình REW-KVA

Phương pháp được đề xuất xây dựng một mô hình tổng thể mang tên REW-KVA, ảnh đầu vào có độ phân giải thấp được biến đổi qua nhiều bước để tạo ra ảnh độ phân giải cao. Kiến trúc mô hình bao gồm các giai đoạn chính: trích xuất đặc trưng ban đầu, xử lý bằng khối wavelet nâng cao, mô hình hóa quan hệ không gian bằng attention, và cuối cùng là tái tạo ảnh đầu ra.

Mô hình được thiết kế theo hướng module hóa, trong đó các thành phần được tổ chức thành các nhóm xử lý nhằm đảm bảo vừa khai thác được thông tin cục bộ vừa tận dụng được ngữ cảnh toàn cục. Điều này giúp mô hình thích ứng tốt với đặc điểm đa tỷ lệ của ảnh viễn thám.

Nâng cao độ phân giải ảnh viễn thám
Cấu trúc của mô hình REW-KVA

Nhóm Visual REW (Visual REW Group)

Visual REW Group (VRG) là một cụm các khối residual, trong đó tích hợp hai thành phần chính: Residual-Enhanced Wavelet Spatial Mixing (RESM) và Residual-Enhanced Wavelet Channel Mixing (RECM). RESM thực hiện trộn đặc trưng theo không gian nhằm khai thác quan hệ giữa các pixel và giữa các mức phân giải, trong khi RECM xử lý theo chiều kênh để tái phân bổ và chọn lọc thông tin đặc trưng.

Khác với các phương pháp sử dụng MLP, RECM áp dụng depthwise convolution để tính toán trọng số liên kênh, giúp giảm chi phí tính toán nhưng vẫn đảm bảo khả năng biểu diễn. Mỗi VRG bao gồm nhiều Visual REW Residual Blocks (VRBs) và nhận đầu vào từ tầng trước đó hoặc bộ trích xuất đặc trưng ban đầu.

https www.frontiersin.org files Articles 1718058 xml images frsen 06 1718058 g003
Cấu trúc của VRB, RESM và RECM

Nhờ kết hợp hiệu quả giữa trộn không gian và trộn kênh, VRG giúp nâng cao khả năng biểu diễn đặc trưng, cải thiện chất lượng tái tạo ảnh viễn thám.

Residual-Enhanced Wavelet (REW)

Một trong những thành phần cốt lõi của phương pháp là khối Residual-Enhanced Wavelet (REW), được xây dựng dựa trên ý tưởng phân tích ảnh trong miền tần số. Cụ thể, ảnh đầu vào được phân rã bằng biến đổi wavelet thành các thành phần tần số thấp và tần số cao. Thành phần tần số thấp chứa thông tin cấu trúc tổng thể, trong khi các thành phần tần số cao chứa các chi tiết như biên và kết cấu.

Điểm cải tiến quan trọng nằm ở việc kết hợp cơ chế residual connection với các trọng số thích nghi. Residual connection giúp bảo toàn thông tin gốc và hạn chế mất mát dữ liệu trong quá trình biến đổi. Trong khi đó, các trọng số học được cho phép mô hình tự điều chỉnh mức độ đóng góp của từng thành phần tần số. Nhờ đó, mô hình có thể tăng cường chi tiết ở các vùng phức tạp và đồng thời giảm nhiễu ở các vùng đồng nhất. Cách tiếp cận này giúp cải thiện đáng kể độ sắc nét của ảnh đầu ra so với các phương pháp chỉ xử lý trong miền không gian.

Linear Attention và Key-Value Adaptation

Để xử lý quan hệ không gian trong ảnh, bài báo sử dụng cơ chế attention. Tuy nhiên, thay vì áp dụng attention truyền thống với độ phức tạp bậc hai, phương pháp sử dụng linear attention nhằm giảm chi phí tính toán xuống bậc tuyến tính. Điều này đặc biệt quan trọng đối với ảnh viễn thám có kích thước lớn.

Bên cạnh đó, một cơ chế mới gọi là Key-Value Adaptation được đề xuất nhằm tăng cường khả năng biểu diễn của attention. Trong cơ chế này, các vector key và value không cố định mà được điều chỉnh linh hoạt theo nội dung của ảnh. Điều này giúp mô hình tập trung vào các vùng quan trọng và loại bỏ thông tin dư thừa. Nhờ vậy, mô hình vừa duy trì được khả năng nắm bắt ngữ cảnh toàn cục, vừa đảm bảo hiệu quả tính toán.

Quét đa hướng (Quad-Directional Scanning)

Một hạn chế của nhiều mô hình trước đây là chỉ xử lý thông tin theo một số hướng nhất định, dẫn đến việc bỏ sót các cấu trúc không gian phức tạp. Để khắc phục điều này, bài báo đề xuất chiến lược quét đa hướng, trong đó ảnh được xử lý theo bốn hướng: ngang, dọc và hai hướng chéo.

Việc quét theo nhiều hướng giúp mô hình thu thập thông tin đầy đủ hơn về cấu trúc không gian của ảnh, đặc biệt là đối với các đối tượng có hình dạng phức tạp như đường giao thông hoặc hệ thống sông ngòi. Nhờ đó, chất lượng tái tạo ảnh được cải thiện đáng kể.

REW-Channel Shift

Được thiết kế nhằm khai thác đặc trưng đa tỷ lệ thông qua việc kết hợp nhiều kernel tích chập với kích thước khác nhau (1×1, 3×3, 5×5, 7×7). Tất cả các phép tích chập đều là depthwise convolution kết hợp dilation, cho phép mô hình đồng thời thu nhận thông tin cục bộ và ngữ cảnh toàn cục.

Cụ thể, mỗi kernel đảm nhận một vai trò riêng:

  • 1×1: trích xuất đặc trưng điểm (point-wise)
  • 3×3: nắm bắt chi tiết không gian cục bộ
  • 5×5: mô hình hóa quan hệ trung bình
  • 7×7: mở rộng vùng tiếp nhận để thu nhận ngữ cảnh toàn cục

Ngoài ra, phương pháp còn tích hợp Wavelet-based Multi-directional Shift (REWShift) để khai thác thông tin theo nhiều hướng trong miền tần số. Các đầu ra từ các nhánh này được kết hợp thông qua các trọng số học được (learnable weights) nhằm tạo ra biểu diễn đặc trưng thống nhất.

Cuối cùng, tensor đầu ra được tái sắp xếp về cấu trúc không gian ban đầu để phục vụ các bước xử lý tiếp theo.

https www.frontiersin.org files Articles 1718058 xml images frsen 06 1718058 g005
Cấu trúc của cơ chế omni-quad shift

Thực nghiệm

Dữ liệu

Để đánh giá mô hình, tác giả sử dụng nhiều bộ dữ liệu viễn thám phổ biến như DFC 2019, RSI-CB, WHU-RS19 và UC Merced. Các bộ dữ liệu này bao phủ nhiều loại cảnh quan khác nhau, từ đô thị đến nông nghiệp và tự nhiên, giúp kiểm chứng khả năng tổng quát hóa của phương pháp.

Chỉ số đánh giá

Hiệu năng của mô hình được đánh giá thông qua nhiều chỉ số. PSNR được sử dụng để đo độ chính xác giữa ảnh tái tạo và ảnh gốc, trong khi SSIM phản ánh mức độ bảo toàn cấu trúc. Ngoài ra, các chỉ số như LPIPS và NIQE được sử dụng để đánh giá chất lượng cảm nhận của ảnh. Đối với dữ liệu viễn thám, chỉ số SAM cũng được sử dụng nhằm đo độ sai lệch phổ, đặc biệt quan trọng với ảnh đa phổ.

So sánh với các phương pháp khác

Kết quả thực nghiệm cho thấy mô hình đề xuất đạt hiệu năng vượt trội so với các phương pháp hiện có. Cụ thể, giá trị PSNR đạt khoảng 31 dB và SSIM đạt khoảng 0.94, cho thấy khả năng tái tạo ảnh với độ chính xác cao và bảo toàn tốt cấu trúc không gian.

So với các mô hình dựa trên Transformer, phương pháp này không chỉ cải thiện chất lượng ảnh mà còn giảm đáng kể số lượng tham số. Điều này giúp mô hình nhẹ hơn và phù hợp hơn với các hệ thống có tài nguyên hạn chế.

https www.frontiersin.org files Articles 1718058 xml images frsen 06 1718058 g006
Các kết quả đánh giá định tính trên các bộ dữ liệu UCMD, RSI-CB và WHU-RS19

Hiệu quả tính toán

Một ưu điểm nổi bật của phương pháp là hiệu quả tính toán cao. Mô hình có thể xử lý ảnh kích thước lớn (1024×1024) trong thời gian ngắn, khoảng dưới một giây. Điều này cho thấy khả năng ứng dụng thực tế trong các hệ thống cần xử lý dữ liệu lớn hoặc gần thời gian thực.

Đánh giá vai trò từng thành phần của mô hình

Để đánh giá vai trò của từng thành phần, tác giả tiến hành các thí nghiệm loại bỏ từng module trong mô hình. Kết quả cho thấy khi loại bỏ khối wavelet, chất lượng ảnh giảm đáng kể, đặc biệt ở các vùng biên. Tương tự, việc loại bỏ cơ chế attention thích nghi hoặc chiến lược quét đa hướng cũng làm suy giảm hiệu năng.

Điều này chứng minh rằng mỗi thành phần trong mô hình đều đóng vai trò quan trọng và sự kết hợp của chúng tạo nên hiệu quả tổng thể.

Kết luận

Bài báo đã đề xuất một phương pháp nâng cao độ phân giải ảnh viễn thám mới dựa trên sự kết hợp giữa phân tích wavelet, attention tuyến tính và chiến lược quét đa hướng. Phương pháp này không chỉ cải thiện chất lượng ảnh mà còn giảm chi phí tính toán, phù hợp với các ứng dụng thực tế. Kết quả thực nghiệm trên nhiều bộ dữ liệu khác nhau đã chứng minh tính hiệu quả và khả năng tổng quát hóa của mô hình. Đây là một hướng tiếp cận tiềm năng, đặc biệt trong bối cảnh cần xử lý ảnh viễn thám với quy mô lớn và yêu cầu cao về hiệu năng.