Research result 
해외논문
-
FR-IBC: Flipping and Rotation Intra Block Copy for Versatile Video Coding
Screen content has become increasingly important in multimedia applications owing to the growth of remote desktops, Wi-Fi displays, and cloud computing.
However, these applications generate large amounts of data, and their limited bandwidth necessitates efficient video coding.
While existing video coding standards have been optimized for natural videos originally captured by cameras, screen content has unique characteristics such as large homogeneous areas and repeated patterns.
In this paper, we propose an enhanced intra block copy (IBC) method for screen content coding (SCC) in versatile video coding (VVC) named flipping and rotation intra block copy (FR-IBC).
The proposed method improves the prediction accuracy by using flipped and rotated versions of the reference blocks as additional references.
To reduce the computational complexity, hash maps of these blocks are constructed on a 4 × 4 block size basis.
Moreover, we modify the block vectors and block vector predictor candidates of IBC merge and IBC advanced motion vector prediction to indicate the locations within the available reference area at all times.
The experimental results show that our FR-IBC method outperforms existing SCC tools in VVC.
Bjøntegaard-Delta rate gains of 0.66% and 2.30% were achieved under the All Intra and Random Access conditions for Class F, respectively, while corresponding values of 0.40% and 2.46% were achieved for Class SCC, respectively
2025-02-20 19:39
-
Tackling Dual Gaps in Remote Sensing Segmentation: Task-Oriented Super-Resolution for Domain Adaptation
Semantic segmentation of remote sensing images plays a crucial role in various applications, such as land cover mapping and urban planning.
However, the performance of semantic segmentation models often degrades when applied to images from different domains or with varying spatial resolutions.
In this paper, we propose a novel task-oriented super-resolution method for domain adaptation in remote sensing semantic segmentation.
Our approach aims to adapt a segmentation model trained on high-resolution images from a source domain to perform accurately on low-resolution images from a target domain.
We introduce a super-resolution network that learns to enhance the spatial resolution of the target domain images while simultaneously optimizing the segmentation performance of a pre-trained and fixed segmentation model.
The super-resolution network is trained using a combination of losses, including a segmentation loss, a perceptual loss, and a contrastive loss,which together ensure that the adapted images are both visually similar to the source domain images and semantically consistent with the ground-truth segmentation masks.
We evaluate our method on two challenging remote sensing datasets, ISPRS Potsdam and Vaihingen, and demonstrate significant improvements in segmentation accuracy compared to state-of-the-art domain adaptation techniques.Our approach achieves mean Intersection over Union (mIoU) scores of 0.523 and 0.567 on the Potsdam and Vaihingen datasets, respectively.
The proposed task-oriented super-resolution method offers a promising solution for adapting semantic segmentation models to new domains and resolutions in remote sensing applications.
2025-02-20 19:07
-
Visual Quality Assessment of Point Clouds Compared to Natural Reference Images
This paper proposes a point cloud (PC) visual quality assessment (VQA) framework that reflects the human visual system (HVS). The proposed framework compares natural images acquired using a digital camera and PC images generated via 2D projection in terms of appropriate objective quality evaluation metrics. Humans primarily consume natural images; thus, human knowledge is typically formed from natural images. Thus, natural images can be more reliable reference data than PC data. The proposed framework performs an image alignment process based on feature matching and image warping to use the natural images as a reference which enhances the similarities of the acquired natural and corresponding PC images. The framework facilitates identifying which objective VQA metrics can be used to reflect the HVS effectively. We constructed a database of natural images and three PC image qualities, and objective and subjective VQAs were conducted. The experimental result demonstrates that the acceptable consistency among different PC qualities appears in the metrics that compare the global structural similarity of images. We found that the SSIM, MAD, and GMSD achieved remarkable Spearman rank-order correlation coefficient scores of 0.882, 0.871, and 0.930, respectively. Thus, the proposed framework can reflect the HVS by comparing the global structural similarity between PC and natural reference images.
2024-01-29 17:21
-
Online Learning-Based Hybrid Tracking Method for Unmanned Aerial Vehicles
Tracking unmanned aerial vehicles (UAVs) in outdoor scenes poses significant challenges due to their dynamic motion, diverse sizes, and changes in appearance. This paper proposes an efficient hybrid tracking method for UAVs, comprising a detector, tracker, and integrator. The integrator combines detection and tracking, and updates the target’s features online while tracking, thereby addressing the aforementioned challenges. The online update mechanism ensures robust tracking by handling object deformation, diverse types of UAVs, and changes in background. We conducted experiments on custom and public UAV datasets to train the deep learning-based detector and evaluate the tracking methods, including the commonly used UAV123 and UAVL datasets, to demonstrate generalizability. The experimental results show the effectiveness and robustness of our proposed method under challenging conditions, such as out-of-view and low-resolution scenarios, and demonstrate its performance in UAV detection tasks.
2024-01-29 17:18
-
Adaptive block tree structure for video coding
The Joint Video Exploration Team (JVET) has studied future video coding (FVC) technologies with a potential compression capacity that significantly exceeds that of the high-efficiency video coding (HEVC) standard. The joint exploration test model (JEM), a common platform for the exploration of FVC technologies in the JVET, employs quadtree plus binary tree block partitioning, which enhances the flexibility of coding unit partitioning. Despite significant improvement in coding efficiency for chrominance achieved by separating luminance and chrominance tree structures in I slices, this approach has intrinsic drawbacks that result in the redundancy of block partitioning data. In this paper, an adaptive tree structure correlating luminance and chrominance of single and dual trees is presented. Our proposed method resulted in an average reduction of −0.24% in the Y Bjontegaard Delta rate relative to the intracoding of JEM 6.0 common test conditions.
2024-01-29 17:15
-
Microstrip antenna using H-slotted ground structure for orthogonally polarized dual-band operation
This article presents a novel dual-band orthogonally polarized square microstrip antenna for vehicle-to-nomadic devices communication system. The proposed antenna consists of a perpendicular feed for utilizing orthogonal linear polarizations and an H-shaped slotted ground structure for obtaining dual-band operation. Because of the geometrically axis-symmetric H-slot loading effect, the orthogonal polarization at each resonant frequency can be achieved. The measurement results of the proposed antenna have been successfully demonstrated in good agreement with the simulations of reflection coefficients, antenna gains, and radiation patterns. © 2016 Wiley Periodicals, Inc. Microwave Opt Technol Lett 58:136–139, 2016
2024-01-29 17:12
-
Alternative Intra Prediction for Screen Content Coding in HEVC
Screen content generally consists of text, images, and videos variously generated or captured by computers and other electronic devices. For the purpose of coding such screen content, we introduce alternative intra prediction (AIP) modes based on the emerging high efficiency video coding (HEVC) standard. With text and graphics, edges are much sharper and a large number of corners exist. These properties make it difficult to predict blocks using a one-directional intra prediction mode. The proposed method provides two-directional prediction by combining the existing vertical and horizontal prediction modes. Experiments show that our AIP modes provide an average BD-rate reduction of 2.8% relative to HEVC for general screen contents, and a 0.04% reduction for natural contents.
2024-01-29 17:10
-
Fast transform unit decision for HEVC
For the High Efficiency Video Coding (HEVC) standard, a fast transform unit (TU) decision method is proposed. HEVC defines the TU representing a region sharing the same transformation, and it supports various transform sizes from 4×4 to 32×32 by using a quadtree of TUs. The various sizes of TUs can provide good coding efficiency, whereas it may increase dramatically encoding complexity. Assuming that a TU with highly compacted energy is unlikely to be split, the proposed method determines an appropriate TU size according to the position of the last non-zero transform coefficient and the number of zero transform coefficients. Experimental results show that this reduces encoding run time by 14% with a negligible coding loss of 0.38% BD-rate from Random_access_main case.
2024-01-29 17:07
-
Fast HEVC Intra Mode Decision Based on Bayesian Classification Framework with Relative SATD
HEVC (high efficiency video coding) achieves much higher coding efficiency compared with previous video coding standards at cost of significant computational complexity. This paper proposes a fast intra mode decision scheme, where a Bayesian classification framework using relative sum of absolute Hadamard transformed difference (SATD) is introduced and combined with conventional fast encoding methods. Experimental results show that this scheme reduces encoding run time by about 30% with a negligible coding loss of 0.9% BD-rate for the all intra coding scenario.
2024-01-29 17:04
-
Pixel-domain Wyner-Ziv residual video coder with adaptive binary-to-Gray code converting process
A pixel-domain Wyner-Ziv residual video coding scheme is presented. In this scheme, based on the statistical distribution characteristics of the residual signal, an adaptive binary-to-Gray code converting process is designed so that virtual channel noises can be lowered over bit-planes. Through simulations, it is shown that the best case performs better than the DISCOVER scheme as well as the worst case.
2024-01-29 16:59
-
Interactive-based Distributed Video Coding for Low-power Video Surveillance System
This paper presents a novel Wyner-Ziv video coding system which is applicable for low-power video surveillance systems in an interactive way. In order to improve the performance of the conventional DVC (Distributed Video Coding) systems for these applications, first, the proposed system evaluates the quality of previously reconstructed Wyner-Ziv frame in a block unit and then, estimates the unreliable blocks of the current Wyner-Ziv frame by exploiting temporal correlation between the previously reconstructed Wyner-Ziv frame and the generated side information. The block location information of the unreliable blocks is provided to the encoder side and thus it enables the encoder to selectively encode the unreliable blocks of the Wyner-Ziv frame. Through several simulations, it is shown that the coding efficiency of the proposed scheme is greatly improved, compared to the conventional DVC scheme.
2024-01-29 16:48
-
Scalable video coding with large block for UHD video
Ultra-high definition (UHD) which has 4 to 16 times as many pixels as existing high definition (HD) is expected as a next generation video format. To deliver UHD and HD videos simultaneously in the communications-broadcasting convergence environment, scalable video coding (SVC) is a highly attractive solution. We propose an improved scalable video coding method to achieve high coding efficiency particularly for UHD and HD videos. The basic idea is to allow large block size beyond the block size of 16×16 pixels in H.264/AVC SVC, which results in more efficient inter-layer prediction and syntax elements coding. The experimental results show that it achieves an average 5.34% reduction in BD-rate relative to H.264/AVC SVC.
2024-01-29 16:45
-
Adaptive Pre-/Post-Filters for NRT-BASED Stereoscopic Video Coding
Non-real-time delivery of stereoscopic video has been considered as a service scenario for 3DTV to overcome the limited bandwidth in the terrestrial digital television system. A hybrid codec combining MPEG-2 and H.264/AVC has been suggested for the compression of stereoscopic video for 3DTV. In this paper, we propose a stereoscopic video coding scheme using adaptive pre-/post-filters (APPF) to improve the quality of 3D video while retaining compatibility with legacy video coding standards. The APPF are applied adaptively to blocks of various sizes determined by the macroblock coding mode and reference frame index. Experiment results show that the proposed method achieves up to 24.86% bit rate savings relative to a hybrid codec of MPEG-2 and H.264/AVC including the inter-view prediction.
2024-01-29 16:41
-
Highly Efficient Video Codec for Entertainment-Quality
We present a novel video codec for supporting entertainment-quality video. It has new coding tools such as an intra prediction with offset, integer sine transform, and enhanced block-based adaptive loop filter. These tools are used adaptively in the processing of intra prediction, transform, and loop filtering. In our experiments, the proposed codec achieved an average reduction of 13.35% in BD-rate relative to H.264/AVC for 720p sequences.
2024-01-29 16:37
-
Loss-aware rate-distortion optimization for redundant picture allocation in H.264/AVC
A redundant picture is one of the H.264/AVC tools for increasing error resiliency when video is delivered over error prone environments. We present a loss-aware redundant picture allocation method that determines whether the redundant picture is inserted for each primary coded picture or not. The determination is based on an error rate of transmission network and the distortion of decoded picture caused by the error. Simulation results showed that the proposed method alleviates the distortion and, thereby, it achieves higher quality of the decoded picture than the conventional methods, including the hierarchical redundant picture. In particular, the proposed method produces outstanding results at low bit rates; thus, the method is highly applicable to low bit-rate wireless video transmission.
2024-01-29 16:30
-
Tiny Drone Tracking Framework Using Multiple Trackers and Kalman-based Predictor
Unmanned aerial vehicles like drones are one of the key development technologies with many beneficial applications. As they have made great progress, security and privacy issues are also growing. Drone tacking with a moving camera is one of the important methods to solve these issues. There are various challenges of drone tracking. First, drones move quickly and are usually tiny. Second, images captured by a moving camera have illumination changes. Moreover, the tracking should be performed in realtime for surveillance applications. For fast and accurate drone tracking, this paper proposes a tracking framework utilizing two trackers, a predictor, and a refinement process. One tracker finds a moving target based on motion flow and the other tracker locates the region of interest (ROI) employing histogram features. The predictor estimates the trajectory of the target by using a Kalman filter. The predictor contributes to keeping track of the target even if the trackers fail. Lastly, the refinement process decides the location of the target taking advantage of ROIs from the trackers and the predictor. In experiments on our dataset containing tiny flying drones, the proposed method achieved an average success rate of 1.134 times higher than conventional tracking methods and it performed at an average run-time of 21.08 frames per second.
2022-02-10 18:14
-
Enhanced Real-Time Intermediate Flow Estimation for Video Frame Interpolation
Recently, the demand for high-quality video content has rapidly been increasing, led by the development of network technology and the growth in video streaming platforms. In particular, displays with a high refresh rate, such as 120 Hz, have become popular. However, the visual quality is only enhanced if the video stream is produced at the same high frame rate. For the high quality, conventional videos with a low frame rate should be converted into a high frame rate in real time. This paper introduces a bidirectional intermediate flow estimation method for real-time video frame interpolation. A bidirectional intermediate optical flow is directly estimated to predict an accurate intermediate frame. For real-time processing, multiple frames are interpolated with a single intermediate optical flow and parts of the network are implemented in 16-bit floating-point precision. Perceptual loss is also applied to improve the cognitive performance of the interpolated frames. The experimental results showed a high prediction accuracy of 35.54 dB on the Vimeo90K triplet benchmark dataset. The interpolation speed of 84 fps was achieved for 480p resolution.
2022-02-10 18:13
-
Novel video coding methods for versatile video coding
Versatile video coding (VVC), which is the next generation video coding standard, is being developed to provide greater coding efficiency than existing video coding standards. In VVC, various coding tools related to intra and inter prediction modes have been adopted. This paper introduces several methods that improve coding efficiency or reduce computational complexity on top of VVC adopted tools. The first method enhances the most probable mode list derivation with the statistics of the intra modes of neighbouring blocks. The second method reduces the number of contexts of the merge with motion vector difference mode. The third method excludes invalid block vector predictors early for the intra block copy mode to improve block vector coding. The experimental results show that the three proposed methods show coding efficiencies of –0.05% for all intra coding, –0.02% for random access, and –0.14% for random access coding scenarios, respectively.
2022-02-10 18:11
-
A high-quality frame rate up-conversion technique for Super SloMo
In this paper, we propose several methods to improve Super SloMo, a deep learning-based frame rate up-conversion technique for the temporal quality improvement of video. In the proposed methods, the training dataset and hyper-parameter are changed and trained to obtain optimal results while maintaining the existing network structure of Super SloMo. The first method improves the cognition of images when trained with the validation set of characteristics similar to the training set. The second method reduces video loss in all validation sets when trained by adjusting the hyper-parameters of the error function value. The experimental results show that the two proposed methods improved the peak signal-to-noise ratio and the mean of the structural similarity index by 0.11 dB and 0.033% with the specialised training set and by 0.37 dB and 0.077% via adjusting the reconstruction and warping loss parameters, respectively.
2022-02-10 18:08
-
Relative SATD-based Minimum Risk Bayesian Framework for Fast Intra Decision of HEVC
High Efficiency Video Coding (HEVC) enables significantly improved compression performance relative to existing standards. However, the advance also requires high computational complexity. To accelerate the intra prediction mode decision, a minimum risk Bayesian classification framework is introduced. The classifier selects a small number of candidate modes to be evaluated by a rate-distortion optimization process using the sum of absolute Hadamard transformed difference (SATD). Moreover, the proposed method provides a loss factor that is a good trade-off model between computational complexity and coding efficiency. Experimental results show that the proposed method achieves a 31.54% average reduction in the encoding run time with a negligible coding loss of 0.93% BD-rate relative to HEVC test model 16.6 for the Intra_Main common test condition.
2022-02-10 18:06
-
FAST SPATIAL AND TEMPORAL CORRELATION-BASED REFERENCE PICTURE SELECTION
Multiple reference pictures and variable prediction block sizes in motion estimation/compensation (ME/MC) adopted in video coding standards such as H.264/AVC and H.265/HEVC achieve high coding efficiency, but these tools require heavy encoding complexity. This paper introduces a reference picture selection method based on the spatial correlation between neighboring coded blocks and the temporal correlation between the reference pictures of a reference picture list. This method can reduce the number of reference picture to be searched in ME process. This reduction provides competitive performance with reduced computational complexity. Experimental results show that the proposed method reduces encoding run-time by 47%, with a negligible degradation of coding efficiency.
2022-02-10 18:04
-
Analysis of Implementing Mobile Heterogeneous Computing for Image Sequence Processing
On mobile devices, image sequences are widely used for multimedia applications such as computer vision, video enhancement, and augmented reality. However, the real-time processing of mobile devices is still a challenge because of constraints and demands for higher resolution images. Recently, heterogeneous computing methods that utilize both a central processing unit (CPU) and a graphics processing unit (GPU) have been researched to accelerate the image sequence processing. This paper deals with various optimizing techniques such as parallel processing by the CPU and GPU, distributed processing on the CPU, frame buffer object, and double buffering for parallel and/or distributed tasks. Using the optimizing techniques both individually and combined, several heterogeneous computing structures were implemented and their effectiveness were analyzed. The experimental results show that the heterogeneous computing facilitates executions up to 3.5 times faster than CPU-only processing.
2022-02-10 18:01
-
Fast Transform Unit Decision for HEVC
For the High Efficiency Video Coding (HEVC) standard, a fast transform unit (TU) decision method is proposed. HEVC defines the TU representing a region sharing the same transformation, and it supports various transform sizes from 4×4 to 32×32 by using a quadtree of TUs. The various sizes of TUs can provide good coding efficiency, whereas it may increase dramatically encoding complexity. Assuming that a TU with highly compacted energy is unlikely to be split, the proposed method determines an appropriate TU size according to the position of the last non-zero transform coefficient and the number of zero transform coefficients. Experimental results show that this reduces encoding run time by 14% with a negligible coding loss of 0.38% BD-rate from Random_access_main case.
2022-02-10 17:56
국내논문
-
기계를 위한 특징 부호화 표준화 동향
최근 감시, 산업 자동화, IoT 응용의 확산으로 기계가 분석하는 영상 데이터의 양이 인간 소비를 초과하고 있으며, 이에 따라 기계 소비를 위한 영상 트래픽이 급격히 증가하고 있다.
이러한 변화에 대응하기 위해, 연산 부담을 에지 디바이스와 클라우드 서버 간에 분산하는 분산 신경망 실행 방식이 등장하였으며, 이러한 방식에서는 에지 디바이스에서 생성된 중간 특징의 효율적 전송이 요구된다.
그러나 기존 비디오 부호화 기술은 인간 시각 품질을 기준으로 설계되어 있어, 신경망 중간 특징과 같은 비 시각적 데이터에 최적화 되어 있지 않다.
또한, 대규모 데이터 전송이 요구되는 스마트 시티 및 자율주행 환경에서는 원본 영상이나 특징 데이터를 그대로 전송할 경우 네트워크 대역폭이 극심하게 소모된다.
이에 따라, 중간 특징을 효율적으로 압축하면서도 신경망 표현의 중요한 정보를 유지할 수 있는 새로운 부호화 기술의 필요성이 대두되고 있다.
이에, ISO/IEC JTC 1/SC 29 MPEG Video에서는 기계를 위한 특징 부호화(feature coding for machines, FCM) 표준화를 추진하여, 신경망 특징 데이터를 기계 소비에 최적화된 방식으로 압축하는 기술을 개발하고 있다.
본 논문에서는 FCM의 표준화 동향을 소개하고, 부호화 구조 및 성능 평가 조건과 함께 테스트 모델의 성능을 분석한다.
2025-06-09 14:08
-
확산 모델을 활용한 SAR-광학 영상 변환을 위한 효과적인 데이터 전처리와 증대 기법
합성 개구 레이더(SAR) 영상은 야간 및 기상 조건에 제약 없이 고해상도 영상을 획득할 수 있다는 장점이 있지만, 스페클 노이즈로 인해 영상 품질 저하와 해석의 어려움이 있다.
이러한 한계를 극복하기 위해 SAR 영상을 이용하여 광학 영상과 유사한 보다 유용한 영상으로 변환하는 연구가 필요하다.
본 논문에서는 조건부 확산 모델을 활용하여 SAR 영상을 광학 영상으로 변환할 때 수평 반전 및 90도 회전과 같은 데이터 증강 기법과 함께 제안하는 전처리 방법인 스트레칭 및 ±0.2% 스케일링 기법을 적용하여 실험을 진행하였다.
실험 결과, 조건부 확산 모델에서의 데이터 증대 및 전처리 방법이 FID 평가 지표에서 최대 6.83% 감소하여 광학 영상과 유사한 영상을 생성하도록 유도함을 입증하였다.
제안된 방법은 SAR 영상의 활용 범위를 확대하고 재난 관리, 환경 모니터링, 도시 계획 등 다양한 분야에서 위성 영상 분석 발전에 기여할 수 있을 것으로 기대된다.
2025-06-09 14:06
-
ECM 기반 서브 블록 단위 화면내 템플릿 매칭 예측 방법
국제 표준 공동 그룹인 Joint Video Experts Team에서는 차세대 비디오 부호화 표준을 준비하기 위해 기술 탐색을 진행 중이며, Enhanced Compression Model (ECM) 참조 소프트웨어에 고효율 부호화 기술을 집약하고 있다.
본 논문에서는 비디오 부호화 효율을 향상시키기 위해 ECM에 채택된 기존의 화면내 템플릿 매칭 예측(Intra Template Matching Prediction, IntraTMP) 기술을 개선하는 방법을 제안한다.
IntraTMP 기술은 현재 부호화하려는 블록 주변의 복원된 화소로 구성된 템플릿을 사용하여, 현재 영상의 복원된 영역 내에서 유사한 참조 블록을 탐색하는 기술이다. 이는 높은 부호화 효율을 갖지만, 현재 블록의 우하단 화소와 같이 화소 위치가 템플릿과 멀수록 예측 정확도가 낮아질 수 있다는 한계점을 갖는다.
이를 개선하기 위해, 제안 방법은 현재 부호화 중인 블록을 분할하고, 각 서브 블록마다 별도 템플릿을 구성 및 탐색함으로써 정밀한 참조 블록을 찾고 예측 정확도를 높인다.
ECM-10.0 기반 실험 결과, All Intra 부호화 조건에서 평균 약 0.01%의 BD-Rate 이득을 보인다.
2025-06-09 14:05
-
Enhancing Image Compression with Foveal Vision: A Multi-Focus FPSNR Assessment and Attention-Based Neural Network
In the field of image and video compression, the objective is to achieve a balance between compression efficiency and the quality of reconstructed images.
The commonly used quality assessment method in this field is the Peak Signal-to-Noise Ratio (PSNR), which, however, has a limitation in that it only considers the differences in pixel values.
To address this, our research introduces the Foveal Peak Signal-to-Noise Ratio (F_PSNR), a visual perception-based approach that reflects human foveal vision.
Specifically, we propose a multi-focus F_PSNR assessment method that incorporates the visual characteristics of humans for images containing multiple objects of interest.
Additionally, we suggest a model that integrates an attention mechanism focusing on the quality of objects of interest into the existing neural network-based compression method to enhance perception-based quality.
Experimental results using the KODAK dataset demonstrate that applying the attention mechanism to existing methods can enhance the human-perceptual compression efficiency of neural networks.
2025-02-20 19:47
-
Super Resolution을 활용한 위성 영상의 표적 탐지 성능 분석
저용량 군집위성으로 획득한 영상은 중궤도 혹은 정지궤도 위성에 비해 화질 및 해상도가 낮기 때문에 감시 및 정찰의 효율성이 떨어진다.
본 논문에서는 저화질 위성영상에 초고해상화(Super-Resolution, SR) 기술을 적용하여 화질을 개선하며, 개선된 화질의 위성 영상으로 객체를 탐지할 때 그 성능을 분석한다.
실험에서는 위성영상에 대한 다양한 SR 신경망의 성능을 분석하고, SR 신경망과 탐지 신경망을 연동함으로써 SR을 사용하지 않은 경우와 비교하여 탐지 성능이 향상됨을 보인다.
제안 방법은 저화질의 위성영상에서 감시 및 정찰의 효율성을 극대화할 수 있을 것으로 기대한다.
2025-02-20 19:45
-
Template Mask based Parking Car Slots Detection in Aerial Images
The increase in vehicle purchases worldwide is having a very significant impact on the availability of parking spaces. In particular, since it is difficult to secure a parking space in an urban area, it may be of great help to the driver to check vehicle parking information in advance. However, the current parking lot information is still operated semi-manually, such as notifications. Therefore, in this study, we propose a system for detecting a parking space using a relatively simple image processing method based on an image taken from the sky and evaluate its performance. The proposed method first converts the captured RGB image into a black-and-white binary image. This is to simplify the calculation for detection using discrete information. Next, a morphological operation is applied to increase the clarity of the binary image, and a template mask in the form of a bounding box indicating a parking space is applied to check the parking state. Twelve image samples and 2181 total of test, were used for the experiment, and a threshold of 40% was used to detect each parking space. The experimental results showed that information on the availability of parking spaces for parking users was provided with an accuracy of 95%. Although the number of experimental images is somewhat insufficient to address the generality of accuracy, it is possible to confirm the possibility of parking space detection with a simple image processing method.
2024-02-20 19:48
-
Performance analysis of multiview video compression based on MIV and VVC multilayer
To represent immersive media providing six degree-of-freedom experience, moving picture experts group (MPEG) immersive video (MIV) was developed to compress multiview videos. Meanwhile, the state-of-the-art versatile video coding (VVC) also supports multilayer (ML) functionality, enabling the coding of multiview videos. In this study, we designed experimental conditions to assess the performance of these two state-of-the-art standards in terms of objective and subjective quality. We observe that their performances are highly dependent on the conditions of the input source, such as the camera arrangement and the ratio of input views to all views. VVC-ML is efficient when the input source is captured by a planar camera arrangement and many input views are used. Conversely, MIV outperforms VVC-ML when the camera arrangement is non-planar and the ratio of input views to all views is low. In terms of the subjective quality of the synthesized view, VVC-ML causes severe rendering artifacts such as holes when occluded regions exist among the input views, whereas MIV reconstructs the occluded regions correctly but induces rendering artifacts with rectangular shapes at low bitrates.
2024-02-20 19:21
-
Feature Pyramid Network 기반 원거리 드론 검출 방법
드론이 보편화되면서 드론에 의한 사고에 대응하기 위한 감시 시스템의 필요성이 제기되고 있다. 드론은 비행 속도가 빠르므로 원거리에서 미리 검출을 해야 한다. 하지만, 원거리 영상의 경우 목표물의 크기가 매우 작고 복잡한 배경을 포함할 수 있어 최근 객체 탐지 분야의 딥러닝 기술을 이용하더라도 오검출률이 매우 높다. 따라서 본 논문에서는 소형 목표물에 높은 성능을 갖는 네트워크인 feature pyramid network의 검출 결과에서 복잡한 배경으로 인한 오검출을 효과적으로 감소시킬 수 있는 멀티 프레임 기반 후처리 방법을 제안한다. 제안된 후처리 방법은 전후 프레임에서 검출된 객체 사이의 위치 차이 및 크기 차이를 비교하여 오검출 여부를 판단한다. 또한 딥러닝 네트워크의 학습을 위하여 직접 촬영한 360개의 드론 영상에서 확보한 44,986장의 주석이 달린 드론 데이터 세트를 구축하였다. 제안 후처리 방법을 적용하였을 경우 모든 평가 시퀀스의 false positive가 80% 이상 개선됨과 동시에 F-measure도 증가하는 결과를 보였다.
2024-01-29 17:04
-
차세대 비디오 부호화의 블록 분할 구조
이전 세대와 비교하여 향상된 부호화 효율을 선보인 High Efficiency Video Coding (HEVC)[1]는 2013년 1월에 표준화가 완료된 이후로 다양한 응용 분야에서 폭넓게 사용되고 있으며, 관련된 확장 표준들은 계속해서 활용도가 더욱 높아질 것으로 예상되고 있다. 하지만 영상 정보는 계속해서 제한된 네트워크 대역폭을 통해 전송 또는 저장되어지므로 HEVC보다 더 높은 비디오 부호화 효율을 제공할 차세대 비디오 부호화 기술이 요구되고 있다. 따라서 ISO/IEC MPEG(JTC 1/SC 29/ WG 11)과 ITU-T VCEG (Q6/16)은 차세대 비디오 표준 기술 개발을 위해 Joint Video Exploration Team (JVET)을 결성하고 <표 1>과 같이 2015년 10월 1차 회의를 시작으로 현재까지 8번의 JVET 회의를 통해 기술 탐색을 위한 논의를 진행하고 있다.JVET 구성 이전에 VCEG은 이미 비디오 부호화 효율 향상을 위한 기술적 논의를 진행하고 있었으며, 2015년 2월 ITU-T SG16 VCEG 회의에서 추가적인 부호화 툴을 이용한 HEVC 기반 부호화 효율 향상 목표의 기고서[2]가 발표되었다. 기고서에서는 HEVC에 추가적인 기술들을 조합하여 HMKTA 1.0 플랫폼을 공개하였고, All intra (AI), Random access (RA), Low-delay B (LDB) 조건에서 각각 Y-BD Rate 기준으로 6.8%, 10.4%, 8.9%의 부호화 효율 향상 결과를 보였다. 2015년 8월에는 HMKTA 2.0이 공개되었고, 다시 여러 부호화 툴이 추가되어 AI, RA, LDB에서 각각 10.9%, 17.9%, 14.8%의 부호화 효율 향상 결과를 보였다. 이후 VCEG과 MPEG이 JVET을 결성하여 2015년 10월 FVC 기술 탐색을 위한 공통의 플랫폼인 Joint Exploration Model (JEM)의 첫 번째 버전을 시작으로 현재까지 JEM 7.0을 공개하였으며, HEVC 대비 AI, RA, LDB에서 각각 19.7%, 28.5%, 22.3%의 부호화 효율 향상을 보였다[3].이러한 JEM에서 추가된 기술 중 가장 큰 변화 중 하나로 블록 분할 구조 변경을 꼽을 수 있다. 2016년 6월에 공개된 JEM 3.0에서는 1.0부터 Exploration Experiments (EE)로 진행되었던 Quadtree plus Binary tree (QTBT) block structure가 기존 HEVC의 Quadtree structure를 대신하여 적용되었다. 기존 Quadtree structure의 단점을 보완한 QTBT는 비디오 데이터의 지역적 특성에 더 적합할 수 있도록 더 많은 유연성을 제공한다. 본고에서는 이러한 QTBT를 통해 차세대 비디오 부호화 표준화에서의 블록 분할 구조와 응용 기술에 대해서 살펴볼 것이다. 본고는 다음과 같이 구성되어 있다. 2장에서는 JEM의 블록 분할 구조인 QTBT에 대해 소개하며, 3장에서는 QTBT 응용 기술 동향을 소개한다. 마지막으로 4장에서 결론으로 마무리 짓는다.
2024-01-29 16:55
-
타일의 독립적 복호를 위한 HEVC 부호화 방법 및 문제점 분석
4K이상의 초고해상도 영상의 수요가 증가함에 따라 복호화기가 요구하는 데이터 처리량이 늘어났으며, 이에 따라 소비자가 관심을가지는 영역만을 복호화하는 방법의 필요성이 대두되었다. 이러한 관심영역을 독립적으로 복호화할 수 있는 방법에는 영상을 분할하여분할된 각각의 영상을 부호화하는 방법과 HEVC(High Efficiency Video Coding)의 Tile기반 부호화를 이용할 수 있다. 본 논문에서는이러한 영상 분할기반 부호화와 Tile 분할기반 부호화를 통해 관심영역의 독립적인 복호화를 수행할 수 있는 방법을 제안하고 각각의성능을 분석한다. 실험결과에서는 제안방법의 결과로 부호화된 영상에 대해서 관심영역의 독립적 복호화가 가능함을 보이고 각 방법의특징을 비교분석한다.
2024-01-29 16:51
-
차세대 비디오 부호화 표준화 동향
2013년 1월에 표준화가 완료된 High Efficiency Video Coding (HEVC) 이후 ISO/IEC MPEG (JTC 1/SC 29/WG 11)과 ITU-T VCEG (Q6/16)은 차세대 비디오 부호화 표준 기술 개발을 위해 Joint Video Exploration Team (JVET)을 결성하고 2015년 10월 1차 회의를 시작으로 현재까지 7번 의 JVET 회의를 진행하며 기술 탐색을 위한 논의를 활발히 진 행하고 있다. 본 고에서는 JVET에서 다루고 있는 주요 기술 동향에 대해 살펴보고, 차세대 비디오 부호화 기술의 전망과 함께 차세대 비디오 부호화 표준을 위한 Call for Evidence, Call for Proposals 등의 표준화 동향에 대해 소개한다.
2024-01-29 16:47
-
HEVC 복호기에서의 타일, 슬라이스, 디블록킹 필터 병렬화 방법
최근 디스플레이 기기의 발전과 기가 네트워크 등의 전송 대역폭 확대로 인해 대형 파노라마 영상, 4K Ultra High-Definition 방송, Ultra-Wide Viewing 영상 등 2K 이상의 초고해상도 영상의 수요가 폭발적으로 증가하고 있다. 이러한 초고해상도 영상은 데이터양이매우 많기 때문에 부호화 효율이 가장 높은 High Efficiency Video Coding(HEVC) 비디오 부호화 표준을 사용하는 추세이다. HEVC는 가장 최신의 비디오 부호화 표준으로 다양한 부호화 툴을 이용하여 높은 부호화 효율을 제공하지만 복잡도 또한 이전 부호화 표준과 비교하여 매우 높다. 특히 초고해상도 영상을 HEVC 복호기로 실시간 복호화 하는 것은 매우 높은 복잡도를 요구한다. 따라서 본논문에서는 고해상도 및 초고해상도 영상에 대한 HEVC 복호기의 복호화 속도를 개선시키고자 HEVC에서 지원하는 슬라이스(Slice)와 타일(Tile) 부호화 툴을 사용하여 각 슬라이스 혹은 타일을 동시에 처리하며 디블록킹 필터 과정에서도 소정의 블록 크기만큼 동시에 처리하는 데이터-레벨 병렬 처리 방법을 소개한다. 이는 독립 복호화가 가능한 타일, 슬라이스, 혹은 디블록킹 필터에서 동일 연산을 다중 스레드에 분배하는 방법으로 복호화 속도를 향상 시킬 수 있다. 실험에서 제안 방법이 HEVC 참조 소프트웨어 대비 4K 영상에 대해 최대 2.0배의 복호화 속도 개선을 얻을 수 있음을 보인다.
2024-01-29 16:45
-
Residual DPCM in HEVC Transform Skip Mode for Screen Content Coding
High Efficiency Video Coding (HEVC) adopts intra transform skip mode, in which a residual block is directly quantized in the pixel domain without transforming the block into the frequency domain. Intra transform skip mode provides a significant coding gain for screen content. However, when intra-prediction errors are not transformed, the errors are often correlated along the intra-prediction direction. This paper introduces a residual differential pulse code modulation (DPCM) method for the intra-predicted and transform-skipped blocks to remove redundancy. The proposed method performs pixel-by-pixel residual prediction along the intra-prediction direction to reduce the dynamic range of intra-prediction errors. Experimental results show that the transform skip mode’s Bjøntegaard delta rate (BD-rate) is improved by 12.8% for vertically intra-predicted blocks. Overall, the proposed method shows an average 1.2% reduction in BD-rate, relative to HEVC, with negligible computational complexity.
2024-01-29 13:49
-
MPEG-U–based Advanced User Interaction Interface Using Hand Posture Recognition
Hand posture recognition is an important technique to enable a natural and familiar interface in HCI (human computer interaction) field. In this paper, we introduce a hand posture recognition method by using a depth camera. Moreover, the hand posture recognition method is incorporated with MPEG-U based advanced user interaction (AUI) interface system, which can provide a natural interface on a variety of devices. The proposed method initially detects positions and lengths of all fingers opened and then it recognizes hand posture from pose of one or two hands and the number of fingers folded when user takes a gesture representing a pattern of AUI data format specified in the MPEG-U part 2. The AUI interface system represents user’s hand posture as the compliant MPEGU schema structure. Experimental results show performance of the hand posture recognition and it is verified that the AUI interface system is compatible with the MPEG-U standard.
2024-01-29 13:47
-
HEVC 기반 스케일러블 비디오 부호화 툴의 성능 분석
최근 HD(High Definition)화질 및 UHD(Ultra High Definition)화질과 같은 고품질 방송 서비스가 등장하고, 무선 네트워크 기술의 발달로 스마트폰, 태블릿 PC 등과 같은 휴대용 멀티미디어 기기들이 보편화됨에 따라, 비디오 콘텐츠의 전달 및 소비 환경이 다양화되고 있다. 따라서 스케일러빌러티(Scalability)의 현실적 필요성이 점점 절실해 졌으며, 시간, 공간, 화질 등의 확장성을 제공하는 Scalable Video Coding(SVC)이 등장하였다. 최근 ISO/IEC의 MPEG(Moving Picture Experts Group)와 ITU-T의 VCEG(Video Coding Experts Group)이 공동으로 결성한 Joint Collaborative Team on Video Coding(JCT-VC)에 의해 Scalable High Efficiency Video Coding(SHVC) 표준이 제정되었다. 본 논문은 공간적, 시간적, 화질적 스케일러빌러티를 제공하기 위하여 SHVC의 표준에 포함된 툴 뿐만 아니라 SHVC 표준화 과정에서 논의되었던 다양한 스케일러블 부호화 툴들을 소개하고, 기존 단일 계층 부호화 방식으로 부호화한 결과와 비교하여 SHVC의 부호화 효율에 대한 성능을 분석하였다. 이러한 성능 분석은 향후 부호화 성능 향상을 위한 알고리즘 개발 및 고속 부호화기 개발을 위한 부호화 툴의 선별 및 조정에 유용할 것으로 판단된다.
2024-01-29 13:43
-
W3C 기반 상호연동 가능한 멀티모달 커뮤니케이터
최근 사용자와 컴퓨터간의 양방향 상호작용을 가능하게 하는 HCI(Human Computer Interaction) 연구를 위해 인간의 의사소통 체계와 유사한 인터페이스 기술들이 개발되고 있다. 이러한 인간과의 의사소통 과정에서 사용되는 커뮤니케이션 채널을 모달리티라고 부르며, 다양한 단말기 및 서비스 환경에 따라 최적의 사용자 인터페이스를 제공하기 위해서 두 개 이상의 모달리티를 활용하는 멀티모달 인터페이스가 활발히 연구되고 있다. 하지만, 멀티모달 인터페이스를 사용하기에는 각각의 모달리티가 갖는 정보 형식이 서로 상이하기 때문에 상호 연동이 어려우며 상호 보완적인 성능을 발휘하는데 한계가 있다. 이에 따라 본 논문은 W3C(World Wide Web Consortium)의 EMMA(Extensible Multimodal Annotation Markup language)와 MMI(Multimodal Interaction Framework)표준에 기반하여 복수의 모달리티를 상호연동할 수 있는 멀티모달 커뮤니케이터를 제안한다. 멀티모달 커뮤니케이터는 W3C 표준에 포함된 MC(Modality Component), IM(Interaction Manager), PC(Presentation Component)로 구성되며 국제 표준에 기반하여 설계하였기 때문에 다양한 모달리티의 수용 및 확장이 용이하다. 실험에서는 시선 추적과 동작 인식 모달리티를 이용하여 지도 탐색 시나리오에 멀티모달 커뮤니케이터를 적용한 사례를 제시한다.
2024-01-29 13:42
-
안드로이드 기반 자연과학 교육용 디지털 앱북 개발을 위한 사용자 상호작용 라이브러리
디지털 앱북은 기존의 전자책에서 발전한 형태의 멀티미디어 콘텐츠로서 동영상, 소리뿐만 아니라 모바일 기기의 센서를 이용한 다양한 상호작용을 지원할 수 있는 장점이 있다. 모바일 기기의 발전으로 이러한 디지털 앱북의 수요는 폭발적으로 증가하고 있지만, 상호작용을 지원하기 위해서는 프로그래밍 제작 노력이 많이 필요하기 때문에 공급이 그 늘어난 수요를 따라가기 힘든 실정이다. 이러한문제를 해결하고자, 본 논문은 자연과학 교육용 디지털 앱북의 흥미를 느끼게 해주는 핵심 요소인 사용자-기기간 상호작용 기능들을라이브러리로 구현하고 검증하였다. 제안 라이브러리는 사용자 동작 인식부, 기기 동작부, 콘텐츠 동작부로 구성되며, 각 부의 명령을조합하여 다양한 상호작용 함수를 제공한다. 이러한 설계는 코드의 재사용성, 개발자의 쉬운 이해와 활용성, 넓은 확장성을 지원할 수있다. 구현된 라이브러리는 상용화를 위한 자연과학 교육용 디지털 앱북 콘텐츠 제작에 직접 이용되었으며, 그 결과 코드 사용량을 크게 줄이고 개발 시간을 단축함으로써 제작 효율을 높일 수 있었다.
2024-01-29 13:41
-
에지 및 상대적 RMD 비용을 고려한 HEVC 고속 화면내 부호화 모드 결정 방법
본 논문에서는 HEVC를 위한 고속 화면내 부호화 모드 결정 방법을 제안한다. 제안방법은 화면내 부호화의 RMD(Rough Mode Decision) 및 RDO(Rate-Distortion Optimization) 과정에서 고려하는 각 후보 수를 줄여 화면내 부호화 과정에서의 복잡도를 감소시킨다. RMD가 고려하는 후보 수를 줄이기 위하여 영상의 에지 방향성 및 강도를 활용하며, RDO가 고려하는 후보 수를 줄이기 위하여 상대적 RMD cost 차이를 이용한다. 실험결과에서는 제안방법이 약 0.79% BD-rate의 부호화 손실만으로 26.81%의 부호화 복잡도를 감소시켰음을 보인다.
2024-01-29 13:37
-
3D-HEVC 비디오 부호화 성능 분석
차세대 영상 기술의 하나로 다양한 분야에서 주목받고 있는 고품질 다시점 및 3차원 콘텐츠들에 대한 비디오 부호화 기술의 연구및 표준화가 활발히 진행되고 있다. 다시점 및 3차원 비디오 기술은 복수의 시점을 이용하여 사용자에게 실감나는 영상을 제공할 수있다. 하지만, 많은 시점을 획득 및 전송하는 것은 한계가 있으므로, 소수의 시점을 이용하여 다양한 시점을 제공하는 연구가 주를 이룬다. 이러한 연구에는 전송 시점을 줄이는 대신 깊이 정보를 전송하여 전송된 시점으로부터 더욱 정확히 임의 시점을 생성하는 기술과 시점간 정보 중복성을 제거하기 위한 부호화 기술이 있다. 최근 국제 표준화 기구인 JCT-3V(Joint Collaborative Team on 3D Video Coding Extension Development)에서는 다시점 및 3차원 비디오 영상을 효율적으로 부호화할 수 있는 기술에 대하여 표준화가진행되고 있다. 본 논문은 현재 JCT-3V에서 HEVC(High Efficiency Video Coding) 기반으로 표준화가 진행 중인 3D-HEVC 부호화기술에 대해 살펴보고 그 부호화 및 복잡도 성능을 분석하였다. 이러한 성능 분석은 향후 부호화 성능 향상을 위한 알고리즘 개발 및고속 부호화기 개발을 위한 부호화 툴의 선별 및 조정에 유용할 것으로 판단된다.
2024-01-29 13:35
-
손 자세 인식을 이용한 MPEG-U 기반 향상된 사용자 상호작용 인터페이스 시스템
최근 손과 손가락을 인식하는 기술은 HCI(human computer interaction)에서 자연스럽고 친숙한 환경을 제공하기 위한 기술로주목 받고 있다. 본 논문에서는 깊이 카메라를 이용하여 손과 손가락의 모양을 검출 및 인식하는 방법을 제안하고, 그 인식 결과를 활용하여 다양한 기기와 상호연동 할 수 있는 MPEG-U 기반 향상된 사용자 상호작용 인터페이스 시스템을 제안한다. 제안하는 시스템은 깊이 카메라를 이용하여 손을 검출한 후, 손목의 위치를 찾아 최소 손 영역을 검출한다. 이어서 검출된 최소 손 영역으로부터 손가락 끝점을 검출 한 후, 최소 손 영역의 중심점과 손가락 끝점간의 뼈대를 만든다. 이렇게 만든 뼈대의 길이와 인접 뼈대간의 각도차를 분석하여 손가락을 판별한다. 또한, 제안하는 시스템은 사용자가 MPEG-U에서 정의하는 다양한 심벌들을손 자세로 취하였을 때 제안 방법을 이용하여 손 자세를 인식하고, 인식 결과를 상호연동 가능한 MPEG-U 스키마 구조로 표현한다. 실험에서는 다양한 환경에서 제안하는 손 자세 인식 방법의 성능을 보인다. 또한, 제안 시스템의 상호연동성을 보이기 위해 인식 결과를 MPEG-U part2 표준에 맞는 XML 문서로 표현하고, MPEG-U 참조 소프트웨어를 이용하여 그 표현 결과에 대한 표준 부합성을 검증한다.
2024-01-29 13:34
-
HEVC를 위한 고속 변환 크기 결정방법
본 논문에서는 HEVC (High Efficiency Video Coding)의 복잡도 감소를 위한 고속 변환 크기 결정방법을 제안한다. HEVC는 변환과정을 결정하는 TU(transform unit)를 정의하며, TU는 재귀적인 트리구조를 사용하여 여러 개의 하위블록으로 분할할 수 있다. 이와같은 트리구조의 사용으로 TU는 4x4 ~ 32x32의 다양한 블록크기를 지원할 수 있고, 이것은 높은 부호화 효율을 얻을 수 있는 핵심기술이다. 하지만 필연적으로 부호화 복잡도가 증가하게 되고 이러한 부호화 복잡도의 증가는 HEVC의 단점 중 하나이다. 제안 방법은 마지막 0이 아닌 변환 계수의 위치를 기준으로 변환블록의 에너지 집중도를 판단하고, 에너지 집중도가 충분한 블록이면 하위 블록으로 분할하지 않을 확률이 높다는 실험결과에 근거하여 TU의 분할 여부를 빠르게 결정한다. 실험결과에서 제안방법은Random_access_Main 모드에 대해 0.7%의 BD-rate 증가로 18%의 부호화 시간을 감소시킬 수 있음을 보인다.
2024-01-29 13:31
-
Large Block을 적용한 SVC 부호화 및 성능분석
고해상도의 고품질 비디오 서비스가 보편화됨에 따라 최근 초고해상도(UHD) 비디오 부호화를 위한 HEVC(High Efficiency Video Coding) 표준이 마무리되었으며, 향후 융합환경에서 HD 및 UHD 비디오를 동시에 제공하기 위한 스케일러블 확장 HEVC 표준화도진행되고 있다. 본 논문에서는 UHD/HD 비디오를 동시에 제공하기 위한 H.264/SVC의 확장 부호화 기법을 제시한다. 즉, HEVC의대표적인 부호화 툴인 Large Block 개념을 H.264/SVC에 적용함으로써 계층간 예측 및 신택스 부호화 등의 부호화 효율성을 개선한부호화 기법을 제시하고 그 부호화 성능을 분석한다. 실험결과 Large Block을 적용한 SVC가 기존의 H.264/SVC에 비하여 평균4.53% 내외의 비트 감소의 이득이 있음을 확인하였다.
2024-01-29 13:18
-
비실시간 기반 스테레오스코픽 비디오 부호화를 위한 적응루프필터 적용기법
스테레오스코픽(stereoscopic) 3D 비디오 서비스는 기존 2D와의 호환성을 유지하면서 새로운 3D 비디오 서비스를 제공할 수 있다. 전송 대역이 제한된 지상파 방송의 경우 높은 부호화 효율을 갖는 스테레오스코픽 비디오 코덱이 요구된다. 따라서 기준영상은 기존2D 비디오 서비스와의 호환성을 위해 MPEG-2로 부호화하는 반면 3D를 위한 부가영상 부호화를 위해 부호화 효율이 높은H.264/AVC, HEVC(High Efficiency Video Coding) 등을 고려하고 있으며, 또한 부가영상을 비실시간으로 전송하는 NRT(Non-Real Time) 3D 서비스도 고려되고 있다. 본 논문에서는 NRT 3D 서비스를 위한 스테레오스코픽 비디오 부호화에 있어서, HEVC에서 고려되었던 적응루프필터(ALF: Adaptive Loop Filter)를 전/후처리 필터로 적용하는 기법을 제시한다. 특히, 부가영상의 후처리에 ALF를적용하기 위하여 부호화 과정에 결정되는 CU(Coding Unit) 구조를 이용하는 HEVC와 달리 MVC(Multiview Video Coding)로 부호화한 부가영상의 매크로블록(MB) 부호화 모드 및 참조영상 인덱스 등의 MB 부호화 정보를 이용한 ALF 적용 기법을 제안한다. 부가영상 부호화에 있어서 제안한 기법으로 전처리 및 후처리 과정으로 ALF를 적용함으로써 최대 약 24.9%의 비트율 감소를 확인하였다.
2024-01-29 13:16
-
MPEG-U part 2 기반 향상된 사용자 상호작용 인터페이스 시스템
향상된 사용자 상호작용 (AUI: Advanced User Interaction) 인터페이스(interface)의 목적은 다양한 입/출력 장치와 비디오, 오디오, 그래픽 등의 객체로 표현되는 장면 기술(scene description) 사이에서 정보의 상호연동을 향상시키는 것이다. 이를 위해서 국제 표준화 기구인 MPEG(moving picture experts group)에서는 MPEG-U part 2: AUI Interface 프로젝트를 통해서 AUI 인터페이스 데이터 포맷의 표준화를 진행 중이다. 본 논문에서는 MPEG-U part 2의 표준을 소개하고, 이 표준에 기반을 둔 AUI 인터페이스 시스템을 제안한다. 제안하는 AUI 인터페이스 시스템은 크게 UID(User Interaction Device)의 데이터를 처리하는 사용자 인터페이스 입/출력부와 XML 문서를 처리하는 MPEG-U XML 생성/해석부로 구성된다. 본 시스템은 MPEG-U 표준 기반 입/출력 장치와 사용자와의 상호작용을 향상시키기 위한 시스템의 프레임 워크로 활용될 수 있다. 실험에서는 제안하는 사용자 상호작용 인터페이스 시스템이 MPEG-U part2 표준에 적합한지를 보이며 이를 이용하여 MPEG-U part 2 표준의 타당성을 검증한다.
2024-01-29 13:14
-
2차원 동영상의 3차원 변환을 위한 깊이 단서의 신뢰성 기반 적응적 깊이 융합
3차원 동영상은 다양한 응용분야들에서 차세대 콘텐츠로 큰 주목을 받고 있다. 2D-to-3D 변환은 3차원 동영상의 시대로 넘어가는 과도기 동안에 3차원 동영상 콘텐츠의 부족현상을 해결하기위한 강력한 기술로 여겨지고 있다. 일반적으로 2D-to-3D 변환을 위해서는 2차원 동영상 각 장면의 깊이영상을 추정/생성한 후 깊이 영상 기반 랜더링 (DIBR : Depth Image Based Rendering) 기술을 이용하여 스테레오 동영상을 합성한다. 본 논문은 2차원 동영상 내 존재하는 다양한 변환 단서들을 통합하는 새로운 깊이 융합 기법을 제안한다. 우선, 알맞은 깊이 융합을 위해 몇몇 단서가 현재 장면을 효과적으로 표현할 수 있는 지 아닌 지 검사된다. 그 후, 신뢰성 검사의 결과를 기반으로 현재 장면은 4개의 유형 중 하나로 분류된다. 마지막으로 최종 깊이 영상을 생성하기 위해 신뢰할 수 있는 깊이 단서들을 조합하는 장면 적응적 깊이 융합이 수행된다. 실험 결과를 통해 각각의 단서가 장면 유형에 따라 타당하게 활용되었고 최종 깊이 영상이 현재 장면을 효과적으로 표현할 수 있는 단서들에 의해 생성되었음을 관찰할 수 있다.
2024-01-29 13:08
-
HEVC의 공간적 상관성 기반 고속 부호화 깊이 및 참조영상 결정 방법
본 논문에서는 HEVC(High Efficiency Video Coding) 부호화 속도 향상을 위한 최대 부호화깊이 및 참조영상 고속결정 방법을 제안한다. 본 논문에서는 계산 복잡도 감소와 속도향상을 위하여 크게 두 가지 방법을 제안한다. 첫 번째 방법에서는 LCU(Largest Coding Unit)내 각 CU(Coding Unit)의 최대 부호화 깊이를 제한하며, 이때 공간적인 상관성을 기반으로 주변 LCU에서 사용된 최대 부호화 깊이와 율-왜곡 비용을 이용한다. 두 번째 방법에서는 각 CU의 다양한 PU(Prediction Unit) 중, 화면간 예측을 수행하는 PU에 대해서 참조영상을 제한하며, 이때 상위 깊이 PU의 움직임 정보를 이용한다. 제안하는 방법은 항상 최대 깊이까지 부호화를 수행하는 것을 적응적으로 제한하고, 상당한 복잡도를 요구하는 움직임 예측을 수행하는 PU의 참조영상 수를 제한함으로써 계산 복잡도를 감소시킬 수 있으며, 기존의 HEVC 참조 소프트웨어인 HM6.1 대비 약 1.2% 정도의 비트율이 증가하면서 약 39%의 복잡도 감소 효과를 얻을 수 있었다.
2024-01-29 13:06
-
화면 간 차이신호에 대한 적응적 그레이코드를 이용한 분산 비디오 부호화 기법의 성능 분석
본 논문에서는 화면 간 차이 신호에 적용하기 위한 적응적인 그레이코드 할당을 갖는 분산 비디오 코덱의 성능 분석을 수행하였다. 즉, 화면 간 차이 신호가 갖는 통계특성에 기초하여 양자화된 값에 대해 최고의 성능을 갖는 그레이코드 할당 방법과 최저의 성능을갖는 그레이코드 할당 방법에 대해 성능을 비교 분석하였다. 모의실험을 통해 8비트 밝기 해상도를 갖는 영상에서 화면 간 차이 신호는 9비트의 데이터를 발생시키고, 양자화해서 전송되는 비트가 n비트이면, 화면 간 차이 신호에 256 + 29-n-1를 더함으로써 가상채널잡음의 효과를 최소화할 수 있음을 확인하였다. 영상시퀀스를 이용한 모의실험에서 최고의 성능과 최저의 성능을 갖는 방식간에 동일 비트율에서 약 1.5dB이상의 화질 차이가 발생함을 확인하였다. 본 논문에서 분석된 결과는 화소영역 또는 변환영역의 위너-지브 부호화기법으로 확장하여 적용될 수 있을 것으로 기대된다.
2024-01-29 13:03
-
MPEG-21 및 H.264/AVC SVC 기반 동적 비디오 적응 방법
근래의 이종 네트워크 환경에서 비디오를 안정되게 전송하기 위해서는 네트워크 특성, 단말기 성능, 사용자 선호도 등의 소비 환경을 고려한 비디오 적응 방법이 요구되며, 비디오 부호화에서의 스케일러빌러티는 그 요구조건을 만족시키기 위한 좋은 해결책이다. 본 논문에서는 H.264/AVC SVC 스트림을 MPEG-21 디지털 아이템 적응(Digital Item Adaptation, DIA) 도구를 이용하여 네트워크 환경, 단말의 성능, 사용자 선호도에 따라 동적(dynamic)으로 비디오 콘텐츠를 적응시키는 방법을 제안한다. 실험에서 는 이종망 네트워크 환경을 모델링하여 대역폭이 최대 62%의 변화가 있는 경우에도 제안한 방법으로 지연이 거의 없이 실시간으로 비트율을 적응할 수 있음을 보인다.
2024-01-29 13:01
-
Performance Evaluation and Adaptive Streaming of Scalable Video Coding
In January 2008, H.264/AVC amendment 3: Scalable Video Coding (SVC) was newly published. We present a short overview of the main functionalities of SVC, and evaluate the performance of SVC in terms of individual spatial,temporal, and quality scalability. Moreover, an SVC adaptive steaming method using dynamic SVC extraction scheme is introduced. The experimental results show coding efficiency and complexity of SVC under various conditions and a feasibility of real-time adaptation of an MPEG-21 based end-to-end SVC streaming framework.
2024-01-29 11:49
-
모델 정보를 이용한 2단계 윤곽선 추출 기법
본 논문에서는 물체의 모양에 대한 개략적인 정보가 주어질 때, 그 물체의 윤곽선을 획득하는 알고리즘을 제안한다. 이 기법은 주어진 모델을 확률적으로 이용하여, 결과 윤곽선의 모양이 모델의 모양과 비슷하도록 유도하며, 윤곽선 분할 과정에서 밝기의 변화량 뿐만 아니라 밝기 변화의 방향까지 고려하여 저화질 영상에도 적용될 수 있도록 하였다. 제안한 알고리즘은 다음 두 단계의 영역 분할 기법으로 구성된다. 첫 번째 근사적 영역 분할 단계에서는 밝기 변화의 방향을 고려하여 에지와, 모델들을 근거로 확률적 모델링에 의해 산출된 윤곽선이 될 확률을 이용하여 물체의 근사적인 윤곽선을 획득한다. 두 번째 세부적 영역 분할 과정에서는 제안한 씨앗점 추출 및 에지 연결(seed-point extraction and edge linking) 알고리즘을 이용하여, 근사적 윤곽선을 중심으로 윤곽 후보점을 검출하고 이들을 물체의 윤곽선을 따르도록 적절히 연결하여 최종적으로 세밀한 물체 윤곽선을 획득한다. 실험 결과에서는 제안한 기법이 영상의 배경 혹은 물체 내부의 복잡함과 잡음에 강인하며, 적외선 영상과 같은 저화질의 영상에도 적용될 수 있음을 보인다.
2024-01-29 11:39
-
스크린 콘텐츠를 위한 VVC 화면내 삼각형 분할 예측 방법
VVC(Versatile Video Coding)는 ISO/IEC/ITU-T의 JVET(Joint Video Experts Team)에서 표준화 중인 새로운 비디오 부호화 표준으로 스크린 콘텐츠 부호화 툴을 포함한 다양한 기술을 채택하고 있다. 스크린 콘텐츠는 문자 영역과 같이 사선 방향 에지가 자주 발생하는 특징을 가지며, 이런 특징을 갖는 영상에 삼각형 형태의 분할 부호화를 적용하면 압축 효율이 증가할 수 있다. 본 논문에서는 스크린 콘텐츠를 위한 VVC 기반 화면내 삼각형 분할 예측 방법을 제안한다. 기존 VVC의 화면간 예측 부호화에서 삼각형 분할 예측을 지원하는 Triangular Prediction Mode 방법과 유사하게, 제안 방법은 화면내 예측 부호화에서 수직과 수평 방향 예측 모드와 주변 복원 참조 라인을 이용하여 두 개의 사각형 예측 블록을 생성하고 삼각형 모양의 마스크로 두 예측 블록을 가중합하여 최종 예측 신호를 만든다. 제안 방법의 실험 결과는 All Intra 스크린 콘텐츠 영상 실험에서 YUV 각각 평균 1.86%, 1.49%, 1.55% 부호화 성능 향상을 보이고, 자연 영상 실험 조건에서는 부호화 효율에 미미한 손실을 보였다. 결론적으로, 화면내 예측 부호화 모드에 제안 방법을 적용하여 압축 성능을 향상할 수 있었다.
2021-10-28 02:00
-
딥 러닝 및 칼만 필터를 이용한 객체 추적 방법
딥 러닝의 대표 알고리즘에는 영상 인식에 주로 사용되는 CNN(Convolutional Neural Networks), 음성인식 및 자연어 처리에 주로 사용되는 RNN(Recurrent Neural Networks) 등이 있다. 이 중 CNN은 데이터로부터 자동으로 특징을 학습하는 알고리즘으로 특징 맵을 생성하는 필터까지 학습할 수 있어 영상 인식 분야에서 우수한 성능을 보이면서 주류를 이루게 되었다. 이후, 객체 탐지 분야에서는 CNN의 성능을 향상하고자 R-CNN 등 다양한 알고리즘이 등장하였으며, 최근에는 검출 속도 향상을 위해 YOLO(You Only Look Once), SSD(Single Shot Multi-box Detector) 등의 알고리즘이 제안되고 있다. 하지만 이러한 딥러닝 기반 탐지 네트워크는 정지 영상에서 탐지의 성공 여부를 결정하기 때문에 동영상에서의 안정적인 객체 추적 및 탐지를 위해서는 별도의 추적 기능이 필요하다. 따라서 본 논문에서는 동영상에서의 객체 추적 및 탐지 성능 향상을 위해 딥 러닝 기반 탐지 네트워크에 칼만 필터를 결합한 방법을 제안한다. 탐지 네트워크는 실시간 처리가 가능한 YOLO v2를 이용하였으며, 실험 결과 제안한 방법은 기존 YOLO v2 네트워크에 비교하여 7.7%의 IoU 성능 향상 결과를 보였고 FHD 영상에서 20 fps의 처리 속도를 보였다.
2021-10-28 02:00
-
동적 카메라 환경에서의 소형 드론 추적 방법
최근 무인 비행체의 활용이 증가하면서 소형 드론의 활용 역시 크게 증가하고 있다. 이러한 시장의 성장으로 드론의 악용 가능성이 높아짐에 따라 드론을 적절히 통제하기 위한 감시 시스템의 필요성이 제기되고 있다. 또한 고정 카메라를 사용한 감시 시스템은 범위가 제한적이기 때문에 PTZ(Pan-Tilt-Zoom) 카메라 등에 적용 가능한 동적 카메라 환경에서의 객체 추적 연구가 필요하며, 실시간 추적을 위해 최적화된 객체 추적 연구가 필요하다. 효과적인 추적을 위해 대상 객체의 특징을 배경 환경에 맞추어 정의하거나 객체의 특징 정보를 효과적으로 추출해야 한다. 본 논문에서는 소형 드론 추적을 위해 옵티컬 플로우를 사용한 객체 추적 방법과 추적 실패로부터 재추적을 수행하기 위한 옵티컬 플로우와 칼만 필터를 결합한 방법을 소개한다. 본 논문에서는 추적 결과 비교를 위해 최소 12pixels에서 최대 56337pixels의 표적 크기에 대한 실험 결과를 보인다. 제안 방법은 기존 추적 방법과 비교하여 평균 175%의 정밀도 향상과 평균 143%의 검출률 향상 결과를 보였으며, 최소 12pixels의 표적에 대해서도 추적하는 결과를 보였다.
2021-10-28 02:00
-
VVC 화면내 예측 및 부호화 주요 기술
VVC(Versatile Video Coding)는 국제 표준화 단체인 JVET(Joint Video Exports Team)에서 표준화가 진행되고 있는 새로운 국제 비디오 부호화 표준이다. 이 표준화에서는 기존 최신 비디오 부호화 표준인 HEVC(High Efficiency Video Coding)/H.265 대비 2배 이상의 부호화 성능을 목표로 다양한 부호화 방법들이 논의되고 있다. 본 고에서는 VVC의 새로운 부호화 모드 중 화면내 예측(intra prediction) 부호화 방법에 대해 소개한다. 화면내 예측은 현재 부호화를 진행하려는 블록의 주변에 이미 재구성된 샘플들을 참조하여 현재 블록을 예측하는 방법이다. 이 화면내 부호화 방법은 화면간 예측(inter prediction) 부호화 방법과 함께 부호화 효율 향상에 기여할 뿐만 아니라, 임의 접근(random access)을 가능하게 하고 부호화된 비트스트림의 에러 내성을 높인다. VVC는 화면내 부호화 예측 모드 종류를 최대 87개까지 확장하고 다양한 화면내 부호화 방법을 채택함으로써 기존 비디오 부호화 표준에 비해 높은 부호화 효율을 갖는다. 본 고에서는 VVC에 채택된 주요 화면내 부호화 방법들을 소개한다.
2021-10-28 02:00
Research
우리 연구실의 연구정보를 안내합니다.
자세히 보기