Research result 
해외논문
-
Enhanced Helicopter Vibration Prediction with Hybrid Sampling and Cost Mining Techniques
Helicopter vibrations increase pilot workload and accelerate fatigue and wear in structural and mechanical components, potentially resulting in higher maintenance costs and reduced operational safety. To address these challenges, this study develops a machine learning-based prediction model using vibration test data from the cockpit of a Korean utility helicopter. To mitigate the issue of class imbalance in the dataset, two hybrid sampling techniques are proposed and analyzed: first oversampling and last undersampling (FOLU) and first undersampling and last oversampling (FULO). In addition to conventional evaluation based on prediction accuracy, this study adopts a cost-aware perspective by applying both cost-incentive and cost-sensitive learning frameworks. The models are compared in terms of misclassification-related cost losses under realistic operational conditions. Experimental results confirm that the proposed hybrid sampling methods outperform traditional oversampling and undersampling techniques in prediction performance. Among all configurations, the FULO-based models using multilayer perception (MLP) and random forest (RF) achieved the highest prediction accuracy. Moreover, cost-sensitive learning generally reduced misclassification losses compared to cost-incentive learning; however, in certain cases, the cost-incentive model yielded lower total costs. These findings indicate that predictive model selection should not be based solely on accuracy metrics, but also on economic efficiency within operational contexts. This study contributes to the literature by demonstrating the practical effectiveness of hybrid sampling in helicopter vibration prediction as well as introducing a cost-aware model evaluation framework suitable for prognostics and health management (PHM) applications in military and civilian rotorcraft operations.
2025-06-23 12:01
-
Does Economic Stability Influence Family Development? Insights from Women in Korea with the Lowest Childbirth Rates Worldwide
The aim of this study is to explore the multidimensional relationships among factors influencing decision-making processes regarding women’s willingness to marry and childbirth in South Korea with recognizing the context of family development in East Asian cultures. To this end, we employed three different analytical approaches, including classification tree modeling, Cox proportional hazard modeling, and permutation feature importance evaluation. Leveraging longitudinal data specific to Korean women, we highlighted the significance of socio-economic factors in family development dynamics. Our findings revealed that financial stability played a crucial role. Unmarried women’s willingness to marry was influenced by their perspectives on economic stability, while households’ consumption capacity and financial capability determined childbirth decisions and timing. We observed a trend of postponed marriage among women in their marriageable age range, particularly those with stable economic situations, reflecting a prevalent trend of skepticism of marriage in Korean society. Additional findings related to values, cultural factors, and personal happiness also suggested the challenges that discourage younger generations from entering into marriage and starting families in South Korea. By offering insights into these dynamics, our study provides practical implications for addressing the obstacles faced, contributing to a better understanding of family development dynamics.
2024-03-26 11:06
-
Double ensemble technique for improving the weight defect prediction of injection molding in smart factories
The growing move toward smart factories can leverage industrial big data to enhance productivity. In particular, research is being conducted on injection molding and utilizing machine learning techniques to analyze molding process data, discover optimal molding conditions, and predict and improve product quality. This study aims to identify the key factors influencing the weight defects of injection-molded products and demonstrate the potential use of the double ensemble technique for better prediction accuracy of weight defects. We obtain the key factors influencing weight defects prediction, barrel H2 temp real, metering time, and fill time using gain ratio analysis. Subsequently, we develop single models using machine learning algorithms, including decision tree, random forest, logistic regression, the Bayesian network, and the artificial neural network. Ensemble models, including bagging and boosting and double ensemble models are developed to compare their performance with that of single models. The findings indicate that ensemble models outperform the prediction accuracy of the single models. The double ensemble technique demonstrates the greatest improvements in prediction accuracy over the single models. These results showcase the potential of applying the double ensemble technique to other injection molding areas and suggest that adopting this technique will contribute to establishing other smart factories that will enhance both productivity and cost competitiveness.
2023-11-30 17:12
-
Building a core rule-based decision tree to explain the causes of insolvency in small and medium-sized enterprises more easily
This study proposes a harmonic average of support and confidence method (HSC), which is a new way to select important rules from the many rules in the decision tree and thereby build a core rule-based decision tree (CorDT) that more easily explains the insolvency factors related to small and medium-sized enterprises (SMEs) using the HSC. To this end, an insolvency prediction model for SMEs was developed using a decision tree algorithm and technological feasibility assessment data as non-financial datasets. We divided these datasets into three types, a general type, a technology development type and a toll processing type applying characteristics of SMEs. We also applied a cost-sensitive approach and several data balancing techniques to construct the same proportion of healthy and insolvent company samples in the datasets. As a result, the insolvency prediction model applied using the synthetic minority over-sampling technique (SMOTE), an over-sampling technique, showed the highest performance with an average hit ratio of 77.6%. Next, we selected important rules by applying HSC to the decision trees with the highest performance and built CorDTs for three types of SMEs using the selected rules. Finally, using the developed CorDTs, we explained the causes of insolvency by type of SME and presented insolvency prevention strategies customized to the three types of SMEs.
2023-11-30 17:05
-
Recommending Valuable Ideas in an Open Innovation Community: A Text Mining Approach to Information Overload Problem
Purpose - Open innovation communities are a growing trend across diverse industries because they provide opportunities of collaborating with customers and exploiting their knowledge effectively. Although open innovation communities can be strategic assets that can help firms innovate, firms nonetheless face the challenge of information overload incurred due to the characteristic of the community. The purpose of this paper is to mitigate the problem of information overload in an open innovation environment. Design/methodology/approach - This study chose MyStarbucksIdea. com (MSI) as a target open innovation community in which customers share their ideas. The authors analyzed a large data set collected from MSI utilizing text mining techniques including TF-IDF and sentiment analysis, while considering both term and non-term features of the data set. Those features were used to develop classification models to calculate the adoption probability of each idea. Findings - The results showed that term and non-term features play important roles in predicting the adoptability of ideas and the best classification accuracy was achieved by the hybrid classification models. In most cases, the precisions of classification models decreased as the number of recommendations increased, while the models' recalls and F1s increased. Originality/value - This research dealt with the problem of information overload in an open innovation context. A large amount of customer opinions from an innovation community were examined and a recommendation system to mitigate the problem was proposed. Using the proposed system, the firm can get recommendations for ideas that could be valuable for its business innovation in the idea generation phase, thereby resolving the information overload and enhancing the effectiveness of open innovation.
2023-07-26 22:52
-
Assignment of Collaborators to Multiple Business Problems using Genetic Algorithm
As firms encounter new problems in the fast-changing business environment, they have to find collaborators with problem-solving expertise. Since this optimization problem takes place in a firm as the business environment changes, genetic algorithm (GA), which has shown outstanding performance in obtaining a sub-optimal solution relatively quickly, seems to be the right solution, one that is superior to goal-programming, multi-attribute decision making, and branch and bound. We therefore propose a GA-based approach to solving the problem of assigning collaborators to multiple business problems. Our solution worked well in several experiments.
2023-07-26 22:49
-
Extended Collaborative Filtering Technique for Mitigating the Sparsity Problem
Many online shopping malls have implemented personalized recommendation systems to improve customer retention in the age of high competition and information overload. Sellers make use of these recommendation systems to survive high competition and buyers utilize them to find proper product information for their own needs. However, transaction data of most online shopping malls prevent us from using collaborative filtering (CF) technique to recommend products, for the following two reasons: 1) explicit rating information is rarely available in the transaction data; 2) the sparsity problem usually occurs in the data, which makes it difficult to identify reliable neighbors, resulting in less effective recommendations. Therefore, this paper first suggests a means to derive implicit rating information from the transaction data of an online shopping mall and then proposes a new user similarity function to mitigate the sparsity problem. The new user similarity function computes the user similarity of two users if they rated similar items, while the user similarity function of traditional CF technique computes it only if they rated common items. Results from several experiments using an online shopping mall dataset in Korea demonstrate that our approach significantly outperforms the traditional CF technique.
2023-07-26 22:47
-
An Ontology-Based Co-Creation Enhancing System for Idea Recommendation in an Online Community
Companies have been collecting innovative ideas that can help them to develop new products and services through co-creation with their customers. As more customers participate in suggesting ideas, companies are likely to acquire more valuable ones. At the same time, however, some fundamental problems occur such as managing and selecting useful ideas from a large number of collected ideas. Semantic web mining techniques allow us to manage a large number of customers' ideas effectively, extract meaningful information from the ideas, and provide useful information for idea selection. In order to cope with such problems and enhance the value of co-creation, we propose an ontology-based co-creation enhancing system (OnCES) developed using semantic web mining techniques. To this end, we 1) defined a co-creation idea ontology (CCIO) that includes common concepts related to customers' ideas from MyStarbucksIdea.com, their attributes, and relationships between them; 2) transformed the customers' ideas into semantic data in RDF format according to the CCIO; 3) conducted text mining to extract new knowledge from the ideas such as keywords, the number of positive words, the number of negative words, and the sentiment score; and 4) built prediction models using keywords and other features such as those about customer and idea in order to predict the adoptability of each idea. The results of text mining and prediction analysis were also added to the semantic data. We implemented the OnCES system, which provides useful services such as idea navigation, idea recommendation, semantic information retrieval, and idea clustering, utilizing the stored semantic data while saving the time and effort required to process a huge number of customers' ideas.
2023-07-26 22:39
-
Building and Evaluating a Collaboratively Built Structured Folksonomy
Flat folksonomy uses simple tags and has emerged as a powerful instrument for classifying and sharing a huge amount of knowledge on Web 2.0. However, it has semantic problems, such as ambiguous and misunderstood tags. To alleviate such problems, researchers have built structured folksonomies with a hierarchical structure or relationships among tags. Structured folksonomies, however, also have some fundamental problems, such as limited tagging of pre-defined vocabulary and time-consuming manual effort required to select tags. To resolve these problems, we suggested a new method of attaching a tag with its category, which we call a categorized tag (CT), to web content. CTs entered by users are automatically and immediately integrated into a collaboratively built structured folksonomy (CSF), reflecting the tag-and-category relationships supported by the majority of users. Then, we developed a CT-based knowledge organization system (CTKOS), which builds upon the CSF to classify organizational knowledge and enables us to locate appropriate knowledge. In addition, the results of the evaluation, which we conducted to compare our proposed system with the flat folksonomy system, indicate that users perceive CTKOS to be more useful than the flat folksonomy system in terms of knowledge sharing (i.e. the tagging mechanism) and retrieval (i.e. the searching mechanism).
2023-07-26 22:36
-
CRM Strategies for a Small-Sized Online Shopping Mall Based on Association Rules and Sequential Patterns
As dot-com bubble burst in 2002, an uncountable number of small-sized online shopping malls have emerged every day due to many good characteristics of online marketplace, including significantly reduced search costs and menu cost for products or services and easily accessing products or services in the world. However, all the online shopping malls have not continuously flourished. Many of them even vanished because of the lack of customer relationship management (CRM) strategies that fit them. The objective of this paper is to propose CRM strategies for small-sized online shopping mall based on association rules and sequential patterns obtained by analyzing the transaction data of the shop. We first defined the VIP customers in terms of recency, frequency and monetary (RFM) value. Then, we developed a model which classifies customers into VIP or non-VIP, using various data mining techniques such as decision tree, artificial neural network, logistic regression and bagging with each of these as a base classifier. Last, we identified association rules and sequential patterns from the transactions of VIPs, and then these rules and patterns were utilized to propose CRM strategies for the online shopping mall.
2023-07-26 22:32
-
Classification Cost: An Empirical Comparison Among Traditional Classifier, Cost-Sensitive Classifier, and MetaCost
Loan fraud is a critical factor in the insolvency of financial institutions, so companies make an effort to reduce the loss from fraud by building a model for proactive fraud prediction. However, there are still two critical problems to be resolved for the fraud detection: (1) the lack of cost sensitivity between type I error and type II error in most prediction models, and (2) highly skewed distribution of class in the dataset used for fraud detection because of sparse fraud-related data. The objective of this paper is to examine whether classification cost is affected both by the cost-sensitive approach and by skewed distribution of class. To that end, we compare the classification cost incurred by a traditional cost-insensitive classification approach and two cost-sensitive classification approaches, Cost-Sensitive Classifier (CSC) and MetaCost. Experiments were conducted with a credit loan dataset from a major financial institution in Korea, while varying the distribution of class in the dataset and the number of input variables. The experiments showed that the lowest classification cost was incurred when the MetaCost approach was used and when non-fraud data and fraud data were balanced. In addition, the dataset that includes all delinquency variables was shown to be most effective on reducing the classification cost. (C) 2011 Elsevier Ltd. All rights reserved.
2023-07-26 14:23
-
A Hybrid Online-Product Recommendation System: Combining Implicit Rating-Based Collaborative Filtering and Sequential Pattern Analysis
Many online shopping malls in which explicit rating information is not available still have difficulty in providing recommendation services using collaborative filtering (CF) techniques for their users. Applying temporal purchase patterns derived from sequential pattern analysis (SPA) for recommendation services also often makes users unhappy with the inaccurate and biased results obtained by not considering individual preferences. The objective of this research is twofold. One is to derive implicit ratings so that CF can be applied to online transaction data even when no explicit rating information is available, and the other is to integrate CF and SPA for improving recommendation quality. Based on the results of several experiments that we conducted to compare the performance between ours and others, we contend that implicit rating can successfully replace explicit rating in CF and that the hybrid approach of CF and SPA is better than the individual ones. (C) 2012 Elsevier B. V. All rights reserved.
2023-07-26 14:23
-
A New Similarity Function for Selecting Neighbors for Each Target Item in Collaborative Filtering
As one of the collaborative filtering (CF) techniques, memory-based CF technique which recommends items to users based on rating information of like-minded users (called neighbors) has been widely used and has also proven to be useful in many practices in the age of information overload. However, there is still considerable room for improving the quality of recommendation. Shortly, similarity functions in traditional CF compute a similarity between a target user and the other user without considering a target item. More specifically, they give an equal weight to each of the co-rated items rated by both users. Neighbors of a target user, therefore, are identical for all target items. However, a reasonable assumption is that the similarity between a target item and each of the co-rated items should be considered when finding neighbors of a target user. Additionally, a different set of neighbors should be selected for each different target item. Thus, the objective of this paper is to propose a new similarity function in order to select different neighbors for each different target item. In the new similarity function, the rating of a user on an item is weighted by the item similarity between the item and the target item. Experimental results from MovieLens dataset and Netflix dataset provide evidence that our recommender model considerably outperforms the traditional CF-based recommender model. (C) 2012 Elsevier B.V. All rights reserved.
2023-07-26 14:22
-
A Personalized Trustworthy Seller Recommendation in an Open Market
Although more and more customers are buying products on online stores, they have a difficulty in selecting a both trustworthy and suitable seller who sells a product they want to buy since there is a plenty number of sellers who sell the same product with different options. Therefore, the objective of this research is to propose a personalized trustworthy seller recommendation system for the customers of an open market in Korea. To that end, we first developed a module which classifies sellers into trustworthy one or not using a classification technique such as decision tree, and then developed another module which makes use of the content-based filtering method to find best-matching top k sellers among the selected trustworthy sellers. Experimental results show that our approach is worthwhile to take. This study makes a contribution at least in that to our knowledge it is the first attempt to recommend sellers, not products as done in most other studies, to customers. Crown Copyright (C) 2012 Published by Elsevier Ltd. All rights reserved.
2023-07-26 14:22
-
Classification Model for Detecting and Managing Credit Loan Fraud Based on Individual-Level Utility Concept
As credit loan products significantly increase in most financial institutions, the number of fraudulent transactions is also growing rapidly. Therefore, to manage the financial risks successfully, the financial institutions should reinforce the qualifications for a loan and augment the ability to detect and manage a credit loan fraud proactively. In the process of building a classification model to detect credit loan frauds, utility from classification results (i.e., benefits from correct prediction and costs from incorrect prediction) is more important than the accuracy rate of classification. The objective of this paper is two-fold: (1) to propose a new approach to building a classification model for detecting credit loan fraud based on an individual-level utility, and (2) to suggest customized interest rate for each customer - from both opportunity utility and cash flow perspectives. Experimental results show that our proposed model comes up with higher utility than the fraud detection models which do not take into account the individual-level utility concept. Also, it is shown that the individual-level utility from our model is more accurate than the mean-level utility used in previous researches, from both opportunity utility and cash flow perspectives. Implications of the experimental results from both perspectives are provided.
2023-07-26 14:22
-
Predicting Agricultural and Livestock Products Purchases Using the Internet Search Index and Data Mining Techniques
Purpose This study identifies whether the Internet search index can be used as effective enough data to identify agricultural and livestock product demand and compare the accuracy of the prediction of major agricultural and livestock products purchases between these prediction models using artificial neural network, linear regression and a decision tree. Design/methodology/approach Artificial neural network, linear regression and decision tree algorithms were used in this study to compare the accuracy of the prediction of major agricultural and livestock products purchases. The analysis data were studied using 10-fold cross validation. Findings First, the importance of the Internet search index among the 20 explanatory variables was found to be high for most items, so the Internet search index can be used as a variable to explain agricultural and livestock products purchases. Second, as a result of comparing the accuracy of the prediction of six agricultural and livestock purchases using three models, beef was the most predictable, followed by radishes, chicken, Chinese cabbage, garlic and dried peppers, and by model, a decision tree shows the highest accuracy of prediction, followed by linear regression and an artificial neural network. Originality/value This study is meaningful in that it analyzes the purchase of agricultural and livestock products using data from actual consumers' purchases of agricultural and livestock products. In addition, the use of data mining techniques and Internet search index in the analysis of agricultural and livestock purchases contributes to improving the accuracy and efficiency of agricultural and livestock purchase predictions.
2023-07-26 14:18
-
Predicting the Insolvency of SMEs Using Technological Feasibility Assessment Information and Data Mining Techniques
The government makes great efforts to maintain the soundness of policy funds raised by the national budget and lent to corporate. In general, previous research on the prediction of company insolvency has dealt with large and listed companies using financial information with conventional statistical techniques. However, small- and medium-sized enterprises (SMEs) do not have to undergo mandatory external audits, and the quality of accounting information is low due to weak internal control. To overcome this problem, we developed an insolvency prediction model for SMEs using data mining techniques and technological feasibility assessment information as non-financial information. We divided the dataset into two types of data based on three years of corporate age. The synthetic minority over-sampling technique (SMOTE) was used to solve the data imbalance that occurred at this time. Six insolvency prediction models were created using logistic regression, a decision tree, an artificial neural network, and an ensemble (i.e., boosting) of each algorithm. By applying a boosted decision tree, the best accuracies of 69.1% and 82.7% were derived, and by applying a decision tree, nine and seven influential factors affected the insolvency of SMEs established for fewer than three years and more than three years, respectively. In addition, we derived several insolvency rules for the two types of SMEs from the decision tree-based prediction model and proposed ways to enhance the health of loans given to potentially insolvent companies using these derived rules. The results of this study show that it is possible to predict SMEs insolvency using data mining techniques with technological feasibility assessment information and find meaningful rules related to insolvency.
2021-10-28 11:15
국내논문
-
임베딩 기반 유사도 측정을 통한 수입 물품의 HS 코드 추천 시스템
최근 AI 기술, 특히 ChatGPT와 같은 대규모 언어 모델(LLM)은 인간과 기계 간 상호작용에 큰 변화를 가져왔다. 이러한 AI 모델은 자연어를 이해하고 다양한 데이터 형식을 처리하며 명령을 실행할 수 있다. 한편, 전자상거래와 국제 무역의 급속한 확장으로 인해 세관 당국의 업무량이 증가하면서 정확한 HS 코드 분류는 공정한 관세 부과를 위해 필수적이다. 하지만 수작업 분류는 전문가의 지식이 필요하여 시간과 비용 측면에서 비효율적일 수 있다. 본 연구에서는 SBERT을 활용한 자동 HS 코드 추천 시스템을 제안하였다. SBERT 기반 임베딩을 통해 법령 및 해설서 등 원천 데이터와 테스트 데이터 간 유사도를 측정하여 추가 학습 없이 HS 코드를 추천하는 방식이다. 또한, 실제 사례 데이터를 활용한 비교 분석을 수행하였다. 다양한 SBERT 모델을 적용하여 모델 및 데이터 특성에 따른 정확도를 평가하고, 기존 연구에서 제기된 지속적인 학습 요구와 클래스별 제약 문제를 해결할 방안을 제시하였다. 본 연구의 결과는 AI 기반 HS 코드 분류 및 검색 시스템에 적용되어 세관 행정 업무의 효율성을 높이는 데 기여할 것으로 기대된다.
2025-06-19 13:38
-
초중고 학생의 사교육과 학업성적에 대한 패턴 분석: 의사결정나무 기법을 활용하여
본 연구는 데이터마이닝 기법인 의사결정나무 모형을 적용하여 학업성적과 사교육 간의 관계를 분석하였다. 분석 대상을 초· 중·고 학교급별로 구분하고 이를 상·중·하위권의 학업성적 수준별로 재분류한 후 집단별로 연관 패턴을 도출하였다. 분석 결과, 초 등학생 집단에서는 다양한 분야에서의 사교육 참여가 주요 요인으로는 식별되었으며 이것은 중등 시기부터 주요 교과목으로 집 중하는 패턴을 보였다. 일반고 패턴에서는 사교육 시간, 특성화고에서는 예체능 분야의 사교육비가 주요한 변수였다. 사교육은 공 통적으로 초·중학교 학업성취의 주요한 영향 요인이며, 학업성적 수준이 저조할수록 사교육 참여가 적었고 가정 환경에 따라 학업 성과의 격차가 발생하는 공통점이 있었다. 이와 같이 사교육을 비롯하여 학업성적과 연관된 다양한 요건을 폭넓게 비교 분석하고 시사점을 제시하였다.
2024-09-23 10:14
-
산재보험 빅데이터를 활용한 장해등급 예측 모델 개발
Purpose Prediction model for occupational injuries support more proactive, efficient, and effective policies. This study aims to develop a prediction model for occupational injuries severity, classified into 15 disability grades in South Korea, using machine learning techniques on COMWEL big data. The primary goal is to enhance prediction accuracy, providing a advanced policy tool for early intervention and for evidence-based policy operations. Design/methodology/approach The data analyzed in this study comprises 290,157 administrative records of occupational injuries cases collected from 2018 to 2020 by the Korea Workers' Compensation & Welfare Service, based on the ‘Workers’ Compensation Insurance Application Form’ submitted for occupational injuries treatment. Four machine learning models — Decision Tree, FCNN, XGBoost, and LightGBM — were developed and their performances compared to identify the optimal model. Additionally, the Permutation Feature Importance(PFI) method was employed to estimate the relative contribution of each variable to the performance of the predictive model, thereby identifying key variables. Findings The FCNN algorithm achieved the lowest MAE of 0.7276. Key variables for predicting disability grades included severity index, primary disease code, primary disease site, age at the time of the occupational injuries, and type of industry. This highlights the importance of early policy intervention, and of both medical and socioeconomic factors in model prediction. Academic and policy implications were discussed based on these results.
2024-09-23 10:03
-
서로 다른 문장 구조의 병렬 말뭉치 통합을 통한 기계번역 모델 품질의 향상
최근 AI 기술이 빠르게 발전하면서 이전에는 개발하기 어려웠던 번역기를 민간에서도 비교적 쉽게 만들 수 있게 되었고, 일반적으로 학습 데이터의 양을 늘릴 경우 번역 품질은 향상되는 경향을 보였다. 하지만 뉴스 데이터로 학습된 기계번역 모델은 동일한 뉴스 데이터를 추가 학습해도 정형화되어 있지 않은 뉴스 데이터의 특성으로 인해 번역 모델의 품질 향상 폭이 크지 않다. 이에 본 연구에서는 이러한 뉴스 데이터가 가진 구조적 한계점을 보완하기 위해 정형화된 문장 구조를 가진 특허 데이터를 기계학습 시 학습 데이터에 추가하여 번역 품질을 향상시키고자 하였다. 현재 다양한 문장 구조를 가진 학습 데이터를 조합하여 기계번역 품질을 향상시키는 연구는 많이 이루어지지 않았으며, 대부분의 연구는 학습 데이터 자체의 품질이나 오류율을 최소화하는 데 중점을 두고 있다. 이를 위해 본 연구는 다양한 문장 구조를 가진 뉴스 학습 데이터와 정형화된 문장 구조를 가진 특허 학습 데이터의 비율을 조정하여 다양한 번역 모델을 생성하였고, 생성된 번역 모델의 품질 변화에 대한 분석을 수행하였다. 실험 결과, 뉴스 데이터와 특허 데이터의 비율을 2:8로 조정한 학습 데이터로 생성한 모델의 품질이 가장 좋게 나타났으며, 뉴스 데이터로만 학습한 모델 대비 66.7% 높은 품질을 보이는 것으로 나타났다.
2024-06-20 11:20
-
중소기업 청년재직자의 내일채움공제 중도해지에 관한 예측모형 개발 및 생존분석
본 연구에서는 ‘청년재직자 내일채움공제’ 사업의 행정데이터를 이용해서 중도해지 예측모형을 개발하고 중도해지에 영향을 주는 요인들을 분석하였다. 데이터 분석에는 머신러닝 방법론인 의사결정나무와 통계 방법론인 생존분석을 활용하였다. 그 결과 첫째, 청년재직자 내일채움공제 상품에 대한 미납이 발생하면 중도해지가 발생할 확률이 높았다. 둘째, 중소기업의 규모, 이익, 부채 등 전반적인 경영 상황이 중도해지에 유의한 영향을 미쳤다. 셋째, 소규모 중소기업일수록 입사 기간이 짧은 청년재직자가 중도해지하는 경향이 높은 것으로 나타났다. 이를 바탕으로 정책적 개선 방안 및 시사점을 제시하였다
2024-04-01 10:50
-
산재근로자 특성별 직업복귀와 재활서비스 간의 연관 패턴 분석: 2018-2020년 행정데이터를 중심으로
본 연구는 2018~2020년 행정데이터를 활용하여 산재근로자 29만여 명의 특성과 재활서비스를 제공 받은 현황을 살펴보고, 이들을 유사성을 공유하는 8개의 군집들로 분류·분석하였다. 다음으로 군집별 산재근로자의 직업복귀와 재활서비스 간의 연관 패턴을 추정함으로써 유사 집단의 직업복귀에 유의한 연관성이 관련이 있는 재활서비스의 조합을 도출하였다. 분석 결과 첫째, 재활서비스는 모든 군집에서 직업복귀 성공 확률을 유의하게 향상시켰다. 특히 불안정한 일자리의 근로자가 재활서비스를 통해서 안정적인 제도권 내로 편입하고 이것이 직업복귀라는 긍정적 성과로 귀결됨을 보여주었다. 둘째, 사고성 및 질병성 재해의 유형에 따라서 제공되는 재활서비스 패턴의 차이가 있음을 확인하였다. 셋째, 산재 재활서비스는 이용 빈도와 연관 패턴의 식별 여부에 의하여 3가지 카테고리로 재분류되었다. 넷째, 산재 재활서비스가 제공되는 지형은 운영기관과 개별 산재근로자 간의 단편적인 관계 속에서 진행되는 재활서비스, 또는 당연 절차로 진행되거나 저비용 수단인 경우에 치우치는 경향이 있었다. 고비용 서비스, 적극적으로 노동시장에 개입하는 정책에 대해서는 산재근로자의 접근성이 낮았다.
2024-01-03 11:35
-
기침 소리의 다양한 변환을 통한 코로나19 진단 모델
2019년 11월 중국 우한시에서 발병한 코로나19는 2020년 중국을 넘어 세계로 퍼져나가 2020년 3월에는 전 세계적으로 확산되었다. 코로나19와 같이 전염성이 강한 바이러스는 예방과 확진시 적극적인 치료도 중요하지만 우선 전파 속도가 빠른 바이러스인 점을 감안할 때, 확진 사실을 재빠르게 파악하여 전파를 차단하는 것이 더욱 중요하다. 그러나 감염여부를 확인하기 위한 PCR검사는 비용과 시간이 많이 소요되고, 자가키트검사 또한 접근성은 쉽지만 매번 수시로 받기에는 키트의 가격이 부담이 될 수밖에 없는 실정이다. 이러한 상황에서 기침 소리를 기반으로 코로나19 양성 여부를 판단할 수 있게 된다면 누구나 쉽게 언제, 어디서든 확진 여부를 체크할 수 있어 신속성과 경제성 측면에서 큰 장점을 가질 수 있을 것이다. 따라서 본 연구는 기침 소리를 기반으로 코로나19 확진 여부를 식별할 수 있는 분류 모델을 개발하는 것을 목적으로 하였다. 이를 위해, 본 연구에서는 먼저 MFCC, Mel-Spectrogram, Spectral contrast, Spectrogram 등을 통해 기침 소리를 벡터화 하였다. 이 때, 기침 소리의 품질을 위해 SNR을 통해 잡음이 많은 데이터는 삭제하였고, chunk를 통해 음성파일에서 기침 소리만 추출하였다. 이후, 추출된 기침 소리의 feature를 이용하여 코로나 양성과 음성을 분류하기 위한 모델을 구축하였으며, XGBoost, LightGBM, FCNN 알고리즘을 통해 모델 학습을 수행하고 각 알고리즘별 성능을 비교하였다. 또한, 기침 소리를 다차원 벡터로 변환한 경우와, 이미지로 변환한 경우에 대해 모델 성능에 대한 비교 실험을 수행하였다. 실험 결과, 건강상태에 대한 기본정보와 기침 소리를 MFCC, Mel-Spectogram, Spectral contrast, 그리고 Spectrogram을 통해 다차원 벡터로 변환한 feature를 모두 활용한 LightGBM 모델이 0.74의 가장 높은 정확도를 보였다.
2023-08-04 11:19
-
산재근로자들의 고용안정과 건강한 삶을 위한 데이터마이닝 기반의 규칙 도출 연구
본 연구에서는 산재 후 직업복귀율 제고와 안정적 직업복귀의 중요한 요인인 건강상태의 증진을 위해 데이터 마이닝 기법 중 하나인 의사결정나무 알고리즘을 활용하여 원직장 복귀가능 여부, 취업가능여부, 산재이전 대비 건강상태를 예측하는 모델들을 구축하고 분석하였다. 그 결과, 원직장 복귀가능 여부 예측에는 최종적으로 13개의 변수가 영향력이 높은 변수로 선정되었고, 이들 중 가장 영향력이 높은변수는 요양 중 사업주 및 사업장 인사노무 관련자와의 관계 유지 여부로 나타났다. 취업가능 여부 예측에는 영향력이 높은 8개의 변수가 최종 선정되었고, 가장 영향력이 높은 변수는 요양종료 이후 받은교육 및 직업훈련 경험으로 나타났다. 마지막으로 산재이전 대비 건강상태 예측에는 최종적으로 영향력이 높은 4개의 변수가 선정되었고, 가장 영향력이 높은 변수는 치료기간의 적정 여부로 나타났다. 본연구의 결과는 산재근로자의 고용안정과 건강한 삶을 위한 맞춤형 지원서비스 제공 방안 수립에 도움을 줄 것으로 기대된다.
2023-07-26 23:05
-
국민건강영양조사를 활용한 대사증후군 유병 예측모형 개발을 위한 융복합 연구: 데이터마이닝을 활용하여
이 연구의 목적은 국민건강영양조사 2012년 자료 중 40세 이상 성인의 대사증후군 유병 여부를 예측에 영향을 미치는 변수를 확인하고 이를 예측하는 모형 개발하는데 있다. 선행연구를 통해 모델 생성에 필요한 투입변수를 선정하였다. 연구결과 투입변수 중 사회경제적 요인이 상위 순위에 해당하였으며, 건강행위 요인의 경우 하위 순위로 나타났다. 또한, 최종 예측모형은 의사결정나무 (Decision Tree)일 경우 90. 32%의 가장 높은 예측력을 나타내고 있었다. 이 연구의 결과는 다음과 같은 시사점을 나타낸다. 먼저, 대사증후군에 대한 예방 및 관리에 있어 건강행위에 대한 접근과 함께 사회경제적 요인에 대한 접근도 병행을 고려해야 한다. 또한, 의사결정나무 알고리즘의 경우 결과해석의 용이성이 있어 보건의료분야에서 많이 사용되며, 선행연구의 결과와 마찬가지로 높은 예측정확도를 나타내고 있다.
2023-07-26 23:03
-
데이터 마이닝과 생존분석을 이용한 취업성과 영향요인 및 요인 간 패턴도출: 가족배경과 개인특성의 관점에서
최근 우리 사회에서는 수저계급론이라는 말이 이슈화되면서 든든한 가족배경이 없이는 삶의 질을보장받을 수 없는 시대라는 것에 젊은 세대들은 절망감을 표하고 있는 실정이다. 이러한 현실에대한 인식 속에서 본 연구는 가족배경이 취업성과에 대해 어느 정도의 영향력을 가지고 있고, 개인의 다 른 특성들과는 어떠한 연관성을 갖 고 있으며, 이러한 현실을 벗어나기 위해서는 어떠한 노력들이 필요한지에 대해 살펴보고자 하였다. 이를 위해, 취업의 성과를 주관적 지표인 일자리 만족도와 객관적 지표인 졸 업 후 취업까지의 소요기간 두 관점에서 바라보면서 가족배경과개인특성이 서 로 어떠한 연관성을 가지고 두 가 지 취업성과에 영향을 미치는지 분석하였다. 분석결과, 개인의 특성이라고 할 수 있는 요인들은 괜찮은 일자리로의 취업에 직접적인 영향을 주는것으로 나타났고, 부모의 학력은 괜찮은 일자리 취업을 위한 개인 노력의 양에 영향을 줄 수 있는것으로 나타났다. 본 연구의 결과는 현실에 대 한 인식에서 한 발 짝 더 나아가 현실을 개선하기위 한 방안을 모색해 나가는 데 중요한 역할을 할 것이라 기대한다.
2023-07-26 23:02
-
산재근로자의 원직장 복귀 후 지속적인 고용유지를 위한 데이터 마이닝 기반의 주요 요인 및 패턴 도출 연구
본 연구에서는 제3차 산재보험패널 데이터에 다차원 분석이 용이한 데이터 마이닝 기법 중 하나인 의사결정나무 알고리즘을 적용하여 원직장 복귀 후 고용유지에 영향을 주는 요인들과 요인들 간의 관계를 분석하였다. 이러한 직장 복귀 이후의 안정적인 고용유지는 산재근로자의 성공적인 직장복귀에 필수적인 요소임에도 불구하고 직장 복귀에 비해 현재 고용유지를 위한 노력과 관심은 부족한 실정이며, 직장 복귀 측면에서 산재로 인한 요양 종결 이후 산재이전에 근무했던 원직장으로 복귀하는 것은 타직장으로 복귀하는 것에 비해 산재근로자에게 양질의 근로조건을 제공해 줄 수 있다고 판단된다. 분석결과, 최종 11개 변수들이 원직장 복귀 후 고용유지에 영향을 미치는 중요한 요인들인 것으로 나타났으며, 최종 12개의 고용유지 관련 패턴이 도출되었다. 본 연구는 원직장 복귀 후고용유지에 영향을 주는 요인들과 요인들 간 관계를 파악하기 위해 고용유지에 영향을 줄 것으로여겨지는 다양한 변수들을 고려하였다는 점과 고용유지에 도움을 주는 패턴들을 도출하였다는 점에서 의의를 찾을 수 있다. 향후 도출된 패턴들은 원직장에 복귀한 산재근로자의 고용을 지속적으로유지하기 위한 방안 수립에 도움을 줄 것으로 기대된다.
2023-07-26 23:01
-
자동차 재구매 증진을 위한 데이터 마이닝 기반의 맞춤형 전략 개발
Purpose Although automobile production has increased since the development of the Korean automobile industry, the number of customers who can purchase automobiles decreases relatively. Therefore, automobile companies need to develop strategies to attract customers and promote their repurchase behaviors. To this end, this paper analyzed customer data from a Korean automobile company using data mining techniques to derive repurchase strategies. Design/methodology/approach We conducted under-sampling to balance the collected data and generated 10 datasets. We then implemented prediction models by applying a decision tree, naive Bayesian, and artificial neural network algorithms to each of the datasets. As a result, we derived 10 patterns consisting of 11 variables affecting customers’ decisions about repurchases from the decision tree algorithm, which yielded the best accuracy. Using the derived patterns, we proposed helpful strategies for improving repurchase rates. Findings From the top 10 repurchase patterns, we found that 1) repurchases in January are associated with a specific residential region, 2) repurchases in spring or autumn are associated with whether it is a weekend or not, 3) repurchases in summer are associated with whether the automobile is equipped with a sunroof or not, and 4) a customized promotion for a specific occupation increases the number of repurchases.
2023-07-26 22:59
-
성공적인 BSC도입 및 운영을 위한 변화관리 진단 모델 개발과 적용사례
최근 많은 조직들은 전략적 성과관리시스템인 BSC(Balanced Scorecard)를 도입하고 운영하기 위해 많은 노력을 기울이고 있다. BSC의 적용은 하나의 혁신 도구로서 조직 내에 많은 변화를 수반하게 되는데, BSC의 성공적인 구축과 운영을 위해서는 이러한 변화들을 효과적으로 관리하는 것은 필수적이다. 따라서 본 연구에서는 BSC의 구축 및 운영 과정에서 변화관리 활동들이 조직 내에서 효과적으로 수행되고 있는지를 진단할 수 있는 변화관리 진단 모델을 제시하고자 한다. 본 연구에서는 BSC 실행 과정을 계획, 전략수립, 개발, 운영과 같은 4단계로 규정하고, 각 단계에서 요구되는 변화관리 활동들과 각각의 활동별 진단항목들로 구성된 모델을 제시한다. 또한, 본 연구에서는 BSC의 실행 단계별로 변화관리에 도움이 되는 추천 활동들에 대한 가이드라인도 제공한다. 이러한 연구 결과는 조직들이 BSC를 구축 및 운영하는 과정에서 겪을 수 있는 시행착오를 최소화하고 그 기대 효과를 극대화하는 데 유용하게 활용될 수 있을 것으로 기대된다. 본 연구에서는 제시한 모델의 적용성을 검토하기 위해, 실제 적용했던 사례도 소개한다
2023-07-26 14:25
-
Classification and Sequential Pattern Analysis for Improving Managerial Efficiency and Providing Better Medical Service in Public Healthcare Centers
Objectives: This study sought to find answers to the following questions: 1) Can we predict whether a patient will revisit a healthcare center? 2) Can we anticipate diseases of patients who revisit the center? Methods: For the first question, we applied 5 classification algorithms (decision tree, artificial neural network, logistic regression, Bayesian networks, and Naïve Bayes) and the stacking-bagging method for building classification models. To solve the second question, we performed sequential pattern analysis. Results: We determined: 1) In general, the most influential variables which impact whether a patient of a public healthcare center will revisit it or not are personal burden, insurance bill, period of prescription, age, systolic pressure, name of disease, and postal code. 2) The best plain classification model is dependent on the dataset. 3) Based on average of classification accuracy, the proposed stacking-bagging method outperformed all traditional classification models and our sequential pattern analysis revealed 16 sequential patterns. Conclusions: Classification models and sequential patterns can help public healthcare centers plan and implement healthcare service programs and businesses that are more appropriate to local residents, encouraging them to revisit public health centers.
2023-07-26 14:24
-
New Collaborative Filtering Based on Similarity Integration and Temporal Information
As personalized recommendation of products and services is rapidly growing in importance, a number of studies provided fundamental knowledge and techniques for developing recommendation systems. Among them, the CF technique has been most widely used and has proven to be useful in many practices. However, current collaborative filtering (CF) technique has still considerable rooms for improving the effectiveness of recommendation systems: 1) a similarity function most systems use to find so‐called like‐minded people is not well defined in that similarity is computed from a single perspective of similarity concept; and 2) temporal information that contains the changing preference of customers needs to be taken into account when making recommendations. We hypothesize that integration of multiple aspects of similarity and utilization of temporal information will improve the accuracy of recommendations. The objective of this paper is to test the hypothesis through a series of experiments using MovieLens data. The experimental results show that the proposed recommendation system highly outperforms the conventional CF‐based systems, confirming our hypothesis.
2023-07-26 14:24
-
Detecting Credit Loan Fraud Based on Individual-Level Utility
As credit loan products significantly increase in most financial institutions, the number of fraudulent transactions is also growing rapidly. Therefore, to manage the financial risks successfully, the financial institutions should reinforce the qualifications for a loan and augment the ability to detect a credit loan fraud proactively. In the process of building a classification model to detect credit loan frauds, utility from classification results (i.e., benefits from correct prediction and costs from incorrect prediction) is more important than the accuracy rate of classification. The objective of this paper is to propose a new approach to building a classification model for detecting credit loan fraud based on an individual-level utility. Experimental results show that the model comes up with higher utility than the fraud detection models which do not take into account the individual-level utility concept. Also, it is shown that the individual-level utility computed by the model is more accurate than the mean-level utility computed by other models, in both opportunity utility and cash flow perspectives. We provide diverse views on the experimental results from both perspectives.
2023-07-26 14:23
-
머신러닝 기법을 이용한 납축전지 열화 예측 모델 개발
현재 전세계 배터리 시장은 이차전지 개발에 박차를 가하고 있는 실정이지만, 실제로 소비되는 배터리 중 가격 대비 성능이 좋고 재충전을 통해 다시 재사용이 가능한 납축전지(이차전지)의 소비가 광범위하게 이루어지고 있다. 하지만 납축전지는 복합적 셀(cell)을 묶어 하나의 배터리를 구성하여 활용하는 배터리의 특성상 하나의 셀에서 열화가 발생하면 전체 배터리의 손상을 가져와 열화가 빨리 진행되는 문제가 존재한다. 이를 극복하기 위해 본 연구는 기계학습을 통한 배터리 상태 데이터를 학습하여 배터리 열화를 예측할 수 있는 모델을 개발하고자 한다. 이를 위해 실제 현장에서 배터리 상태를 지속적으로 모니터링 할 수 있는 센서를 골프장 카트에부착하여 실시간으로 배터리 상태 데이터를 수집하고, 수집한 데이터를 이용하여 기계학습 기법을 적용한 분석을 통해 열화 전조 현상에 대한 예측 모델을 개발하였다. 총 16,883개의 샘플을 분석 데이터로 사용하였으며, 예측 모델을 만들기 위한 알고리즘으로 의사결정나무, 로지스틱, 베이지언, 배깅, 부스팅, RandomForest를 사용하였다. 실험 결과, 의사결정나무를 기본 알고리즘으로 사용한 배깅 모델이 89.3923%이 가장 높은 적중률을 보이는 것으로 나타났다. 본 연구는 날씨와 운전습관 등 배터리 열화에 영향을 줄 수 있는 추가적인 변수들을 고려하지 못했다는 한계점이 있으나, 이는 향후 연구에서 다루고자 한다. 본 연구에서 제안하는 배터리 열화 예측모델은 배터리 열화의 전조현상을 사전에 예측함으로써 배터리 관리를 효율적으로 수행하고 이에 따른 비용을획기적으로 줄일 수 있을 것으로 기대한다.
2023-07-26 14:21
-
영화 흥행에 영향을 미치는 새로운 변수 개발과이를 이용한 머신러닝 기반의 주간 박스오피스 예측
2013년 누적인원 2억명을 돌파한 한국의 영화 산업은 매년 괄목할만한 성장을 거듭하여 왔다. 하지만 2015 년을 기점으로 한국의 영화 산업은 저성장 시대로 접어들어, 2016년에는 마이너스 성장을 기록하였다. 영화산업을 이루고 있는 각 이해당사자(제작사, 배급사, 극장주 등)들은 개봉 영화에 대한 시장의 반응을 예측하고 탄력적으로 대응하는 전략을 수립해 시장의 이익을 극대화하려고 한다. 이에 본 연구는 개봉 후 역동적으로 변화하는 관람객 수요 변화에 대한 탄력적인 대응을 할 수 있도록 주차 별 관람객 수를 예측하는데 목적을 두고 있다. 분석을 위해 선행연구에서 사용되었던 요인 뿐 아니라 개봉 후 역동적으로 변화하는 영화의 흥행순위, 매출점유율, 흥행순위 변동 폭 등 선행연구에서 사용되지 않았던 데이터들을 새로운 요인으로 사용하고 Naive Bays, Random Forest, Support Vector Machine, Multi Layer Perception등의 기계학습 기법을 이용하여 개봉 일 후, 개봉1주 후, 개봉 2주 후 시점에는 차주 누적 관람객 수를 예측하고 개봉 3주 후 시점에는 총 관람객 수를 예측하였다. 새롭게 제시한 변수들을 포함한 모델과 포함하지 않은 모델을 구성하여 실험하였고 비교를 위해 매 예측시점마다 동일한 예측 요인을 사용하여 총 관람객 수도 예측해보았다. 분석결과 동일한 시점에 총 관람객 수를예측했을 경우 보다 차주 누적 관람객 수를 예측하는 것이 더 높은 정확도를 보였으며. 새롭게 제시한 변수들을포함한 모델의 정확도가 대부분 높았으며 통계적으로 그 차이가 유의함으로써 정확도에 기여했음을 확인할 수있었다. 기계학습 기법 중에는 Random Forest가 가장 높은 정확도를 보였다.
2023-07-26 14:21
-
산재근로자의 작업능력 회복 정도를 예측하기 위한 중증도 지수 개발
본 연구는 산재환자들에게 체계적인 요양 및 재활서비스를 제공하기 위해 산재환자의 상병 상태에 대한 경중(輕重)을 나타낼 수 있는 중증도 지수를 개발하는 것을 목적으로 한다. 이를 위해 본 연구에서는 기존에 많은 의료기관들에서 사용되어 오던 중증도 지수인 ICISS에 기반하여, ICISS의 한계점을 보완하고 산재환자의 특성을 반영하고자 근로복지공단에 축적된 산재환자의 상병, 최종장해등급, 나이, 질병 구분 등에 대한 데이터를 바탕으로 산재환자에게 특화된 중증도 지수를 개발하였다. 실험결과, 유형별로 60% ∼ 75.9%의 우수한 예측률을 보이는 것으로 나타났다. 본 연구에서 개발한 산재근로자 맞춤형 중증도 지수는 산재근로자의 상병 상태에 대한 이해를 높여주고, 요양 및 상담의 기초자료를 제공해줌으로써 재활서비스 대상자 선정기준, 휴면 보험급여 찾아주기를 통한 산재근로자 권리보호, 자원의 효율적 배분, 산재보험 부정수급 가능성이 높은 자 식별 등 다양하게 활용될 것으로 기대된다.
2023-07-26 14:20
-
HS 코드 분류를 위한 CNN 기반의 추천 모델 개발
현재 운영되고 있는 관세신고납부제도는 납세의무자가 세액 산정을 스스로하고 그 세액을 본인 책임으로 납부하도록 하는 제도이다. 다시 말해, 관세법상 신고 납부제도는 납세액을 정확히 계산해서 납부할 의무와 책임이 온전히 납세의무자에게 무한정으로 부과하는 것을 원칙으로 하고 있다. 따라서, 만일 납세의무자가 그 의무와 책임을 제대로 행하지 못했을 경우에는 부족한 만큼의 세액 추징과 그에 대한 제제로가산세를 부과하고 있다. 이러한 이유로 세액 산정의 기본이 되는 품목분류는 관세평가와 함께 가장 어려운 부분이며 잘못 분류하게 되면 기업에게도 큰 리스크가 될 수도 있다. 이러한 이유로 관세전문가인 관세사에게 상당한 수수료를 지불하면서 수입신고를 위탁하여 처리하고 있는 실정이다. 이에 본 연구에서는 수입신고 시 신고하려는 품목이 어떤 것인지 HS 코드 분류를 하여 수입신고 시 기재해야 할 HS 코드를 추천해 주는데 목적이 있다. HS 코드 분류를 위해 관세청 품목분류 결정 사례를 바탕으로 사례에 첨부된 이미지를 활용하여 HS 코드 분류를 하였다. 이미지 분류를 위해 이미지 인식에 많이 사용되는 딥러닝 알고리즘인 CNN을 사용하였는데, 세부적으로 CNN 모델 중 VggNet(Vgg16, Vgg19), ResNet50, Inception-V3 모델을 사용하였다. 분류 정확도를 높이기 위해 3개의 dataset을 만들어 실험을 진행하였다. Dataset 1은HS 코드 이미지가 가장 많은 5종을 선정하였고 Dataset 2와 Dataset 3은 HS 코드 2단위 중 가장 데이터샘플의 수가 많은 87류를 대상으로 하였으며, 이 중 샘플 수가 많은 5종으로 분류 범위를 좁혀 분석하였다. 이 중 dataset 3로 학습시켜 HS 코드 분류를 수행하였을 때 Vgg16 모델에서 분류 정확도가 73.12%로가장 높았다. 본 연구는 HS 코드 이미지를 이용해 딥러닝에 기반한 HS 코드 분류를 최초로 시도하였다는점에서 의의가 있다. 또한, 수출입 업무를 하고 있는 기업이나 개인사업자들이 본 연구에서 제안한 모델을참조하여 활용할 수 있다면 수출입 신고 시 HS 코드 작성에 도움될 것으로 기대된다.
2023-07-26 14:20
-
수입물품의 HS 코드 자동 분류를 위한 자연어처리 기반의 딥러닝 모델 개발
관세법에는 수입물품에 대해 물주가 직접 품목분류를 하고 신고한 HS코드의 세율에 따라 관세를 납부하게 되어 있다. 하지만 급격한 산업환경의 변화와 무역팽창, 융복합 신상품의 출현 등으로 인해 품목분류에 대한 물주의 지식이 부족해졌고 이에 따른 오류신고로 국내외에서 많은 마찰이 발생하고 있다. 이에 본 연구는 자동으로 HS코드를 분류할 수 있는 자연어처리 기반의 딥러닝 모델을 구축하였다. 본 연구에서 제안하는 모델은 수입물품의 품명 정보만을 바탕으로 워드 임베딩과 딥러닝 기법을 통해 수입물품의 HS코드를 물주에게 추천해줌으로써, 손쉬운 품목분류 가능하게 하여 물주의 부대 경비 감소 및 정확한 수입신고를 통한 국가세수 재정의 안정적 확보에 큰 도움을 줄 것으로 기대된다.
2023-07-26 14:19
-
한국 중고령자의 은퇴 결정요인 분석: 은퇴 패턴과 소요 기간을 중심으로
한국 사회에서 중·고령자의 은퇴는 정년제와 같이 공식적인 은퇴 연령을 맞이하여 이행되거나 고령·건강 등 개인의 사유로 노동시장을 완전히 이탈하는 경우 등의 유형으로 정리된다. 본 연구는 ‘고령화 연구 패널 조사(KLoSA) 자료를 이용하여 55세 이상 중·고령자의 은퇴를 분석하였다. 의사결정나무모형을 활용하여 2년 이내의 은퇴에 관하여 분석한 후, Kaplan-Meier 방법을 통해 12년 이내 이행하는 은퇴를 분석하였다. 그 결과 은퇴를 결정하는 요인은 생물학적 노화와 고용 특성으로 검증되었으며, 후자는 고용 안정성과 전문성 등이 관련된 요인으로 나타났다. 본 연구의 결과는 안정적인 은퇴 계획 및 지원 정책 수립에 도움을 줄 것으로 기대된다.
2023-07-26 14:19
-
산재근로자의 지역별 위험도 관리를 위한 산재 취약지수 개발
본 연구에서는 산재보험 데이터를 분석하여 지역별 근로자들이 산재 위험에 얼마나 노출되어 있는지를 파악할 수 있게 해주는 산재 취약지수를 개발하는 데 목적이 있다. 이를 위해 기존의 지수 개발방법론을 참조하여 지수사용 목적 정립, 후보지표 특성분석, 지표 선정, 지수 산정, 시뮬레이션, 적용 및 개선사항 도출 단계로 구성된 산재 취약지수 개발방법론을 제안하였다. 그 후, 제안된 개발방법론에 따라 산재 취약지수를 개발하였으며, 특정 지역의 상병 유형과 지역별 산재노출 정도와 같은 산재정보들을 복합적으로 분석하여 산재 취약지수를 계량화하였다는 점에서 연구의 의의를 찾을 수 있다. 본 연구에서 개발된 산재 취약지수는 지역별 산업재해에 의한 직업성 질병, 상병 유형 등을 비교하거나 산재 예방을 위한 지역 산업의 위험도를 분석할 때 활용될 것으로 기대된다.
2023-07-26 14:18
-
텍스트 마이닝과 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 개발
가짜 뉴스는 정보화 시대라는 현대사회의 특성에 의해 진위 여부의 검증과는 상관없이 빠른 속도로 확대, 재생산되어 퍼진다. 전체 뉴스의 1%를 가짜라고 가정했을 경우 우리사회에 미치는 경제적 비용이 30조 원에 달한다고 하니 가짜 뉴스는 사회적, 경제적으로 매우 중요한 문제라고 할 수 있다. 이에 본 연구는 뉴스의 진위 여부를 신속하고 정확하게 확인하고자 자동화된 가짜 뉴스 탐지 모델을 개발하는데 목적을 두고 있다. 이를 위해 본 연구에서는 크롤링(crawling)을 통해 진위 여부가 밝혀진 뉴스 기사를 수집하였고, 워드 임베딩(Word2Vec, Fasttext)과 딥러닝 기법(LSTM, BiLSTM)을 이용하여 가짜 뉴스 예측 모델을 개발하였다. 실험 결과, Word2Vec과 BiLSTM의 조합이 가장 높은 84%의 정확도를 보였다.
2023-07-26 14:17
-
산재보험 빅데이터를 활용한 산재 모니터링 지리정보시스템 개발
Purpose This study aims to develop a work-related injury and illness monitoring geographic information system that analyzes and visualizes the types of work-related injury and illness based on workers’ compensation insurance big data.Design/methodology/approach Using the developed system, we explained the process of monitoring the areas of the applied workplace, medical care application, index, and medical care institution. We also showed examples of analyzing the index and medical care institution area. By applying the system, we can intuitively recognize the current status of workers’ compensation insurance and confirm the basic information necessary for managing the current status of workers’ compensation insurance.Findings We generated more helpful information by combining workers’ compensation insurance data and designated medical care institution data. We were able to apply the severity score and the vulnerability index of work-related injury and illness to the system as a demonstration. To efficiently manage workers’ compensation insurance, it was necessary to integrate workers’ compensation insurance and designated medical care institution data, as well as the data from various sources.
2023-07-26 14:17
-
1인 창조기업의 지속가능성 영향요인 및 패턴 분석
전 세계적인 경제성장 둔화로 인해 젊은 세대의 취업 문제가 장기화되고 있고, 점차 고령화 사회로 진입하면서 많은 사람들이 이전보다 더 오랜기간 동안 경제 활동을 필요로 하는 상황이 되었다. 이러한 어려움을 해결하기 위해 새로운 일자리 발굴을 위한 많은 노력들이 이루어지고 있고, 일자리 창출을 위한 하나의 방안으로 창업에 대한 관심이 높아지고 있다. 본 연구는 1인 창조기업의 지속가능성에 영향을 미치는 요인들을 도출하고, 요인들 간 패턴을 분석함으로써, 1인 창조기업 육성 방안을 마련하기 위한 정책 수립에 도움을 주는 것을 목적으로 하였다. 이를 위해 본 연구에서는 MDIS(Micro Data Integration Service)에서 제공하는 1인 창조기업 데이터를 분석에 사용하였으며, 의사결정 나무 기법을 활용하여, 1인 창조기업의 지속적인 사업 운영 여부를 예측하는 모델을 개발하였다. 또한, 순열 특징 중요도 알고리즘을 이용하여 1인 창조기업의 지속가능성에 영향을 미치는 주요 요인들을 도출하였다. 그 결과 1인 창조기업 지속가능성과 관련된 8개의 패턴이 도출되었고, 1인 창조기업의 지속가능성에 영향을 미치는 주요 요인들은 ‘월소득’, ‘종사자수_합계’, ‘매출액’, ‘당기순이익’, 그리고 ‘1인 창조기업 해당 인지 여부’인 것으로 나타났다. 본 연구의 결과는 1인 창조기업 지원을 위한 향후 정책 수립 시 도움을 줄 수 있을 것으로 기대된다.
2023-07-26 14:17
-
인코더와 디코더에 기반한 합성곱 신경망과 순환 신경망의 새로운 하이브리드 접근법
빅데이터 시대를 맞이하여 인공지능 분야는 괄목할만한 성장을 보이고 있으며 특히 딥러닝에 의한이미지 분류 학습방법이 중요한 영역으로 자리하고 있다. 이미지 분류에서 많이 사용되어 온 CNN의성능을 더욱 개선하기 위해 다양한 연구가 활발하게 진행되었는데, 이 중에서 대표적인 방법이CRNN(Convolutional Recurrent Neural Network) 알고리즘이다. CRNN 알고리즘은 이미지 분류를 위한CNN과 시계열적 요소를 인식하기 위한 RNN의 조합으로 구성되는데, CRNN의 RNN영역에서 사용하는입력값은 학습 대상의 이미지를 합성곱과 풀링 기법을 적용하여 추출된 결과물을 flatten한 값이고, 이 입력값들은 이미지 내 동일 위상에 있는 픽셀값들이 서로 다른 순서로 나타나기 때문에, RNN에서의도한 이미지 내 배열 순서를 제대로 학습하기 어렵다는 한계점을 지닌다. 따라서 본 연구는 인코더와디코더의 개념을 응용한 CNN과 RNN의 새로운 하이브리드 방법을 제안하여, 이미지 분류 성능을향상시키는 것을 목적으로 하였다. 본 연구에서는 다양한 알고리즘 비교 실험을 통해, 새로운 하이브리드방법의 효과성을 검증하였다. 본 연구는 인코더와 디코더 개념의 적용 가능성을 넓히고, 제안한 방법이기존 하이브리드 방법에 비해, 복잡도가 크게 증가하지 않아 모델 학습 시간과 인프라 구축 비용측면에서 이점을 있다는 점에서 학문적 시사점을 가진다. 또한, 정확한 이미지 분류가 필요한 다양한분야에서 제공되는 서비스의 품질을 높일 수 있는 가능성을 제시하였다는 점에서 실무적 시사점을가진다.
2023-07-26 14:16
-
수입물품의 품목 분류를 위한 멀티모달 표현 학습
우리나라 관세청은 효과적인 원스톱(One-stop) 업무 처리가 가능한 전자통관 시스템으로 효율적으로 업무처리를 하고 있지만 기술의 발달과 비대면 서비스의 증가로 매년 수출입건수가 증가하고 있으며 그에 따른 업무량도 폭증하고 있는 실정으로 이에 따른 보다 효과적인 방법이 매우 필요하다. 수입과 수출은 모든 물품에 대한 분류 및 세율 적용을 위한 HS Code(Harmonized system code)가 필요하고 해당 HS Code를 분류하는 품목 분류는 전문지식과 경험이 필요한 업무 난이 도가 높고 관세 통관절차에서 중요한 부분이다. 이에 본 연구는 품목 분류 의뢰서의 물품명, 물품상세설명, 물품 이미지 등의 다양한 유형의 데이터 정보를 활용하여 멀티모달 표현 학습(Multimodal representation learning) 기반으로 정보를 잘반영할 수 있도록 딥러닝 모델을 학습 및 구축하여 HS Code를 분류 및 추천해 줌으로써 관세 업무 부담을 줄이고 신속한 품목 분류를 하여 통관절차에 도움을 줄 것으로 기대한다.
2023-07-26 14:16
-
기계학습을 이용한 추가상병 특성 분석
본 연구는 추가상병 신청 실태에 대한 다각적인 전문통계분석을 통해 산재근로자에게는 적정 요양서비스를 제공하고, 보험 범죄와 관련하여 제도적으로 취약한 부문에 대하여는 제도개선을 위한 정책지원 기초자료를 제공하는 것을 목적으로 한다. 이를 위해, 본 연구에서는 승인 상병 간 연관(association rule) 및 순차패턴(sequential pattern) 분석을 실시하였고, 장해 유무 및 장해등급 예측 모델을 개발하였다. 분석 결과, 최초 승인 상병 간 연관패턴 180개와 최초·추가 승인 상병 간 순차패턴 133개가 도출되었고, 장해 유무 예측 모델은 80.3%의 적중률을 보였고, 장해등급 예측 모델은 오차 값(MAE) 1.5를 보였다. 본 연구의 결과는 추가상병 신청 및 요양 실태에 대한 다양한 정보를 제공함으로써 추가상병 관련 부정수급 개연성이 높은 산재근로자와 의료기관에 대한 관리 및 추가상병 제도 개선에 활용될 수 있을 것으로 기대된다
2021-10-28 02:00
-
LDA 토픽 모델링과 Word2vec을 활용한 유사 특허문서 추천연구
4차 산업혁명 시대의 시작과 함께 다양한 분야의 기술들이 서로 융합하며 새로운 형태의 기술과 제품들이 개발되고 있으며, 이와 더불어 그것들에 대한 시장 지배력을 갖기 위한 지식 재산권의 행사나 특허등록의 중요성이 높아지고 있어 국내는 물론 해외에서의 특허출원이 증가하고 있다. 이에 따라, 심사관 1인당 처리해야 할 특허 처리 건수가 해마다 많아지고 있어 선행기술조사에 소비되는 시간과 비용이 점점 증가하고 있는 실정이다. 본 연구는 다수의 해외특허 우선권 주장 시 동일 우선권 주장 특허문서 간 유사도를 계산하여 심사관 및 특허 출원인이 유사문서를 우선 검토 할 수 있도록 함으로써 심사 시간과 비용을 줄이고자 하였다. 이를 위해, 본 연구에서는 비정형 특허 문서의 데이터를 전처리 후 LDA 토픽 모델링과 Word2vec을 활용하여 특허 문서 간 유사도를 구하고, 이 유사도 점수가 높은 순으로 검토 문서를 우선 추천하는 유사 특허 추천 모델을 제안하였다. 3단계의 모델 생성과정을 통해 만들어진 모델을 사용하여 재현율 95%로 높은 결과를 보였다. 본 연구에서 제안한 모델을 통해, 심사관은 효율적으로 선행기술에 대한 조사가 가능해지며, 심사 수행 중 유사하다고 판단된 특허문서에 대한 심사 이력을 신속하게 참고할 수 있어 업무 부담감을 줄이고 심사풀질을 향상시킬 수 있을 것으로 기대된다.
2021-10-28 02:00
-
가구의 주거 및 사회경제적 특성과 출산 간의 패턴 분석: 의사결정나무모형 기법을 이용하여
본 연구는 주거와 출산 간의 관계를 짚어보고 출산·양육 정책에 대한 의미 있는 결과와 시사점을 제공하고자 한다. 주거와 관련한 특징에 대해 다각화된 접근을 시도하였으며, 데이터 마이닝 기법 중 의사결정나무 기법을 통한 패턴 분석에 근거하여 출산에 영향을 주는 여러 요인들 간의 관계를 구조화하였다. 재정패널조사의 5~10차년도 데이터를 분석한 결과 전체 71개 변인 중 중요도가 높은 상위 20개 변인과 7개의 패턴을 도출하였다. 이러한 결과는 출산이 단순히 가구의 의사결정이 아니라 전체적인 사회의 환경 및 제도와 밀접한 관련을 맺는다는 점을 보여준다.
2021-10-28 02:00
Research
우리 연구실의 연구정보를 안내합니다.
자세히 보기