
종료
690만원
한국전자통신연구원(ETRI )
팔로워13명
주최대회0개
Competition
전체보기종료
690만원
종료
1,400만원
종료
1,300만원
Forum
전체보기1. 수면 단계 분류연구 사례: "Automated Sleep Stage Scoring in Mice Using Deep Learning"이 연구는 딥러닝을 활용하여 수면 단계를 자동으로 분류하는 모델을 개발했습니다. 수면 연구는 일반적으로 수면 단계(REM, NREM, 깨어있는 상태)를 분류하기 위해 EEG(뇌파), EMG(근전도), EOG(안구운동)를 사용합니다. 하지만 이 연구는 딥러닝 기술을 사용하여 수동으로 라벨링된 데이터를 학습하고, 새로운 수면 데이터를 자동으로 분류할 수 있는 모델을 구축했습니다.데이터: EEG, EMG 신호기법: Convolutional Neural Networks (CNNs)결과: 모델은 수면 단계 분류 정확도가 매우 높았으며, 이는 수면 연구의 효율성을 크게 향상시킬 수 있음을 보여줍니다.2. 수면 무호흡증 감지연구 사례: "Deep Learning for Sleep Apnea Detection from Single-Lead ECG"이 연구는 수면 무호흡증을 감지하기 위해 단일 리드 ECG 데이터를 분석하는 딥러닝 모델을 개발했습니다. 수면 무호흡증은 수면 중 호흡이 반복적으로 멈추는 상태로, 심각한 건강 문제를 초래할 수 있습니다.데이터: 단일 리드 ECG 신호기법: Recurrent Neural Networks (RNNs) 및 Long Short-Term Memory (LSTM) 네트워크결과: 모델은 높은 정확도로 수면 무호흡증 에피소드를 감지할 수 있었으며, 이는 가정에서의 수면 무호흡증 모니터링을 가능하게 합니다.3. 수면 효율성 예측연구 사례: "Predicting Sleep Efficiency Using Wearable Sensors and Machine Learning Techniques"이 연구는 웨어러블 센서를 사용하여 수면 효율성을 예측하는 모델을 개발했습니다. 수면 효율성은 실제 수면 시간과 침대에 누워 있는 시간의 비율로, 수면의 질을 평가하는 중요한 지표입니다.데이터: 심박수, 신체 활동, 피부 온도 등의 센서 데이터기법: Support Vector Machines (SVM), Random Forest, Gradient Boosting결과: 다양한 머신 러닝 모델을 비교하여, 특정 모델이 수면 효율성을 높은 정확도로 예측할 수 있음을 발견했습니다.4. 개인화된 수면 패턴 분석연구 사례: "Personalized Sleep Pattern Analysis Using Machine Learning Techniques"이 연구는 개인화된 수면 패턴을 분석하고, 각 개인의 수면 습관에 맞춘 개선 조언을 제공하는 모델을 개발했습니다.데이터: 수면 일지, 웨어러블 기기 데이터, 환경 데이터(예: 온도, 소음)기법: K-Means Clustering, Principal Component Analysis (PCA)결과: 개인의 수면 패턴을 군집화하여 유사한 수면 습관을 가진 그룹을 식별하고, 각 그룹에 맞춤형 수면 개선 전략을 제안했습니다.5. 수면 장애 예측연구 사례: "Early Detection of Sleep Disorders Using Deep Learning Techniques"이 연구는 딥러닝을 활용하여 수면 장애(예: 불면증, 기면증)의 초기 징후를 감지하는 모델을 개발했습니다.데이터: 장기 수면 기록, 생리적 데이터(심박수, 호흡률)기법: Deep Neural Networks (DNNs), Autoencoders결과: 모델은 수면 장애의 초기 징후를 높은 정확도로 감지할 수 있었으며, 이는 조기 개입과 치료를 가능하게 합니다.6. 수면 데이터 시각화 및 해석연구 사례: "Interactive Visualization of Sleep Data Using AI Techniques"이 연구는 수면 데이터를 시각화하고, AI를 사용하여 데이터를 해석하는 도구를 개발했습니다.데이터: 다양한 소스의 수면 데이터(EEG, 웨어러블 기기 데이터 등)기법: Data Visualization Techniques, Machine Learning Interpretability Tools결과: 사용자는 자신의 수면 패턴을 쉽게 이해하고, AI가 제공하는 인사이트를 통해 수면의 질을 개선할 수 있었습니다.7. 신경망을 이용한 수면 단계 자동화연구 사례: "Neural Network-Based Automatic Sleep Stage Classification for Portable Devices"이 연구는 휴대용 기기에서 실시간으로 수면 단계를 분류하는 신경망 모델을 개발했습니다.데이터: EEG, EMG, EOG 신호기법: Convolutional Neural Networks (CNNs), Long Short-Term Memory (LSTM)결과: 모델은 휴대용 기기에서 실시간으로 작동하여 수면 단계를 정확히 분류할 수 있었으며, 이는 개인의 수면 모니터링을 더욱 편리하게 만들었습니다.
SHAP은 모델의 판단에 각 feature가 얼만큼의 영향을 미쳤는지 분석할 때 사용하는 도구이다. 본 대회의 task는 사용자의 생활 패턴을 토대로 수면의 질과 수면과 관련된 병을 판단하는 것이므로, AI 모델이 병을 진단한 이후에도 그렇게 판단된 이유를 알아야 할 필요가 있다.따라서, 우리 팀에서는 SHAP을 사용해 feature를 분석해보았는데, 본 글에서는 “A Unified Approach to Interpreting Model Predictions” 논문을 리뷰해보려고 한다.해당 논문은 SHAP을 처음으로 제안한 논문이다. INTRODUCTION목표: 모델 예측의 해석은 예측 정확도만큼 중요하며, 특히 복잡한 모델(앙상블, 딥러닝 모델 등)의 경우 해석이 어렵다.문제: 여러 해석 방법이 제안되었지만, 이들 간의 관계와 우선순위가 명확하지 않다.제안: SHAP은 각 특성에 중요도 값을 할당하여 예측을 해석하는 통합 프레임워크를 제시한다. SHAP은 기존의 여섯 가지 방법을 통합하고, 이 클래스에서 유일한 해결책을 제안한다. CONTRIBUTIONS설명 모델 관점: 예측 모델의 설명을 모델 자체로 보는 관점 도입. 이를 통해 여섯 가지 현재 방법을 통합하는 가산적 특성 중요도 방법 정의하였다.게임 이론 적용: 게임 이론 결과를 통해 가산적 특성 중요도 방법 클래스에 유일한 해결책 존재를 증명. 이를 기반으로 SHAP 값을 제안하였다.새로운 SHAP 값 추정 방법: 인간의 직관과 더 잘 맞고, 기존 방법보다 계산 성능이 향상된 새로운 방법 제안하였다. RELATED WORKSLIME: 로컬 근사 방식을 통해 모델 예측을 해석. 로컬 선형 설명 모델 사용.DeepLIFT: 딥러닝 예측 해석을 위한 재귀적 설명 방법.Layer-Wise Relevance Propagation: 딥 네트워크의 예측 해석 방법.고전적 Shapley 값 추정: 협동 게임 이론을 사용한 세 가지 방법. DESIRABLE PROPERTIES지역 정확성: 특정 입력 x에 대해 원래 모델 f와 설명 모델 g가 일치해야 한다.누락: 원래 입력에 없는 특성은 영향을 미치지 않아야 한다.일관성: 모델이 변화하여 특정 입력의 기여가 증가하면 그 입력의 귀속값이 감소하지 않아야 한다. SHAP Value제안: SHAP 값은 조건부 기대 함수의 Shapley 값. 이는 가산적 특성 중요도 측정의 유일한 해결책을 제공한다.계산: 정확한 SHAP 값 계산은 어려우나, 현재 방법들의 통찰을 통해 근사 가능하다
안녕하세요.멀티모달 데이터를 융합할 때, 모달리티마다 성능에 영향을 미치는 데이터와 아닌 데이터가 있을 수 있습니다.이때, 온도 모듈을 적용하면 더 효과적인 멀티모달 학습이 가능하지 않을까 싶어, 논문을 소개합니다 Curriculum Temperature for knowledge Distillation저자Zheng Li 1, Xiang Li 1*, Lingfeng Yang 2, Borui Zhao 3, Renjie Song 3, Lei Luo 2, Jun Li 2, Jian Yang 1* 1 Nankai University 2 Nanjing University of Science and Technology 3 Megvii Technology Abstract대부분의 기존 증류 방법은 손실함수에서 온도 (Temperature) 의 유연한 역할을 무시하고, 이를 단순한 하이퍼 파라미터로 간주한다. 그러나, 온도는 두 분포 사이의 불일치를 제어하고 증류 작업(Distillation task)의 난이도(difficulty)를 제어할 수 있다. 본 논문에서는, 가변적이고 학습 가능한 온도를 통해 학생의 학습동안 난이도 수준을 제어하는 간단한 curriculum기반 CTKD(Curriculum Temperature for Knowledge Distillation)를 소개한다. MethodBackground모델 압축에서 주력기술 중 하나인 지식증류 (Hinton, Vinyals, and Dean 2015)는 Vision 작업에서 매우 폭넓게 사용되고 있다 (Liu et al. 2019; Ye et al. 2019; Li et al. 2021b, 2022). 전통적인 two-stage 증류 방법은 주로 미리 훈련된 번거로운 교사모델로 시작한다. 그 다음, 작은 학생 네트워크는 부드러운 예측(soft predictions) 또는 중간표현(intermediate representation, Romero et al. 2014; Yim et al. 2017) 를 이용한 교사 네트워크의 감독아래 훈련된다. 주어진 라벨링된 데이터셋 D={(x_i, y_i)}^I_{i=1}에서 , KL 발산손실 (Kullback-Leibler divergence loss) 은 아래 공식과 같이, 교사와 학생 모델의 부드러운 출력 확률 (soft output probabilities) 간의 불일치를 최소화하는데 사용된다.이때 qt와 qs는 각각 교사와 학생의 logits을 의미하고, σ(·) 는 softmax 함수, τ는 두 분포를 부드럽게 스케일하는 온도를 표시한다. 아래 그림과 같이, τ가 작을수록 분포가 날카로워지고, 두 분포간의 차이를 크게하며, 교사의 예측의 최대 로짓에 증류의 초점이 맞춰진다. 반대로 τ가 크면 분포를 더욱 평평하게 하여, 두 모델 사이의 격차를 좁게하고 교사의 전체 로짓에 증류의 초점을 맞추게 된다. 그러므로, 온도(τ)는 확률분포에 영향을 미쳐. 신뢰도 있게 지식증류 손실 (KD loss) 의 최소화 과정의 난이도를 결정한다. Adversarial Distillation기본 지식증류에서는 학생모델은 특정작업 손실(Task-specific loss)와 증류 손실 (Distillation loss) 를 최소화하여 최적화 되었다. 이 증류 과정의 목적은 다음과 같이 공식화 된다.이때, Ltask는 이미지 분류 작업에서 사용되는 일반 cross-entropy 손실이고, ft(), fs()는 교사와 학생의 함수이다.동적 온도로 학생의 학습 난이도를 제어하게되므로, GAN에 영감을 받아 (Goodfellow et al. 2014), 본 논문은 현재 훈련에 적합한 온도 τ를 예측하는 동적 온도 모듈에 대한 적대적 학습을 제안한다. 이 모듈은 학생과 반대 방향으로 최적화되어, 학생과 교사의 증류손실을 최대화한다. 즉, 아래와 같이 학생모델은 loss를 최소화하고, 온도모듈은 loss를 최대화 한다.Curriculum Temperature학교에서, 선생님은 언제나, 쉬운 개념으로 시작하여 학생들이 성장할 수록 점점 어려운 개념으로 커리큘럼을 설계하고, 이를 따라 학생을 가르친다. 사람은 의미있는 순서로 정렬된 작업을 할 때, 훨신 잘 학습할 수 있다. 이러한 커리큘럼 러닝 (Curriculum learning, Bengio et al. 2009) 에 영향을 받아, 저자는 손실 L을 크기 \lambda로 직접 스케일링하여 쉬운 것부터 어려운 것으로 증류작업이 구성 되어있는 간단하고 효과적인 커리큘럼을 제안한다. 즉, 온도 모듈은 다음과 같이 업데이트 된다.훈련의 시작에는 어린 학생은 표현능력의 한계 (Limited representation ability)가 있으며, 기본적인 지식을 요구한다. 이때, 초기 lambda를 0으로 설정하여 어린 학생이 아무런 제약없이 학습에 집중할 수 있도록 한다. lambda를 점진적으로 상향시킴으로, 증류의 난이도를 높혀서 학생이 더 고급 지식을 학습할 수 있도록 할 수 있다.ExperimentsCIFA-100으로 실험을 진행했을 때, 그림 3에서 CTKD가 기존의 VanilaKD보다 중간 loss가 높지만, 최종 에포크에서는 유사하게 수렴했다. 또, 그림 4에서 기존 VanillaKD보다 더 효과적으로 분산되었다. 이는 CTKD가 더 디테일한 피처를 학습하여, 더 깊은 피처를 식별 가능하게함을 의미한다.위 그림은 학습 중에 온도의 학습 곡선을 보여준다. 온도를 고정한 증류와 비교하여, 논문의 CTKD는 온도를 동적으로 제어하고 있으며, 기존 방법보다 좋은 성능을 보인 것을 확인할 수 있다. 또, 아래 표는 다양한 모델에 대해 기존 KD방법과 CTKD를 적용한 후의 성능 비교이다. 마치며,CTKD방법은 성능을 극적으로 끌어올리진 않습니다. 그러나, 기존 방법에 쉽게 적용 가능하면서, 추가적인 계산비용없이 이렇게 성능을 향상시킬 수 있다는 점이 본 논문의 의의라고 생각합니다.또, 지식증류뿐만이 아니라, 멀티모달리티를 융합할 때도 적용할 수 있습니다. 온도모듈을 통해 성능에 부정적인 영향을 주는 모달리티는 온도를 높혀 최종결과에 반영하지 않고, 성능에 긍정적인 영향을 주는 모달리티만 남기면, 모델의 최종성능에도 도움이 될 것입니다.
“What Data Benefits My Classifier?” Enhancing Model Performance and Intepretability Through Influence-Based Data SelectionChhabra, Anshuman, et al. "“WHAT DATA BENEFITS MY CLASSIFIER?” ENHANCING MODEL PERFORMANCE AND INTERPRETABILITY THROUGH INFLUENCE-BASED DATA SELECTION." (2023).이 논문은 Classifier에 부정적인 영향을 주는 Data를 제거해 줌으로써 Classifier의 Performance를 향상시킬 수 있는 지를 보는 논문입니다 여태 존재했던 Method들은 Classifier를 다시 training 시켜주었다면, 이 논문에서는 다른 수학적인 방법을 이용하여 training 시키지 않고 cost를 줄였습니다 Performance 향상은 3가지 측면에서 살펴 보았습니다 Utility (Accuracy) FairnessRobustness 성능 측면에서는 Utility와 Robustness가 중요한 문제이고,윤리적인 측면에서는 Fairness가 중요한 지표입니다Data trimming을 할 때 부정적인 영향을 주는 index만 빼낼 수 있도록 budget과 부정적인 영향을 주는 index의 개수에서 min을 계산을 해줍니다
라이프로그 데이터란?라이프로그(Lifelog)는 말 그대로 '삶의 기록'을 의미합니다. 스마트폰, 웨어러블 디바이스, IoT 기기 등을 통해 수집되는 개인의 활동, 위치, 건강 관련 데이터 등이 이에 해당합니다. 예를 들어, 스마트워치를 통해 수집되는 심박수, 걸음 수, 수면 패턴 등의 데이터가 라이프로그 데이터에 포함됩니다.라이프로그 데이터의 활용 사례헬스케어 및 피트니스: 라이프로그 데이터는 개인의 건강 상태를 모니터링하고, 질병 예방 및 관리를 돕는 데 사용됩니다. 예를 들어, 지속적으로 수집된 심박수, 혈압, 수면 패턴 등의 데이터를 분석하여 건강 이상 징후를 조기에 발견할 수 있습니다.개인화된 서비스: 라이프로그 데이터는 개인의 취향과 행동 패턴을 분석하여 맞춤형 서비스를 제공하는 데 사용됩니다. 예를 들어, 사용자의 운동 패턴을 분석하여 맞춤형 운동 프로그램을 제공하거나, 식사 패턴을 분석하여 개인에게 적합한 식단을 추천할 수 있습니다.스마트 홈: IoT 기기를 통해 수집된 라이프로그 데이터를 기반으로 가정 내 환경을 자동으로 조절할 수 있습니다. 예를 들어, 사용자의 일정을 분석하여 조명, 난방, 냉방 등을 자동으로 조절하는 스마트 홈 시스템이 가능합니다.라이프로그 데이터의 장점개인화: 라이프로그 데이터는 개인 맞춤형 서비스를 제공하는 데 필수적입니다. 사용자의 생활 패턴을 정확히 이해함으로써 더욱 효과적인 서비스 제공이 가능합니다.예방 및 관리: 라이프로그 데이터는 건강 상태를 실시간으로 모니터링하고, 질병 예방 및 관리에 도움을 줄 수 있습니다. 특히, 만성질환 관리에 유용합니다.데이터 기반 의사결정: 라이프로그 데이터는 개인의 일상생활에서 발생하는 다양한 데이터를 기반으로 의사결정을 돕습니다. 이는 더 나은 삶의 질을 유지하는 데 기여할 수 있습니다.라이프로그 데이터의 문제점과 과제프라이버시 문제: 라이프로그 데이터는 매우 개인적인 정보를 포함하고 있어, 프라이버시 침해의 위험이 있습니다. 데이터 수집 및 활용에 있어서 철저한 보안 조치가 필요합니다.데이터 관리: 방대한 양의 데이터를 효율적으로 수집, 저장, 분석하는 것이 중요합니다. 데이터 관리 및 처리에 있어서 기술적인 도전이 존재합니다.데이터 신뢰성: 수집된 데이터의 정확성과 신뢰성을 확보하는 것이 중요합니다. 특히, 헬스케어 분야에서는 데이터의 정확성이 생명과 직결될 수 있습니다.
라이프로그 데이터를 이용한 수면, 감정, 스트레스 인식 및 추론에 인공지능(AI)을 도입하는 것은 이 분야의 혁신적 진보를 가능하게 합니다. 인공지능은 대규모 데이터 세트를 분석하고 패턴을 학습하는 데 뛰어난 능력을 보유하고 있으며, 이는 라이프로그 데이터의 복잡성과 다양성을 다루는 데 특히 유용합니다. 머신러닝 및 딥러닝 알고리즘은 수면 패턴, 감정 상태, 스트레스 수준 등의 지표를 보다 정밀하게 인식하고 추론하는 데 활용될 수 있습니다.예를 들어, 딥러닝을 사용한 신경망 모델은 생체 신호 데이터를 분석하여 수면의 질과 양을 평가하고, 얼굴 표정 인식 및 음성 분석 기술은 감정 상태를 보다 정확하게 파악할 수 있습니다. 스트레스 인식에 있어서도, AI 모델은 심박수 변이도, 피부 전도도 등 다양한 생리적 데이터를 통합 분석하여 개인의 스트레스 수준을 예측합니다. 이러한 접근 방식은 기존의 단일 모달리티 분석 방법보다 더 높은 정확도와 신뢰성을 제공합니다.또한, 인공지능은 실시간 분석과 예측을 가능하게 함으로써, 사용자에게 즉각적인 피드백을 제공하고, 맞춤형 건강 관리 솔루션을 제시할 수 있습니다. 예를 들어, AI 기반 애플리케이션은 사용자의 실시간 데이터를 모니터링하여 수면 개선 조언을 제공하거나, 스트레스 수준이 높아질 때 적절한 대처 방법을 제안할 수 있습니다. 이를 통해 라이프로그 데이터의 잠재력을 최대한 활용하고, 개인의 웰빙을 증진하는 데 중요한 역할을 할 수 있습니다.결론적으로, 인공지능의 도입은 라이프로그 데이터를 이용한 수면, 감정, 스트레스 인식 및 추론 연구에 혁신적인 변화를 가져올 것입니다. 이는 보다 정확하고 개인화된 건강 관리 솔루션을 개발하는 데 필수적인 요소로 작용하며, 궁극적으로는 인구 전체의 건강 증진에 기여할 것입니다.
본 경진대회에서 사용되는 train dataset과 val dataset/test dataset은 데이터 구성이 다릅니다. train dataset에는크게 mAcc, mGyr, mMag, mGps, e4Acc, e4Eda, e4Bvp, e4Temp, e4Hr, User label 데이터가 있습니다. (https://nanum.etri.re.kr/share/schung/ETRILifelogDataset2020?lang=En_us)반면에 val dataset 에는 다음과 같은 데이터가 있습니다:mAcc: 스마트폰의 가속도 센서 데이터. 1초당 약 50회씩(50Hz) 측정됨.mActivity: 스마트폰에서 인식된 행동 분류값. 1분마다 1회씩 기록됨.mAmbience:스마트폰에서 인식된 음향 기반 레이블. 2분마다 1회씩 기록됨.mGps: 스마트폰에서 산출된 GPS 좌표 정보(단, 위도 및 경도는 상대 좌표로 변환됨). 5초 간격(1분당 약 12회)으로 측정됨.mLight: 스마트폰에서 측정된 빛의 세기. 10분 간격으로 측정됨.mUsageStats: 스마트폰에서의 앱 사용량 정보. 10분 간격으로 측정됨.wHr: 스마트워치(갤럭시 워치)에서 측정된 심박 데이터. 1초 간격으로 측정됨.wPedo: 스마트워치(갤럭시 워치)에서 측정된 걸음수 데이터 및 관련 정보. 1분 간격으로 측정됨.wLight: 스마트워치(갤럭시 워치)에서 빛의 세기. 10분 간격으로 측정됨.둘 모두에서 있는 데이터는 mAcc, mActivity, mGps, mHr 로 그 외의 데이터는 val dataset에만 존재하거나 train dataset에만 존재하고 있습니다. 이를 참고하세요.