09-11-2022 дата публикации
Номер: KR102464893B1
... 본 발명은 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에 관한 것으로서, 보다 구체적으로는 임상 연구 데이터에서 임상 참여 조건을 식별해 정형화하여 데이터베이스화하기 위한 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법으로서, (1) 의료 참조용어 사전을 이용해 임상 연구 데이터에 포함된 임상 참여 주제 라벨을 주제 아이디로 매핑하여 임상 연구 데이터의 주제를 분류하는 단계; (2) 상기 단계 (1)에서 분류된 임상 연구 데이터의 임상 참여 조건에서, 의료 참조용어 사전을 이용해 주제별 키워드와 주제에 공통되는 공통 키워드를 추출하는 단계; 및 (3) 상기 임상 연구 데이터에서 상기 주제별 키워드 및 공통 키워드를 포함하는 포함 문장 및 상기 포함 문장의 후행 문장을 수집하고, 수집된 문장의 속성을 인식하는 단계를 포함하며, 상기 단계 (3)에서는, 상기 수집된 문장에서 상기 키워드에 대한 부정을 탐지하여 부정 또는 긍정으로 라벨링하는 것을 그 구성상의 특징으로 한다. 본 발명에서 제안하고 있는 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에 따르면, 임상 연구 데이터의 주제를 분류하고 키워드를 추출한 다음, 임상 연구 데이터에서 키워드를 이용해 문장을 수집하고, 수집된 문장에서 키워드에 대한 속성을 인식해 정형화함으로써, 임상 참여 조건을 데이터 파이프라인 처리하여 효율적으로 데이터베이스화할 수 있다. 또한, 본 발명에서 제안하고 있는 임상 참여 조건의 정형화를 위한 데이터 파이프라인 처리 방법에 따르면, 임상 참여 조건의 식별에 맞도록 변형된 부정 용어 사전을 포함하고 부정 탐지를 위한 추가 규칙을 DEEPEN 알고리즘에 부가하여 구성된 변형 DEEPEN 알고리즘을 이용해, 수집한 문장에서 키워드에 대한 부정을 탐지함으로써, 임상 참여 조건에서 일관되고 정확도 높게 키워드의 부정을 탐지하여 속성을 정형화할 수 있으며, 부등호를 포함하는 문장에서 부등호와 수치를 분리하고 키워드별 숫자, 단위, 비교 대상 등의 속성을 ...
Подробнее