텍스트 데이터 기반 범죄사건 유형 추론 시스템 및 그 방법

06-12-2022 дата публикации
Номер:
KR20220160476A
Принадлежит: 한국전자통신연구원
Контакты:
Номер заявки: 00-22-102049513
Дата заявки: 21-04-2022

[0001]

본 발명은 텍스트 데이터 기반 범죄사건 유형 추론 시스템 및 그 방법에 관한 것이다.

[0003]

범죄사건 접수 초기에 신속하고 효과적으로 해당 범죄에 대응하는 것이 필요하며, 이를 위해서는 발생된 범죄의 유형과 그 심각 수준에 대한 정보를 현장 출동 요원에게 제공하여야 한다.

[0004]

종래 기술에 따른 치안 관련 기술들은 대부분 범죄 발생을 예측하는 것에 초점을 맞추고 있으며, 대표적으로 미국의 프레드폴(PredPol)을 들 수 있다.

[0005]

이는 누적된 치안 통계데이터를 바탕으로 향후 범죄 발생을 예측하는 치안 서비스 기술로서, 예측 결과를 이용하여 순찰 지역(레드박스)을 보강하거나 사전 인력 배치를 수행하여 범죄 발생을 예방하는 효과가 있다.

[0006]

그러나 범죄 발생에 대한 사전 예측이 불가하거나, 예측에 실패하는 등의 여러가지 사유로 신규 범죄가 지속 발생할 수 있으며, 이러한 신규 발생 범죄에 신속하고 효과적으로 대응하기 위한 기술이 필요하다.

[0008]

본 발명은 전술한 문제점을 해결하기 위해 제안된 것으로, 텍스트 기반의 범죄사건 데이터(범죄사건 내용)를 이용하여 주요 키워드를 추출하고, 추출된 키워드를 기반으로 해당 사건의 범죄 유형을 추론하는 시스템 및 방법을 제공하는데 그 목적이 있다.

[0010]

본 발명에 따른 텍스트 데이터 기반 범죄사건 유형 추론 시스템은 범죄 사건 소스 데이터를 수신하고, 범죄 키워드를 추출하여 범죄 유형 키워드 사전을 생성하는 키워드 사전 구축부와, 범죄 사건 소스 데이터 및 키워드 사전을 이용하여 범죄사건 유형 학습용 데이터셋을 생성하는 데이터셋 구축부와, 데이터셋을 이용하여 범죄유형 예측 모델을 생성하고, 학습을 수행하는 범죄유형 예측 모델 학습부 및 범죄사건 데이터를 이용하여 범죄유형 추론을 수행하는 범죄유형 추론부를 포함한다.

[0011]

상기 범죄 사건 소스 데이터는 범죄 사건에 관련한 텍스트 데이터 및 범죄유형 정답 레이블을 포함한다.

[0012]

상기 키워드 사전 구축부는 상기 범죄 사건 소스 데이터에 포함되는 노이즈를 제거하고, 형태소 분석을 수행하며, 형태소 분석 수행 결과에 대해 범죄 유형 별로 그룹핑을 수행한다.

[0013]

상기 키워드 사전 구축부는 복수 개의 자연어 분석 알고리즘을 이용하여 범죄 키워드를 추출하고, 범죄 키워드 추출 결과를 통합한다.

[0014]

상기 키워드 사전 구축부는 상기 범죄 키워드의 추출 결과를 평가 점수 순서대로 정렬하고, 정렬 결과를 이용하여 상기 범죄 유형 키워드 사전을 구축한다.

[0015]

상기 데이터셋 구축부는 상기 범죄 사건 소스 데이터를 이용하여 추출한 사건별 키워드 및 상기 키워드 사전을 이용하여 상기 범죄사건 유형 학습용 데이터셋을 생성한다.

[0016]

상기 데이터셋 구축부는 범죄 유형에 대해 one-hot 인코딩된 값을 상기 범죄사건 유형 학습용 데이터셋과 매칭시킨다.

[0017]

상기 범죄유형 예측 모델 학습부는 상기 one-hot 인코딩된 값과 기계학습 출력값을 비교하여 학습을 수행한다.

[0018]

상기 범죄유형 추론부는 신고 접수 텍스트인 상기 신규 범죄사건 데이터를 분석하여, 범죄유형에 대한 확률값을 포함하는 추론 결과를 제공한다.

[0019]

본 발명에 따른 텍스트 데이터 기반 범죄사건 유형 추론 시스템에 의하여 수행되는 텍스트 데이터 기반 범죄사건 유형 추론 방법은 (a) 치안 데이터를 분석하고 키워드를 추출하는 단계와, (b) 키워드를 범죄 유형 별로 분류하고 키워드 사전을 구축하는 단계와, (c) 키워드 사전을 이용하여 기계학습 기반의 범죄유형 예측 모델을 구축하고 학습을 수행하는 단계 및 (d) 신규 범죄 사건 정보를 이용하여 범죄유형을 예측하는 단계를 포함한다.

[0020]

상기 (a) 단계는 범죄사건 텍스트 데이터 및 범죄 유형 정보를 포함하는 상기 치안 데이터를 분석하여, 상기 키워드를 추출한다.

[0021]

상기 (a) 단계는 상기 치안 데이터에 포함되는 노이즈를 제거하고 형태소 분석을 수행하여, 상기 키워드를 추출한다.

[0022]

상기 (a) 단계는 복수 개의 자연어 분석 알고리즘을 이용하여 상기 키워드를 추출한다.

[0023]

상기 (b) 단계는 상이한 상기 복수 개의 자연어 분석 알고리즘을 이용하여 추출한 결과를 정렬하고 상기 키워드 사전을 구축한다.

[0024]

상기 (c) 단계는 범죄 유형에 대해 one-hot 인코딩된 값을 이용하여 상기 학습을 수행한다.

[0025]

상기 (d) 단계는 신고 접수 텍스트인 상기 신규 범죄 사건 정보를 이용하여 범죄유형을 예측하고, 범죄유형에 대한 확률값을 포함하는 예측 결과를 제공한다.

[0026]

본 발명에 따른 텍스트 데이터 기반 범죄사건 유형 추론 장치는 범죄 사건 소스 데이터를 수신하는 입력부와, 범죄 사건 소스 데이터를 이용하여 키워드 사전을 구축하고 범죄유형 예측 모델을 생성하는 프로그램이 저장된 메모리 및 프로그램을 실행시키는 프로세서를 포함하고, 프로세서는 범죄 사건 소스 데이터로부터 키워드를 추출하여 키워드 사전을 생성하고, 범죄 사건 소스 데이터 및 키워드 사전을 이용하여 범죄유형 학습용 데이터셋을 생성한다.

[0027]

상기 프로세서는 복수 개의 상이한 자연어 분석 알고리즘을 이용하여 상기 키워드를 추출하고, 추출된 키워드를 합병하여 상기 키워드 사전을 생성한다.

[0028]

상기 프로세서는 상기 키워드 및 one-hot 인코딩한 벡터 데이터를 포함하는 상기 범죄유형 학습용 데이터셋을 생성한다.

[0029]

상기 프로세서는 신규 범죄 사건 정보를 분석하여 범죄 유형 확률값을 포함하는 범죄 유형 예측 결과를 제공한다.

[0031]

본 발명에 따르면, 발생 범죄의 유형을 예측하고 현장 요원 및 수사관에게 제공함으로써, 범죄 사건 접수 초기에 신속하고 효과적으로 신규 발생 범죄에 대한 대응 전략을 수립하고 해당 범죄에 대응하는 것이 가능한 효과가 있다.

[0032]

본 발명의 효과는 이상에서 언급한 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

[0034]

도 1은 본 발명의 실시예에 따른 텍스트 데이터 기반 범죄사건 유형 추론 시스템을 도시한다. 도 2는 본 발명의 실시예에 따른 one-hot 벡터로 인코딩한 범죄 유형을 도시한다. 도 3은 본 발명의 실시예에 따른 범죄유형 예측 모델의 구성을 도시한다. 도 4는 본 발명의 실시예에 따른 실시간 범죄유형 추정 플랫폼을 도시한다. 도 5는 본 발명의 실시예에 따른 텍스트 데이터 기반 범죄사건 유형 추론 방법을 도시한다. 도 6은 본 발명의 실시예에 따른 텍스트 데이터 기반 범죄사건 유형 추론 장치를 도시한다.

[0035]

본 발명의 전술한 목적 및 그 이외의 목적과 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.

[0036]

그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 목적, 구성 및 효과를 용이하게 알려주기 위해 제공되는 것일 뿐으로서, 본 발명의 권리범위는 청구항의 기재에 의해 정의된다.

[0037]

한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자가 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가됨을 배제하지 않는다.

[0038]

본 발명의 실시예에 따르면, 신규 발생한 범죄의 유형을 추론하고 추론 결과를 현장 출동 경찰 및 수사관들에게 제공한다. 본 발명의 실시예에 따르면, 신규 발생 범죄 사건에 대한 효과적인 대응 방안을 수립하고, 수사 방향을 수립하는 것에 직접 도움이 되는 치안 연계 서비스를 제공함으로써, 국민의 생명, 신체, 재산을 보호하는 인공지능 치안 서비스를 제공한다.

[0039]

도 1은 본 발명의 실시예에 따른 텍스트 데이터 기반 범죄사건 유형 추론 시스템을 도시한다.

[0040]

본 발명의 실시예에 따른 텍스트 데이터 기반 범죄사건 유형 추론 시스템은 경찰에 접수된 사건 현황에 대해 수집된 텍스트 데이터를 분석하여 범죄 유형을 예측한다. 예측 결과는 현장에 출동하는 요원에게 제공되며, 경찰은 접수된 사건에 대한 초동 대응 및 현장 인력 배치를 수행한다.

[0041]

본 발명의 실시예에 따르면, GUI 기반의 SW 플랫폼 형태로 구현되어 현장 인력들로 하여금 해당 추론 결과를 용이하게 사용할 수 있도록 지원한다. 본 발명의 실시예에 따르면, 다양한 치안 데이터 및 텍스트 기반의 수사 데이터를 기반으로 범죄사건 유형을 추론하고, 추론 결과를 실시간으로 현장 출동 요원에게 제공한다.

[0042]

소스 데이터는 키워드 사전 구축 및 범죄유형 예측 모델 구축을 위해 활용되는 데이터로서, 범죄사건에 해당하는 텍스트 데이터 및 텍스트 데이터에 대한 범죄유형 정보를 포함한다. 범죄유형 정보는 범죄사건 텍스트 데이터의 학습을 위한 정답값으로, 정답 레이블에 해당한다.

[0043]

키워드 사전 구축부(100)는 텍스트 기반의 소스데이터와 특징 키워드(feature keywords) 추출 알고리즘을 이용하여 키워드 사전(dictionary)을 구축한다. 데이터셋 구축부(200)는 소스 데이터와 키워드 사전을 이용하여 학습용 데이터셋을 생성하며, 학습용 데이터셋에는 특징 키워드, 위험도 정보, 범죄유형 정보가 포함된다. 범죄유형 예측 모델 학습부(300)는 데이터 학습을 통해 딥러닝 기반의 범죄유형 예측 모델을 생성한다. 범죄유형 추론부(400)는 범죄사실 텍스트 데이터를 기반으로 범죄유형을 예측하는 GUI 시스템으로서, 실시간으로 현장 출동 요원 또는 지휘관에게 추론 결과를 제공한다. 범죄유형 추론부(400)는 신규 범죄사건 데이터를 수신하고, 추론을 통해 범죄유형 추론 결과를 제공한다.

[0044]

소스 데이터는 수사 데이터로서, 범죄 사건 별로 입력된다. 데이터 정제부(110)는 입력된 소스 데이터에 대한 정제를 수행하며, 키워드 추출에 필요 없거나 방해가 될 수 있는 노이즈를 제거한다.

[0045]

형태소 분석부(120)는 정제된 데이터를 이용하여 형태소 분석(morphological analysis)을 수행하며, 일반명사(NNG)와 동사(VV)를 추출한다.

[0046]

범죄유형별 데이터 정렬부(130)는 형태소 분석부(120)로부터 추출된 데이터를 수신하고, 키워드 분석을 위해 검거된 범죄 유형 별로 그룹핑(Grouping)을 수행한다.

[0047]

키워드 분석부(140)는 그룹핑된 정보를 수신하여 분석하고, 특징 키워드를 추출하며, 추출 결과를 추출 결과 통합 및 정렬부(150)로 전달한다.

[0048]

본 발명의 실시예에 따른 키워드 분석부(140)는 복수 개의 자연어분석 기법을 이용하여 키워드를 추출한다. 키워드 분석부(140)는 자연어 처리 분석 기법인 Wordrank를 활용하는 제1 키워드 분석부와, TF-IDF(Term Frequency-Inverse Document Frequency analysis algorithm)를 활용하는 제2 키워드 분석부로 구성되며, 분석 결과는 추출 결과 통합 및 정렬부(150)로 전달된다.

[0049]

추출 결과 통합 및 정렬부(150)는 제1 키워드 분석부와 제2 키워드 분석부로부터 수신한 키워드 분석 결과를 합병한다. 합병 시, 동일한 키워드를 조회하고, 제1 키워드 분석부와 제2 키워드 분석부의 평가 점수를 합산하는 방식으로 키워드 분석 결과에 대한 합병을 수행한다. 추출 결과 통합 및 정렬부(150)는 합산된 평가 점수가 높은 순으로 추출 결과를 정렬한다. 키워드 선택부(160)는 각 범죄유형 별로 평가 점수가 높은 상위 기설정 개수(예: 20개)의 키워드를 선택하고, 이를 이용하여 키워드 사전(170)을 구축한다. 상위 기설정 개수는 시스템 구현 및 운용에 따라 변경된다.

[0050]

데이터 정제부(210)는 전술한 키워드 사전 구축 과정에서와 같이, 입력된 소스 데이터에 대한 정제를 수행한다.

[0051]

형태소 분석부(220)는 정제된 데이터를 이용하여 형태소 분석을 수행한다.

[0052]

키워드 분석부(230)는 사건별 키워드를 추출하고, 추출 결과를 데이터셋 생성부(240)로 전달한다.

[0053]

데이터셋 생성부(240)는 키워드 분석 결과 중 키워드 사전(170)에 포함되는 단어를 추출하고, 데이터셋 형식에 맞도록 벡터 데이터를 생성하고, 벡터 데이터를 포함한 전체 데이터셋을 생성한다.

[0054]

데이터 라벨링부(250)는 데이터셋을 수신하고, 해당 범죄사건 데이터셋의 정답값에 해당하는 범죄 유형을 one-hot 벡터 형식으로 변경하여 데이터셋과 매칭한다.

[0055]

사건 데이터를 기반으로 생성된 데이터셋은 범죄 유형을 추론하는 시스템의 입력값이 되며, 범죄 유형을 one-hot 인코딩한 값은 라벨값인 출력값이 된다.

[0056]

도 2는 본 발명의 실시예에 따른 one-hot 벡터로 인코딩한 범죄 유형을 도시하며, 21종의 중분류 기반 범죄 유형을 one-hot 인코딩한 결과를 도시한다.

[0057]

도 3은 본 발명의 실시예에 따른 범죄유형 예측 모델의 구성을 도시한다.

[0058]

도 3에 도시한 바와 같이, 범죄유형 예측 모델은 ReLU 기반의 fully Connected Layer 와 Dropout 레이어 및 출력 layer 로 구성된다.

[0059]

해당 레이어의 구성은 시스템의 필요 성능 및 복잡도에 따라 변경될 수 있다. 입력 데이터는 데이터셋 생성부(240)에서 생성한 값이고, 입력된 값에 대한 기계학습 처리 과정 후 출력값이 생성된다. 훈련 구간 동안에는 기계학습의 출력값과 실제 one-hot 인코딩된 정답값을 비교하여, 출력값과 정답값의 차이를 줄이는 방향으로 훈련이 수행된다. 훈련은 딥러닝 기반의 기계학습인 SGD(Stochastic Gradient Descent) 또는 SGD와 동일한 역할을 하는 다양한 함수들이 적용될 수 있다. 특정 구간동안 설정된 훈련이 완료된 후, 실제 현장에 설치되어 사용될 수 있다.

[0060]

도 4는 본 발명의 실시예에 따른 실시간 범죄유형 추정 플랫폼을 도시한다.

[0061]

본 발명의 실시예에 따르면, 치안 데이터 및 텍스트 기반의 수사 데이터를 입력받아 분석하고, 주요 단어로 파악되는 키워드를 추출하고, 범죄 유형 별로 키워드를 분류하고, 범죄 유형별 키워드 사전을 구축한다.

[0062]

키워드 사전, 치안데이터, 수사데이터를 이용하여 기계학습 기반의 범죄 유형 예측 모델을 구축하고, 해당 모델을 학습한다.

[0063]

GUI를 포함하는 응용 시스템을 통해, 현장 요원이 실시간으로 텍스트 기반의 범죄 내용을 입력하면, 해당 내용에 따른 범죄 유형을 추론하여 표출한다.

[0064]

본 발명의 실시예에 따르면, 현장 인원이 소지한 단말을 통해 수사 데이터 또는 치안 데이터가 입력되면, 추론 결과인 범죄 유형 정보가 막대 그래프 형태의 확률값으로 제공된다. 도 4의 화면 배치 및 디자인은 다양한 방식으로 변경될 수 있다.

[0065]

도 4를 참조하면, 제1 영역(410)에는 텍스트 정보가 표시되고, 제2 영역(420)에는 워드 클라우드, 키워드 벡터가 표시되며, 제3 영역(430)에는 범죄유형 추론 결과가 표시된다.

[0066]

본 발명의 실시예에 따르면, 범죄 유형 추론을 위한 입력값으로 신고자 또는 현장 출동 요원의 단말로부터 텍스트가 수신될 수도 있고, 신고자 또는 현장 출동 요원의 음성 정보를 텍스트로 변환한 결과가 수신될 수 있다.

[0067]

도 5는 본 발명의 실시예에 따른 텍스트 데이터 기반 범죄사건 유형 추론 방법을 도시한다.

[0068]

본 발명의 실시예에 따른 텍스트 데이터 기반 범죄사건 유형 추론 방법은 치안 데이터를 분석하고 키워드를 추출하는 단계(S510), 범죄유형에 따른 키워드를 분류하고 키워드 사전을 구축하는 단계(S520), 기계학습 기반의 범죄유형 예측 모델을 구축하고 학습을 수행하는 단계(S530) 및 신규 사건의 범죄유형을 예측하는 단계(S540)를 포함한다.

[0069]

S510 단계에서, 범죄사건에 해당하는 텍스트 데이터 및 텍스트 데이터에 대한 범죄유형 정보(정답 레이블)을 분석하고, 키워드를 추출한다. S510 단계에서, 입력된 데이터 중 키워드 추출에 필요 없는 노이즈를 제거하고, 형태소 분석을 수행하여 일반명사와 동사를 추출한다. S510 단계에서, 복수 개의 자연어 분석 기법을 이용하여 키워드를 추출하며, 예컨대 Wordrank및 TF-IDF(Term Frequency-Inverse Document Frequency analysis algorithm)를 활용하여 키워드를 추출한다.

[0070]

S520 단계에서, 키워드 추출 결과를 수신하여, 각 키워드 분석 알고리즘 별로 분석된 결과를 합병하고, 키워드 사전을 구축한다.

[0071]

S530 단계에서, 소스 데이터에 대한 정제 및 형태소 분석을 수행하고, 사건별 키워드를 추출한다. S530 단계에서, 키워드 분석 결과 중 키워드 사전에 포함되는 단어를 추출하고, 벡터 데이터를 생성하며, 데이터셋을 생성한다. S530 단계에서, 범죄 유형을 one-hot 벡터 형식으로 변경하고, 데이터셋과 매칭시킨다.

[0072]

S540 단계에서, GUI를 포함하는 응용 시스템을 통해, 현장 요원이 실시간으로 텍스트 기반의 범죄 내용을 입력하면, 해당 내용에 따른 범죄 유형을 추론하여 표출한다.

[0073]

도 6은 본 발명의 실시예에 따른 텍스트 데이터 기반 범죄사건 유형 추론 장치를 도시한다.

[0074]

본 발명의 실시예에 따른 텍스트 데이터 기반 범죄사건 유형 추론 장치는 범죄 사건 소스 데이터를 수신하는 입력부(610)와, 범죄 사건 소스 데이터를 이용하여 키워드 사전을 구축하고 범죄유형 예측 모델을 생성하는 프로그램이 저장된 메모리(620) 및 프로그램을 실행시키는 프로세서(630)를 포함하고, 프로세서(630)는 범죄 사건 소스 데이터로부터 키워드를 추출하여 키워드 사전을 생성하고, 범죄 사건 소스 데이터 및 키워드 사전을 이용하여 범죄유형 학습용 데이터셋을 생성한다.

[0075]

프로세서(630)는 복수 개의 상이한 자연어 분석 알고리즘을 이용하여 키워드를 추출하고, 추출된 키워드를 합병하여 키워드 사전을 생성한다.

[0076]

프로세서(630)는 키워드 및 one-hot 인코딩한 벡터 데이터를 포함하는 범죄유형 학습용 데이터셋을 생성한다.

[0077]

프로세서(630)는 신규 범죄 사건 정보를 분석하여 범죄 유형 확률값을 포함하는 범죄 유형 예측 결과를 제공한다.

[0078]

본 발명의 다른 실시예에 따르면, 치안 데이터를 분석하여 범죄유형 정보 및 범죄유형별 대응 정보를 포함하는 데이터셋을 구축하여 학습을 수행하고, 신규 범죄 사건 데이터를 분석하여 신규 범죄 사건의 범죄유형 추론 결과 및 대응 매뉴얼 정보를 제공한다. 이를 통해, 현장 출동 요원들은 신규 범죄 사건에 대한 대응 매뉴얼 정보를 수신하여, 현장 출동 조치에 필요한 수단을 미리 준비할 수 있다.

[0079]

본 발명의 또 다른 실시예에 따르면, 소스 데이터에는 신고 컨텍스트 정보 및 대응 정보가 포함되며, 상황 별 대응 매뉴얼에 대한 학습을 수행한다. 학습 수행 결과를 이용하여, 신규 범죄 사건 접수 시 범죄 유형 추론 결과 및 대응 매뉴얼 정보가 제공된다. 예컨대, 경찰서로 신고 전화가 왔는데, 신고자가 "피자를 배달해주세요"라고 하는 경우를 가정한다. 신고 접수자가 이를 단순한 장난전화로 판단하지 않고, 범죄자가 협박하는 상황에서 몰래 신고하는 것으로 파악하여, 현장 출동을 지시하여 해당 사건을 해결한 이력이 있으면, 신고 컨텍스트 정보 및 그 신고에 대한 대응 정보를 포함하여 데이터셋을 구축하고, 범죄 사건 대응 모델을 구축하고 학습을 수행한다.

[0080]

이에 따라, 신고자에 의해 접수된 신규 범죄 사건 신고 텍스트의 키워드에 "배달"이 포함되고, 신고자의 신고 위치가 모텔인 경우, 감금, 데이트 폭력 등에 대한 신규 범죄 사건 유형을 추론하고, 그 추론 결과와 함께 대응 매뉴얼 정보(예컨대 "현장 출동 요원은 피자 배달원인 척 가장하여 진입할 것", "배달 주문을 가장한 신고의 위치는 AA 모텔의 201호이고, 해당 위치는 창문 밖 외부 가스 배관을 이용한 피의자 도주가 가능하므로, 해당 도주로를 차단할 것", "배달 주문을 가장한 신고의 위치는 BB 모텔의 801호이고, 창문을 통해 피해자가 탈출하는 경우를 대비하여 에어매트를 설치할 것")를 제공한다.

[0081]

한편, 본 발명의 실시예에 따른 방법은 컴퓨터 시스템에서 구현되거나, 또는 기록매체에 기록될 수 있다. 컴퓨터 시스템은 적어도 하나 이상의 프로세서와, 메모리와, 사용자 입력 장치와, 데이터 통신 버스와, 사용자 출력 장치와, 저장소를 포함할 수 있다. 전술한 각각의 구성 요소는 데이터 통신 버스를 통해 데이터 통신을 한다.

[0082]

컴퓨터 시스템은 네트워크에 커플링된 네트워크 인터페이스를 더 포함할 수 있다. 프로세서는 중앙처리 장치(central processing unit (CPU))이거나, 혹은 메모리 및/또는 저장소에 저장된 명령어를 처리하는 반도체 장치일 수 있다.

[0083]

메모리 및 저장소는 다양한 형태의 휘발성 혹은 비휘발성 저장매체를 포함할 수 있다. 예컨대, 메모리는 ROM 및 RAM을 포함할 수 있다.

[0084]

따라서, 본 발명의 실시예에 따른 방법은 컴퓨터에서 실행 가능한 방법으로 구현될 수 있다. 본 발명의 실시예에 따른 방법이 컴퓨터 장치에서 수행될 때, 컴퓨터로 판독 가능한 명령어들이 본 발명에 따른 방법을 수행할 수 있다.

[0085]

한편, 상술한 본 발명에 따른 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래시 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한, 컴퓨터로 판독 가능한 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.



[0001a]

본 발명은 텍스트 데이터 기반 범죄사건 유형 추론 시스템 및 그 방법에 관한 것이다. 본 발명에 따른 텍스트 데이터 기반 범죄사건 유형 추론 시스템은 범죄 사건 소스 데이터를 수신하고, 범죄 키워드를 추출하여 범죄 유형 키워드 사전을 생성하는 키워드 사전 구축부와, 범죄 사건 소스 데이터 및 키워드 사전을 이용하여 범죄사건 유형 학습용 데이터셋을 생성하는 데이터셋 구축부와, 데이터셋을 이용하여 범죄유형 예측 모델을 생성하고, 학습을 수행하는 범죄유형 예측 모델 학습부 및 범죄사건 데이터를 이용하여 범죄유형 추론을 수행하는 범죄유형 추론부를 포함한다.



1.

범죄 사건 소스 데이터를 수신하고, 범죄 키워드를 추출하여 범죄 유형 키워드 사전을 생성하는 키워드 사전 구축부; 상기 범죄 사건 소스 데이터 및 키워드 사전을 이용하여 범죄사건 유형 학습용 데이터셋을 생성하는 데이터셋 구축부; 상기 데이터셋을 이용하여 범죄유형 예측 모델을 생성하고, 학습을 수행하는 범죄유형 예측 모델 학습부; 및신규 범죄사건 데이터를 이용하여 범죄유형 추론을 수행하는 범죄유형 추론부 를 포함하는 텍스트 데이터 기반 범죄사건 유형 추론 시스템.

2.

제1항에 있어서, 상기 범죄 사건 소스 데이터는 범죄 사건에 관련한 텍스트 데이터 및 범죄유형 정답 레이블을 포함하는 것인 텍스트 데이터 기반 범죄사건 유형 추론 시스템.

3.

제1항에 있어서, 상기 키워드 사전 구축부는 상기 범죄 사건 소스 데이터에 포함되는 노이즈를 제거하고, 형태소 분석을 수행하며, 형태소 분석 수행 결과에 대해 범죄 유형 별로 그룹핑을 수행하는 것인 텍스트 데이터 기반 범죄사건 유형 추론 시스템.

4.

제1항에 있어서, 상기 키워드 사전 구축부는 복수 개의 자연어 분석 알고리즘을 이용하여 범죄 키워드를 추출하고, 범죄 키워드 추출 결과를 통합하는 것인 텍스트 데이터 기반 범죄사건 유형 추론 시스템.

5.

제4항에 있어서, 상기 키워드 사전 구축부는 상기 범죄 키워드의 추출 결과를 평가 점수 순서대로 정렬하고, 정렬 결과를 이용하여 상기 범죄 유형 키워드 사전을 구축하는 것인 텍스트 데이터 기반 범죄사건 유형 추론 시스템.

6.

제1항에 있어서, 상기 데이터셋 구축부는 상기 범죄 사건 소스 데이터를 이용하여 추출한 사건별 키워드 및 상기 키워드 사전을 이용하여 상기 범죄사건 유형 학습용 데이터셋을 생성하는 것인 텍스트 데이터 기반 범죄사건 유형 추론 시스템.

7.

제6항에 있어서, 상기 데이터셋 구축부는 범죄 유형에 대해 one-hot 인코딩된 값을 상기 범죄사건 유형 학습용 데이터셋과 매칭시키는 것인 텍스트 데이터 기반 범죄사건 유형 추론 시스템.

8.

제7항에 있어서, 상기 범죄유형 예측 모델 학습부는 상기 one-hot 인코딩된 값과 기계학습 출력값을 비교하여 학습을 수행하는 것인 텍스트 데이터 기반 범죄사건 유형 추론 시스템.

9.

제1항에 있어서, 상기 범죄유형 추론부는 신고 접수 텍스트인 상기 신규 범죄사건 데이터를 분석하여, 범죄유형에 대한 확률값을 포함하는 추론 결과를 제공하는 것인 텍스트 데이터 기반 범죄사건 유형 추론 시스템.

10.

텍스트 데이터 기반 범죄사건 유형 추론 시스템에 의하여 수행되는 텍스트 데이터 기반 범죄사건 유형 추론 방법에 있어서, (a) 치안 데이터를 분석하고 키워드를 추출하는 단계;(b) 상기 키워드를 범죄 유형 별로 분류하고 키워드 사전을 구축하는 단계; (c) 상기 키워드 사전을 이용하여 기계학습 기반의 범죄유형 예측 모델을 구축하고 학습을 수행하는 단계; 및(d) 신규 범죄 사건 정보를 이용하여 범죄유형을 예측하는 단계를 포함하는 텍스트 데이터 기반 범죄사건 유형 추론 방법.

11.

제10항에 있어서, 상기 (a) 단계는 범죄사건 텍스트 데이터 및 범죄 유형 정보를 포함하는 상기 치안 데이터를 분석하여, 상기 키워드를 추출하는 것인 텍스트 데이터 기반 범죄사건 유형 추론 방법.

12.

제10항에 있어서, 상기 (a) 단계는 상기 치안 데이터에 포함되는 노이즈를 제거하고 형태소 분석을 수행하여, 상기 키워드를 추출하는 것인 텍스트 데이터 기반 범죄사건 유형 추론 방법.

13.

제10항에 있어서, 상기 (a) 단계는 복수 개의 자연어 분석 알고리즘을 이용하여 상기 키워드를 추출하는 것인 텍스트 데이터 기반 범죄사건 유형 추론 방법.

14.

제13항에 있어서, 상기 (b) 단계는 상이한 상기 복수 개의 자연어 분석 알고리즘을 이용하여 추출한 결과를 정렬하고 상기 키워드 사전을 구축하는 것인 텍스트 데이터 기반 범죄사건 유형 추론 방법.

15.

제10항에 있어서, 상기 (c) 단계는 범죄 유형에 대해 one-hot 인코딩된 값을 이용하여 상기 학습을 수행하는 것인 텍스트 데이터 기반 범죄사건 유형 추론 방법.

16.

제10항에 있어서, 상기 (d) 단계는 신고 접수 텍스트인 상기 신규 범죄 사건 정보를 이용하여 범죄유형을 예측하고, 범죄유형에 대한 확률값을 포함하는 예측 결과를 제공하는 것인 텍스트 데이터 기반 범죄사건 유형 추론 방법.

17.

범죄 사건 소스 데이터를 수신하는 입력부; 상기 범죄 사건 소스 데이터를 이용하여 키워드 사전을 구축하고 범죄유형 예측 모델을 생성하는 프로그램이 저장된 메모리; 및상기 프로그램을 실행시키는 프로세서를 포함하고, 상기 프로세서는 상기 범죄 사건 소스 데이터로부터 키워드를 추출하여 상기 키워드 사전을 생성하고, 상기 범죄 사건 소스 데이터 및 키워드 사전을 이용하여 범죄유형 학습용 데이터셋을 생성하는 것인 텍스트 데이터 기반 범죄사건 유형 추론 장치.

18.

제17항에 있어서, 상기 프로세서는 복수 개의 상이한 자연어 분석 알고리즘을 이용하여 상기 키워드를 추출하고, 추출된 키워드를 합병하여 상기 키워드 사전을 생성하는 것인 텍스트 데이터 기반 범죄사건 유형 추론 장치.

19.

제17항에 있어서, 상기 프로세서는 상기 키워드 및 one-hot 인코딩한 벡터 데이터를 포함하는 상기 범죄유형 학습용 데이터셋을 생성하는 것인 텍스트 데이터 기반 범죄사건 유형 추론 장치.

20.

제17항에 있어서, 상기 프로세서는 신규 범죄 사건 정보를 분석하여 범죄 유형 확률값을 포함하는 범죄 유형 예측 결과를 제공하는 것 인 텍스트 데이터 기반 범죄사건 유형 추론 장치.