현대 사회에서 가장 진보된 AI 모델: LLM(대규모 언어 모델)
작성자: 이동환 AI 팀장, 스칼렛 배 AI 전문가
AI 모델의 역사적 발전 과정을 살펴보면 초기 규칙 기반 시스템에서 오늘날의 GPT-3 및 GPT-4와 같은 고도로 발전된 모델로의 진화는 정말 놀랍습니다. AI는 단순한 규칙 기반 접근 방식에서 시작하여 머신러닝을 거쳐 기술의 발전과 대규모 데이터에 대한 접근성 향상에 힘입어 딥러닝에 이르렀습니다. 오늘날 AI는 많은 산업에서 필수적인 부분이 되었습니다.
최근 AI의 발전 중에서 가장 눈에 띄는 기술은 의심할 여지 없이 대규모 언어 모델(LLM)입니다. LLM은 대규모 텍스트 데이터셋으로 학습된 심층 신경망 모델로, 인간의 언어를 이해하고 생성할 수 있습니다. 이러한 모델은 수십억 또는 수조 개의 단어가 포함된 데이터 세트에서 학습할 수 있으므로 텍스트 내의 복잡한 관계와 문맥을 파악할 수 있습니다.
LLM은 종종 AI의 한 분야로 여겨지지만, 여전히 추상적이고 이해하기 어렵게 느껴질 수 있습니다. 수학적으로는 "수많은 비선형 회귀 모델로 구성된 복잡한 시스템"으로 생각할 수 있으며, 이는 본질적으로 딥러닝 모델과 같은 개념입니다. 이러한 시스템은 텍스트의 장거리 종속성을 포착하는 데 탁월한 트랜스포머 아키텍처와 결합하면 인간과 같은 자연스러운 대화가 가능한 대규모 언어 모델로 진화합니다.
[그림 1. 신경망 모델과 비선형 회귀 모델]
LLM의 한계와 이를 극복하는 방법
대규모 언어 모델(LLM)의 강점은 분명합니다. 뛰어난 자연어 처리 기능을 통해 문서 분석과 고객 지원부터 콘텐츠 제작에 이르기까지 다양한 분야에 적용할 수 있습니다. 방대한 양의 학습 데이터를 기반으로 하는 유연성과 확장성은 타의 추종을 불허합니다.
하지만 이러한 장점에도 불구하고 LLM에는 주목할 만한 한계가 있습니다. 그러한 문제 중 하나는 부정확하거나 조작된 정보를 생성하는 환각입니다. 다른 한계로는 도메인별 전문 지식의 부족과 정교한 추론 수행의 어려움 등이 있습니다. 이러한 한계는 보험 계리학과 같이 정확성과 신뢰성이 중요한 분야에 LLM을 적용할 때 상당한 위험을 초래합니다. 부정확한 정보에 기반한 결과는 재무 건전성을 저해하고 규제 위반으로 이어지며 신뢰를 훼손할 수 있습니다.
이러한 우려를 해소하기 위해서는 사실에 기반한 지식과 논리 구조를 명확하게 제시하는 방법론에 대한 연구가 선행되어야만 위험도가 높은 환경에서 LLM을 도입할 수 있습니다.
솔루션 1: RAG(검색 증강 세대)
LLM의 한계를 극복하기 위한 가장 유망한 접근 방식 중 하나는 검색 증강 생성(RAG)입니다. RAG를 사용하면 LLM이 외부 지식 소스에서 실시간으로 정보를 검색하고(검색), 이 데이터로 응답을 보강하며(보강), 마지막으로 더 정확한 결과물을 생성(생성)할 수 있습니다. 사전 학습된 매개변수에만 의존하는 기존 LLM과 달리 RAG는 신뢰할 수 있는 외부 소스를 참조하여 정확도와 신뢰성을 크게 향상시킵니다.
RAG의 작동 원리를 자세히 살펴보세요:
쿼리: 사용자가 질문이나 요청을 입력합니다.
검색: 검색: 시스템이 지식창고에서 쿼리를 기반으로 의미적으로 관련된 정보를 검색합니다.
증강: 검색된 데이터는 원래 쿼리와 결합되어 답변 생성 모델에 입력됩니다.
생성: 생성: 모델은 이 강화된 입력을 사용하여 최종 응답을 생성합니다.
결론적으로 RAG는 환각을 줄이기 위한 구조화된 방법을 제공하며 매우 효과적이고 현실적인 프레임워크입니다. 단순히 LLM의 약점을 보완하는 것이 아니라 신뢰할 수 있는 AI 시스템을 구축하기 위한 기반 기술입니다. 따라서 RAG는 정확성과 신뢰성이 가장 중요한 보험 계리 업무에 특히 적합합니다.
[그림 2. RAG 흐름 및 검색 방법론]
솔루션 2: 데이터 집합 - 문서 서식 지정
무엇보다도 모든 AI 프로젝트의 성공에 가장 중요한 요소는 데이터 세트입니다. 데이터의 품질이 AI 시스템의 성능을 직접적으로 결정하기 때문입니다. 보험 업계에서는 이미 AI 시스템에 막대한 투자를 했지만 기대한 만큼의 성과를 거두지 못한 사례가 있습니다.
중요한 이유 중 하나는 문서 서식입니다. 보험사 데이터가 포함된 많은 문서가 기계가 읽을 수 있는 형식으로 작성되지 않습니다. 이는 단순히 오타나 문법 오류를 의미하는 것이 아니라 문서의 구조가 AI가 이해하기에 최적화되지 않은 경우가 많다는 것을 의미합니다. 문서 품질은 AI를 통한 보험 계리 생산성 향상에 필수적이므로, 개선이 필요한 세 가지 오래된 문서 관행을 해결하는 것이 중요합니다.
첫째: PDF 기반 문서에서 벗어나기
PDF는 인쇄용으로 설계된 것이지 기계가 해석하도록 설계된 것이 아닙니다. 사람이 보기에는 시각적으로 명확하지만, 기계가 보기에는 그 구조가 모호한 경우가 많습니다. OCR(광학 문자 인식) 및 비전 트랜스포머와 같은 기술을 사용하여 PDF를 분석하려는 시도가 있었지만 이러한 접근 방식은 여전히 정확도에 한계가 있고 사전 및 사후 처리에 상당한 시간과 비용이 필요합니다.
반면 .docx, .tex, .html, .md(마크다운)와 같은 형식은 텍스트 기반이며 전 세계적으로 인정받는 표준으로 AI가 정확하게 구문 분석할 수 있습니다. 특히 Microsoft의 오픈 소스 'Markitdown' 프로젝트는 전 세계 기여자 커뮤니티에서 활발하게 개발 중이므로 다양한 보험 문서 요구 사항에 매우 적합합니다.
조직에서 여전히 비표준 또는 국가별 워드 프로세서를 사용하고 있다면 AI 통합으로의 전환에 뒤처질 위험이 높습니다. 이러한 문서를 기계가 읽을 수 있는 형식으로 변환할 수 있는 사내 도구를 개발하거나 가능한 한 빨리 전사적으로 표준 형식으로 전환하는 것이 필수적입니다.
둘째: 이미지 기반 방정식 대신 LaTeX 또는 KaTeX 사용
보험 계리 업무에는 복잡한 수학 공식이 자주 등장합니다. 하지만 여전히 많은 문서에 이러한 공식이 이미지로 포함되어 있습니다. 문제는 무엇일까요? AI 시스템은 이미지 기반 수식을 읽을 수 없다는 것입니다. OCR 기술로 어느 정도 인식할 수는 있지만 정확도가 떨어지고 처리 비용이 증가하는 경우가 많습니다.
확실한 해결책은 방정식을 작성할 때 LaTeX나 KaTeX와 같은 TeX 기반 구문을 사용하는 것입니다. 수식이 시각적으로 올바르게 보이더라도 내부 구문이 적절하지 않으면 AI가 이를 해석할 수 없는데, 이는 전형적인 '쓰레기 입력, 쓰레기 출력' 시나리오입니다. 특히 KaTeX를 적극 권장합니다. 웹 브라우저에서 빠르게 렌더링되고 기술 전문가가 아닌 사용자도 쉽게 배울 수 있어 조직 전체에 도입하기에 이상적입니다.
셋째: 표로 전체 문서 서식 지정하지 않기
일부 문서는 레이아웃을 관리하기 위해 전체에 표를 사용합니다. 사람에게는 깔끔하게 보일 수 있지만, AI에게는 암호화된 파일과 거의 같습니다. 표는 제목, 단락, 섹션과 같은 문서의 의미 구조를 모호하게 만들어 AI가 문맥을 파악하기 매우 어렵게 만듭니다.
특히 제목, 부제목, 설명이 표 셀 안에 모두 배치되어 있으면 AI가 문서의 핵심 메시지를 구분하고 이해하는 데 어려움을 겪습니다. 대신 제목 스타일, 단락, 글머리 기호 등 워드 프로세서에 내장된 시맨틱 서식 지정 도구를 사용하세요. 이렇게 하면 AI의 가독성이 향상될 뿐만 아니라 문서의 검색 가능성과 장기적인 유지 관리 가능성도 향상됩니다.
보험사는 방대한 데이터 자산을 보유하고 있습니다. 하지만 이러한 데이터가 기계 판독 가능한 형식으로 제공되지 않으면 그 가치를 실현할 수 없습니다.
AI로의 전환은 단순히 새로운 기술을 도입하는 문제가 아닙니다. 정보 구조를 표준화하고 인간과 기계가 모두 이해할 수 있는 문서를 만드는 등 전략적 전환이 필요합니다.
이제 내부 문서화 관행을 검토할 때입니다. PDF와 이미지 기반 공식을 없애고 AI 친화적인 문서 구조를 채택하세요. AI 구현의 진정한 출발점은 알고리즘이 아니라 문서입니다.
솔루션 3: 온톨로지
보험 계리 과학에서 온톨로지 구축은 매우 중요한 단계입니다. 온톨로지에는 주요 개념과 용어를 명확하게 정의하고 구조화하여 AI 시스템이 정보를 더 잘 이해하고 처리할 수 있도록 하는 것이 포함됩니다. 보험 계리 영역에서 온톨로지는 데이터 상호 운용성과 구조적 이해를 크게 향상시켜 보다 정확하고 시기적절한 의사 결정을 내릴 수 있게 해줍니다.
온톨로지는 보험 상품 구조, 계리/통계/재무 기법, 법률 및 회계 규정, 회사 내부 규정 및 매뉴얼 등 특정 도메인 내의 개념과 관계를 체계적으로 정의합니다. 이렇게 구조화된 지식이 지식 그래프에 포함되면 대규모 언어 모델(LLM)이 관련 정보 전반에 걸쳐 더 높은 정확도, 더 나은 문맥 이해, 향상된 추론으로 응답할 수 있게 됩니다.
예를 들어 사용자가 특정 보험 상품의 책임준비금을 계산하는 방법을 묻는 경우 LLM은 지식 그래프를 활용하여 관련 규정, 수학적 방법 및 유사한 상품 사례를 종합하여 신뢰할 수 있는 답변을 생성할 수 있습니다. 동시에 응답의 기반이 되는 개념과 데이터 포인트를 시각적으로 제시하여 투명성과 사용자 신뢰를 모두 향상시킬 수 있습니다.
[그림 3. 가상의 암 보험 상품에 대한 지식 그래프 예시]]
이러한 기술을 실제로 적용하려면 보험계리사, 데이터 과학자, AI 엔지니어 간의 긴밀한 협업이 필수적입니다. 온톨로지와 지식 그래프 구축에 대한 단계적 접근 방식이 중요합니다. 관계를 추출하고 업데이트하는 자동화된 기술을 개발하고 대규모 언어 모델(LLM)과 지식 그래프를 연결하는 통합 시스템을 설계하는 것도 마찬가지로 중요합니다.
이동환 RNA Analytics AI 랩장은 "LLM은 계리 업무의 효율성과 접근성을 획기적으로 개선할 잠재력을 가지고 있지만, 안전한 도입을 위해서는 신뢰성을 확보하는 것이 중요하다"고 강조했습니다. 또한 그는 "고품질 데이터, 표준화된 문서 구조, 온톨로지, 지식 그래프는 현재 AI의 한계를 극복하고 계리 프로세스의 진정한 혁신을 주도하는 핵심 요소입니다."라고 덧붙였습니다.
보험 계리 과학에서 AI 도입은 더 이상 실험적인 수준에 머물지 않습니다. 잘 구조화된 지식 프레임워크와 통합 시스템 설계를 통해 진정한 자동화와 정보 정확도를 높이는 전략적 전환으로 진화하고 있습니다.