앨리비 테크

AI가 긴 문서를 읽는 새로운 방법

더 긴 문맥을 이해하는 새로운 AI 아키텍처 설계: RoPE와 NoPE를 함께 사용하는 멀티스케일 전략
2025-10-30

AI가 긴 문서를 읽는 새로운 방법

100페이지가 넘는 계약서를 검토할 때, 인간 변호사는 어떻게 작업할까요? 먼저 각 조항을 순서대로 꼼꼼히 읽어가며 세부 내용을 파악합니다. 이때 변호사는 "제10조의 지체상금 조항이 제25조의 보증기간과 어떤 관계에 있는지" 같은 전체적인 맥락도 함께 고려하게 됩니다.

최근 등장한 초장문 AI 모델들이 바로 이런 방식으로 진화하고 있습니다. Gemma-3와 Exaone-4.0 같은 128K 컨텍스트 모델들이 공통적으로 채택한 RoPE+NoPE 멀티스케일 전략은 단순한 기술적 개선을 넘어, AI가 인간처럼 "로컬과 글로벌을 동시에 이해"할 수 있게 하는 새로운 접근법입니다.

핵심 요약

1. RoPE는 상대적 거리 정보를 학습하지만 긴 문맥에서는 왜곡이 발생합니다.

2. NoPE 레이어는 위치 신호를 제거해 원거리 의미적 관계를 강화합니다.

3. Gemma-3(5:1), Exaone-4.0(3:1)은 RoPE+NoPE 교차 구조로 멀티스케일 이해를 구현했습니다.

4. 긴 계약서 검토에서는 조항 간 원거리 의미 연결이 필수적이며, 이는 법률 AI의 정밀성 확보와 직결됩니다.

1. RoPE(Positional Encoding)의 역할과 한계

대규모 언어모델(LLM)의 핵심 기술인 Self-Attention은 기본적으로 토큰의 순서를 이해하는 능력이 없기 때문에, 텍스트가 어떤 구조를 갖고 있는지를 알려주는 장치가 반드시 필요합니다. 우리가 흔히 말하는 "위치 인코딩(positional encoding)"이 바로 그것입니다. Llama를 비롯한 대부분의 최신 오픈소스 모델에서 사실상의 표준으로 자리잡은 방식은 RoPE(Rotary Positional Embedding)입니다.

RoPE는 토큰 간 상대적 거리를 인코딩하기 위해 Q, K 벡터에 회전 변환을 적용합니다. 이 설계가 흥미로운 이유는 단순히 순서만을 전달하는 것이 아니라 다중 주파수의 회전을 통해 짧은 거리와 긴 거리의 관계를 동시에 포착한다는 점에 있습니다.

RoPE 작동 원리

예를 들어 높은 주파수 성분은 가까운 토큰들 사이의 미세한 순서 차이를 예민하게 반영합니다. 반면 낮은 주파수 성분은 수십·수백 토큰 떨어진 관계까지도 완만하게 반영합니다. 이는 사람의 시간 감각이 초–분–시–일–월–년이라는 다양한 주기를 동시에 사용해 짧은 찰나와 장기적인 흐름을 동시에 이해하는 것과 비슷합니다.

그러나 이 강력한 RoPE에도 분명한 한계가 있습니다. 대부분의 모델은 상대적으로 짧은 문맥을 기반으로 사전학습(pretraining)을 마친 후 긴 문맥으로 확장하는데, RoPE의 회전 각도는 본질적으로 주기성을 갖습니다. 때문에 짧은 범위에서는 유효하게 작동하지만, 학습 시 본 적 없는 "아주 먼 거리"로 가면 문제가 생깁니다.

그렇다보니 일정 주기마다 같은 패턴이 반복되면서, 실제로는 전혀 다른 위치에 있는 토큰들이 마치 같은 거리에 있는 것처럼 잘못 인식되며 모델이 긴 컨텍스트를 종합적으로 이해하지 못하고, 엉뚱한 관계를 만들어내거나 문맥을 왜곡하게 됩니다.

RoPE 한계: 긴 문맥에서의 왜곡

이 때문에 기존 RoPE 기반 모델들은 4K, 8K, 길어도 32K 수준의 컨텍스트에서만 안정적으로 동작했으며, 100K를 넘어서는 초장문 컨텍스트에서는 정확도가 급격히 저하되는 문제를 피할 수 없었습니다.

2. NoPE(No Positional Embedding)의 등장과 효과

NoPE(No Positional Embedding)는 최근 등장한 Gemma-3Exaone-4.0 같은 초장문 모델들이 공통적으로 보여준 흥미로운 전략으로, 모든 레이어에서 RoPE를 쓰는 대신 RoPE와 NoPE 레이어를 교차 배치하는 방식을 취했습니다. 이때 Gemma-3는 RoPE:NoPE의 비율을 5:1로, Exaone-4.0은 3:1로 설계했습니다. 이로 인해 대부분의 레이어는 여전히 RoPE를 통해 위치 정보를 학습하지만, 일부 레이어에서는 아예 위치 인코딩이 제거된 채로 존재하게 되었습니다.

그렇다면 왜 위치 인코딩을 없애는 것이 문제점 개선에 도움이 될까요? NoPE 레이어는 Q–K 유사도를 계산할 때 순수하게 토큰의 의미적 표현에만 의존합니다. 위치 신호가 들어오지 않으니, 모델은 “이 토큰이 앞에 있었나 뒤에 있었나”를 고려하지 않고 오로지 의미적 연관성에 따라 연결을 만듭니다. 그 결과 멀리 떨어진 토큰들 사이에서도 의미적으로 중요한 연결을 놓치지 않고 잡아낼 수 있게 됩니다.

RoPE가 가까운 관계를 정밀하게 포착하는 장치라면, NoPE는 거리 왜곡이라는 노이즈를 제거한 채 전역적(global) 관점에서 문맥을 바라보게 해주는 창이라고 할 수 있습니다. 물론 이 과정에서 상대적 순서를 직접적으로 추적하는 능력은 손실되지만, 이미 앞선 RoPE 레이어에서 순서 정보가 충분히 학습되었기 때문에 큰 문제가 되지 않습니다. 오히려 두 방식을 교차로 섞음으로써 모델은 로컬 정보와 글로벌 정보 사이에서 균형을 잡는 능력을 얻게 되는 것입니다.

NoPE 작동 원리

이 전략이 단순한 성능 개선을 위한 트릭이 아니라는 점은 Gemma-3와 Exaone-4.0의 결과에서 확인할 수 있습니다. 두 모델 모두 128K라는, 기존 오픈소스 모델들이 감히 다루지 못했던 초장문 컨텍스트에서 안정적인 성능을 보여주었으며, 특히 문맥이 길어질수록 오히려 더 견고한 이해도를 발휘했습니다.

3. RoPE+NoPE 멀티스케일 아키텍처와 긴 계약서 검토 사례

RoPE와 NoPE를 교차 배치하는 방식은 단순히 "위치 인코딩을 빼니 잘 되더라"는 우연의 산물이라기 보다는, 의도적으로 모델 내부에 멀티스케일 아키텍처를 설계한 것이라고 보는 편이 맞습니다.

RoPE는 인접 토큰 사이의 국소적인 관계를 담당하고, NoPE는 수십 쪽 이상 떨어진 토큰들 사이의 의미적 관계를 맡아 처리하도록 함으로써 둘이 교차하며 모델이 짧은 스케일과 긴 스케일을 번갈아 해석하는 능력을 내재화할 수 있게 되는 것입니다.

RoPE + NoPE 멀티스케일 구조

이 구조가 특히 빛을 발하는 분야가 바로 법률 계약서 검토입니다. 계약서는 수십 페이지, 많게는 수백 페이지에 이르는 장문 문서로 구성되며, 개별 조항들이 물리적으로는 멀리 떨어져 있어도 실질적으로는 하나의 법적 장치를 이루는 경우가 많습니다.

예를 들어 EPC(Engineering, Procurement, Construction: 대규모 플랜트·인프라 사업에서 설계, 자재조달, 시공까지를 일괄 책임 수행하는 턴키 방식 계약을 말함) 계약서를 떠올려 봅시다.

• 제10조 (지체상금)에서는 공사가 지연될 경우 일정 비율의 금액을 벌금처럼 부과한다고 규정합니다.

• 제25조 (보증 및 보증기간)에서는 완공 후에도 일정 기간 동안 시공자가 품질을 보증해야 한다고 규정합니다.

EPC 계약서 내 조항 연결 예시

이처럼 두 조항은 문서 상으로는 수십 페이지 이상 떨어져 있지만, 실제 해석할 때에는 서로 긴밀히 연결해 파악해야 합니다. 지체상금 조항이 발효되려면 "완공 기준"과 "보증의무 범위"가 어떻게 설정되어 있는지가 함께 고려되어야 하기 때문입니다.

이때 RoPE는 지체상금 조항 내부의 계산 방식과 문구를 정밀하게 이해하는 데 기여하고, NoPE는 이 조항과 보증 조항 사이의 장거리 의미적 연결을 포착합니다. 이렇게 해서 모델은 "완공 지연 → 지체상금 부과 → 보증기간 산정"이라는 종합적인 법적 로직을 추론할 수 있게 됩니다.

비슷한 사례는 주주간 계약서에서도 나타납니다. 예를 들어 제12조 (지분 양도 제한)과 제30조 (우선매수권)은 각각 다른 영역에 위치해 있지만, 실제로는 양도 제한을 조건으로 우선매수권이 발동되는 구조를 이룹니다. 이 경우도 마찬가지로 RoPE가 각 조항 내의 세부 규율을 세밀하게 파악한다면, NoPE는 이 두 조항 사이의 전역적 연결을 만들어냅니다. 덕분에 모델이 "양도 제한 조항은 곧 우선매수권 발동 조건"이라는 법리적 구조를 이해하게 되는 것입니다.

이처럼 긴 계약서는 단일 조항만을 해석해서는 결코 올바른 판단을 내릴 수 없으며, 여러 쪽에 흩어진 조항들을 동시에 고려해 종합적으로 판단해야 합니다. 때문에 RoPE와 NoPE를 교차시킨 멀티스케일 구조는 바로 이 작업에 최적화된 설계라 할 수 있습니다.

BHSN이 개발 중인 계약 검토 AI 역시 이러한 점에서 NoPE 구조와 자연스럽게 맞닿아 있습니다. 단순한 “문장 요약” 수준을 넘어서, EPC 계약서와 주주간 계약서처럼 복잡하게 얽힌 긴 문서를 전반적으로 이해하고, 숨겨진 쟁점들을 찾아내고, 서로 멀리 떨어진 조항들을 의미적으로 연결해주는 능력이 필요합니다. RoPE+NoPE 멀티스케일 아키텍처는 바로 이런 요구에 대한 기술적 해답이 될 수 있습니다.

4. 새로운 AI 아키텍처가 열어가는 미래

"위치 정보를 제거하면 오히려 더 잘 이해한다"는 역설적 발견은 단순한 기술적 호기심을 넘어서는 의미를 갖습니다. 이는 AI가 인간의 인지 과정을 모방하는 새로운 방식을 제시하기 때문입니다.

인간이 긴 문서를 읽을 때도 비슷한 과정을 거칩니다. 처음에는 순서대로 꼼꼼히 읽어가며 세부사항을 파악합니다. 하지만 어느 순간부터는 "이 내용이 앞서 본 저 내용과 연결되는군"하며 전체적인 구조를 그려나갑니다. RoPE+NoPE 멀티스케일 전략은 바로 이런 인간의 이해 과정을 AI 아키텍처에 구현한 것이라고 할 수 있습니다.

이처럼 위치 정보를 모델이 더 잘 분석하도록 설계된 RoPE를 일부 제거하면 오히려 global context 이해도가 높아진다는 발견은, AI 발전의 다음 단계가 단순한 규모 확장이 아니라 아키텍처의 지능적 설계에 있음을 보여주는 중요한 사례라 할 수 있습니다. 때문에 앞으로 더 많은 모델들이 이런 멀티스케일 접근법을 채택할 것으로 예상됩니다. 특히 법률, 의료, 금융 같은 전문 분야에서 긴 문서를 다루는 AI들에게는 필수적인 기술이 될 것입니다.

AI를 통한 업무 혁신, 앨리비로 시작해보세요!
아래 링크를 통해 가입하시면 14일간 무료로 사용해보실 수 있습니다.
가입하고 14일간 무료 체험하기
(재)행복나눔재단 SIT(Social Innovators Table)팀
서울시 용산구 장문로 60 (동빙고동) 02-333-3963
수신거부 Unsubscribe
SNS에 공유하기
URL 복사 완료