Dialogue Extractor

웹소설 작가 및 NLP 데이터를 위한 비탐욕적 대사 정밀 파싱 도구

🎯 추출 대상 기호 선택: 큰따옴표 (" ", “ ”) 작은따옴표 (' ', ‘ ’) 홑/겹 꺾쇠 (「」, 『』)

📝 원본 텍스트 (지문 + 대사)

입력: 0자

✨ 추출된 순수 대사 결과

추출됨: 0자

🔍 대사 추출기란 무엇인가요? (What is this Tool)

💡 쉽고 빠른 3-Step 사용 방법 (How to Use)

Step 1

원고 붙여넣기

화면 좌측(모바일은 상단)의 '원본 텍스트' 창에 웹소설 원고나 대본 등 파싱(Parsing)할 텍스트 데이터를 통째로 복사하여 붙여넣습니다.

Step 2

기호 옵션 선택

추출을 원하는 따옴표 기호(큰따옴표, 작은따옴표, 시스템용 꺾쇠 등)의 체크박스를 목적에 맞게 조합하여 선택합니다.

Step 3

추출 및 복사

'대사 일괄 추출하기' 버튼을 누르면 우측(하단) 창에 화자의 대사만 출력됩니다. 확인 후 복사하여 사용하십시오.

⚙️ 기술 명세 및 비탐욕적 파싱 알고리즘 (Technical Specs)

초급 개발자들이 텍스트 파싱에서 가장 흔히 범하는 오류는 '탐욕적 매칭(Greedy Matching)'입니다. 이는 첫 번째 따옴표부터 문단 끝의 마지막 따옴표까지 통째로 집어삼키는 치명적인 버그를 일으킵니다.

본 도구는 자바스크립트 V8 엔진 기반의 비탐욕적 탐색 수식(Non-Greedy, .*?)을 적용하여, 따옴표가 열린 직후부터 '다음번 따옴표가 닫히는 가장 짧은 독립된 구간'만을 정밀하게 타겟팅합니다. 일반 텍스트뿐만 아니라 스마트 따옴표(둥근 형태), 동양권 꺾쇠 유니코드까지 완벽하게 식별합니다.

1. 혼합 원고 입력 지문 + "대사 1" + 지문 + "대사 2"

➔

2. 비탐욕 정규식 (.*?) 가장 짧은 독립 구간 매칭

➔

3. 배열화 및 출력 ["대사 1"], ["대사 2"] 파싱 완료

※ 3중 기호 동시 추출 정규표현식 로직

regex-extractor-logic.js

// 프레티 툴즈: 비탐욕적(Non-Greedy) 정규식 기반 대사 파싱 엔진
const dialogueExtractor = {
  extract: (rawText, options) => {
    let results = [];
    
    // 1. 큰따옴표 & 스마트 따옴표 병합 추출 (다중행 매칭)
    if (options.doubleQuotes) {
      results = results.concat(rawText.match(/["“][\s\S]*?["”]/g) || []);
    }
    
    // 2. 작은따옴표 병합 추출
    if (options.singleQuotes) {
      results = results.concat(rawText.match(/['‘][\s\S]*?['’]/g) || []);
    }
    
    // 3. 동양권 특수 꺾쇠 병합 추출
    if (options.angleBrackets) {
      results = results.concat(rawText.match(/[「『][\s\S]*?[」』]/g) || []);
    }
    
    return results.join('\n\n'); // 가독성을 위한 이중 줄바꿈 처리
  }
};

💡 실무 활용 시나리오 (Practical Use Cases)

오디오북 / TTS 대본 전처리

웹소설을 기반으로 오디오 드라마다(Audio Drama)를 제작하거나 AI TTS(Text-to-Speech) 엔진에 텍스트를 먹일 때, 성우가 발성해야 하는 순수 '대사' 부분만 추출하여 깔끔한 리딩용 대본을 구축할 수 있습니다.

인공지능 NLP 파인튜닝 (AI 학습)

거대 언어 모델(LLM)에게 특정 소설가의 문체나 캐릭터 화법을 학습시키기 위한 '대화형 코퍼스(Dialogue Corpus)'를 구축할 때, 지문 노이즈를 제거하여 AI 추론 정확도와 감성 분석 능력을 극적으로 끌어올립니다.

캐릭터 보이스 일관성 검증

작가가 원고 집필을 마친 후, 특정 등장인물의 대사가 성격에 맞게 일관된 톤앤매너를 유지하고 있는지 파악하기 위해 대사만 쭉 뽑아내어 집중적으로 퇴고(Editing)하는 용도로 활용됩니다.

🛠 장애 대응 및 자주 묻는 질문 (Troubleshooting)

Q. 추출된 결과물에 따옴표 기호 자체도 포함되어 출력되나요?

A. 네, 그렇습니다. 원본 텍스트가 큰따옴표인지, 작은따옴표인지, 혹은 시스템 꺾쇠인지 화자의 발화 형태를 시각적으로 명확히 구분할 수 있도록 묶여 있는 기호(Quote Marks)를 온전히 보존한 상태로 추출합니다.

Q. 수백 페이지에 달하는 소설 원고를 넣어도 브라우저가 다운되지 않습니까?

A. 전혀 문제가 없습니다. 정규식 매칭은 매우 가벼운 연산입니다. 수십 메가바이트(MB)에 달하는 텍스트라도 백엔드 서버 통신 없이 사용자 브라우저의 로컬 메모리 안에서 단 1초 이내에 모든 대사를 안전하게 분석하고 추출해 냅니다.

🛡️ 데이터 독립성 및 지적 재산권 보호 서약

FreetyTools는 작가님의 창작물을 존중하며, '서버 제로(Serverless-Processing)' 원칙을 고수합니다. 입력하신 소설 원고나 시나리오는 어떠한 외부 서버로도 전송되지 않으며, 오직 사용자님의 브라우저 메모리 내에서만 실시간으로 연산됩니다.

우리는 어떠한 로그도 남기지 않으며, 사용자님의 소중한 글을 데이터베이스에 수집하거나 AI 학습용으로 무단 활용하지 않음을 엄격히 서약합니다.

"작가님의 아이디어는 작가님의 기기 안에서만 머뭅니다. 그것이 웹 표준이 제공하는 가장 안전한 보안입니다."