원고 붙여넣기
화면 좌측(모바일은 상단)의 '원본 텍스트' 창에 웹소설 원고나 대본 등 파싱(Parsing)할 텍스트 데이터를 통째로 복사하여 붙여넣습니다.
웹소설 작가 및 NLP 데이터를 위한 비탐욕적 대사 정밀 파싱 도구
현대의 웹소설(Web Novel)이나 시나리오 대본 작업에서, 상황을 묘사하는 '지문(Description)'과 인물이 직접 발화하는 '대사(Dialogue)'를 분리해야 하는 시스템적 요구가 빈번하게 발생합니다. (예: 오디오북 TTS 대본 제작, 캐릭터 화법 검증 등)
수동으로 대사만 복사하여 옮기는 작업은 창작자의 물리적 체력을 고갈시킵니다. FreetyTools의 대사 전용 추출기는 방대한 원고 속에서 특정 기호로 둘러싸인 화자의 텍스트만을 즉각적으로 찾아내어 깔끔하게 분리해 주는 정적 유틸리티입니다. 이를 통해 작가는 '대화의 티키타카'가 자연스러운지 집중적으로 분석할 수 있습니다.
화면 좌측(모바일은 상단)의 '원본 텍스트' 창에 웹소설 원고나 대본 등 파싱(Parsing)할 텍스트 데이터를 통째로 복사하여 붙여넣습니다.
추출을 원하는 따옴표 기호(큰따옴표, 작은따옴표, 시스템용 꺾쇠 등)의 체크박스를 목적에 맞게 조합하여 선택합니다.
'대사 일괄 추출하기' 버튼을 누르면 우측(하단) 창에 화자의 대사만 출력됩니다. 확인 후 복사하여 사용하십시오.
초급 개발자들이 텍스트 파싱에서 가장 흔히 범하는 오류는 '탐욕적 매칭(Greedy Matching)'입니다. 이는 첫 번째 따옴표부터 문단 끝의 마지막 따옴표까지 통째로 집어삼키는 치명적인 버그를 일으킵니다.
본 도구는 자바스크립트 V8 엔진 기반의 비탐욕적 탐색 수식(Non-Greedy, .*?)을 적용하여, 따옴표가 열린 직후부터 '다음번 따옴표가 닫히는 가장 짧은 독립된 구간'만을 정밀하게 타겟팅합니다. 일반 텍스트뿐만 아니라 스마트 따옴표(둥근 형태), 동양권 꺾쇠 유니코드까지 완벽하게 식별합니다.
※ 3중 기호 동시 추출 정규표현식 로직
// 프레티 툴즈: 비탐욕적(Non-Greedy) 정규식 기반 대사 파싱 엔진
const dialogueExtractor = {
extract: (rawText, options) => {
let results = [];
// 1. 큰따옴표 & 스마트 따옴표 병합 추출 (다중행 매칭)
if (options.doubleQuotes) {
results = results.concat(rawText.match(/["“][\s\S]*?["”]/g) || []);
}
// 2. 작은따옴표 병합 추출
if (options.singleQuotes) {
results = results.concat(rawText.match(/['‘][\s\S]*?['’]/g) || []);
}
// 3. 동양권 특수 꺾쇠 병합 추출
if (options.angleBrackets) {
results = results.concat(rawText.match(/[「『][\s\S]*?[」』]/g) || []);
}
return results.join('\n\n'); // 가독성을 위한 이중 줄바꿈 처리
}
}; 웹소설을 기반으로 오디오 드라마다(Audio Drama)를 제작하거나 AI TTS(Text-to-Speech) 엔진에 텍스트를 먹일 때, 성우가 발성해야 하는 순수 '대사' 부분만 추출하여 깔끔한 리딩용 대본을 구축할 수 있습니다.
거대 언어 모델(LLM)에게 특정 소설가의 문체나 캐릭터 화법을 학습시키기 위한 '대화형 코퍼스(Dialogue Corpus)'를 구축할 때, 지문 노이즈를 제거하여 AI 추론 정확도와 감성 분석 능력을 극적으로 끌어올립니다.
작가가 원고 집필을 마친 후, 특정 등장인물의 대사가 성격에 맞게 일관된 톤앤매너를 유지하고 있는지 파악하기 위해 대사만 쭉 뽑아내어 집중적으로 퇴고(Editing)하는 용도로 활용됩니다.
A. 네, 그렇습니다. 원본 텍스트가 큰따옴표인지, 작은따옴표인지, 혹은 시스템 꺾쇠인지 화자의 발화 형태를 시각적으로 명확히 구분할 수 있도록 묶여 있는 기호(Quote Marks)를 온전히 보존한 상태로 추출합니다.
A. 전혀 문제가 없습니다. 정규식 매칭은 매우 가벼운 연산입니다. 수십 메가바이트(MB)에 달하는 텍스트라도 백엔드 서버 통신 없이 사용자 브라우저의 로컬 메모리 안에서 단 1초 이내에 모든 대사를 안전하게 분석하고 추출해 냅니다.
FreetyTools는 작가님의 창작물을 존중하며, '서버 제로(Serverless-Processing)' 원칙을 고수합니다. 입력하신 소설 원고나 시나리오는 어떠한 외부 서버로도 전송되지 않으며, 오직 사용자님의 브라우저 메모리 내에서만 실시간으로 연산됩니다.
우리는 어떠한 로그도 남기지 않으며, 사용자님의 소중한 글을 데이터베이스에 수집하거나 AI 학습용으로 무단 활용하지 않음을 엄격히 서약합니다.
"작가님의 아이디어는 작가님의 기기 안에서만 머뭅니다. 그것이 웹 표준이 제공하는 가장 안전한 보안입니다."