원시 데이터 입력
화면 좌측(모바일은 상단)의 입력창에 이메일이나 링크가 숨어 있는 방대한 웹페이지 소스 코드나 덤프 텍스트를 통째로 복사하여 붙여넣습니다.
비정형 데이터 마이닝을 위한 정규식 기반 이메일/링크 정밀 추출기
현대의 빅데이터 환경에서 우리가 접하는 정보의 상당수는 규격화되지 않은 '비정형 데이터(Unstructured Data)'입니다. 웹 크롤링으로 수집한 HTML 소스 코드, 수백 페이지의 문서 변환 텍스트, 소셜 미디어 댓글 속에는 기업 영업과 마케팅의 핵심인 '이메일 주소'와 '참조 링크'가 무작위로 흩어져 있습니다.
방대한 텍스트 더미에서 육안으로 패턴을 찾아 분리해 내는 행위는 극도로 비효율적입니다. 노이즈(Noise)가 가득한 원시 데이터에서 가치 있는 정보만을 핀셋처럼 분리하는 파싱(Parsing) 과정은 데이터 엔지니어링의 필수 단계입니다. 본 도구는 복잡한 파싱과 중복 제거 작업을 브라우저상에서 즉각적으로 자동화하여 실무자의 업무 효율성을 극대화합니다.
화면 좌측(모바일은 상단)의 입력창에 이메일이나 링크가 숨어 있는 방대한 웹페이지 소스 코드나 덤프 텍스트를 통째로 복사하여 붙여넣습니다.
목적에 따라 하단의 '이메일만 추출', 'URL만 추출', 또는 '모두 추출' 버튼 중 하나를 클릭하여 정규식 스캔을 시작합니다.
우측 창에 동일한 데이터가 완벽하게 제거된 고유(Unique) 리스트가 출력되며, '결과 복사' 버튼을 눌러 엑셀 등에 즉시 활용할 수 있습니다.
본 도구는 단순한 텍스트 검색을 넘어, 고도화된 '정규 표현식(Regular Expression)' 알고리즘을 백그라운드에서 활용합니다. @ 기호와 최상위 도메인(TLD)을 갖춘 이메일 규격과, http:// 프로토콜로 시작하는 완전한 URL 형태만을 엄격하게 타겟팅하여 오탐(False Positive)을 차단합니다.
또한, 추출된 배열 데이터는 자바스크립트의 Set 객체를 통한 해시(Hash) 식별 알고리즘을 거쳐, 동일한 주소가 수백 번 반복되더라도 단 1개의 고유한 값으로 필터링되어 O(N) 시간 복잡도의 압도적인 중복 제거 성능을 보여줍니다.
※ 핵심 파싱 및 중복 제거 알고리즘
// 프레티 툴즈: Regex 패턴 매칭 및 Set 알고리즘 기반 중복 제거
const dataExtractor = {
// RFC 규격 기반 이메일 정규식 패턴
emailRegex: /[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}/g,
// HTTP/HTTPS 프로토콜 강제 URL 정규식 패턴
urlRegex: /https?:\/\/(www\.)?[-a-zA-Z0-9@:%._\+~#=]{1,256}\.[a-zA-Z0-9()]{1,6}\b([-a-zA-Z0-9()@:%_\+.~#?&//=]*)/g,
extractAndDeduplicate: (rawText, type) => {
let results = [];
if (type === 'email' || type === 'both') {
results = results.concat(rawText.match(dataExtractor.emailRegex) || []);
}
if (type === 'url' || type === 'both') {
results = results.concat(rawText.match(dataExtractor.urlRegex) || []);
}
// Set 객체를 활용한 O(N) 시간 복잡도의 압도적인 중복 제거
return [...new Set(results)].join('\n');
}
}; 영업 담당자가 잠재 고객의 연락처를 찾기 위해 공개된 기업 디렉토리나 포럼 게시글 텍스트를 긁어올 때, 이 도구를 사용하면 콜드 이메일(Cold Email) 발송을 위한 타겟 리스트를 1초 만에 정제할 수 있습니다.
검색엔진 최적화(SEO) 마케터가 경쟁사의 웹페이지 소스 코드(HTML)를 복사해 넣으면, 해당 페이지에 삽입된 모든 아웃바운드 링크(Outbound Link)와 백링크 구조를 즉각적으로 추출하여 파악할 수 있습니다.
보안 분야의 공개출처정보(OSINT) 분석가들이 불특정 다수의 덤프(Dump) 파일에서 악성 URL이나 유출된 계정 이메일을 스캐닝할 때, 가장 빠르고 안전하게 기초 데이터를 격리하고 분류합니다.
A. 시스템이 정규식으로 데이터를 추출하는 즉시, 내부적으로 고유값 식별(Deduplication) 프로세스를 수행합니다. 따라서 동일한 이메일이나 URL이 수십 번 반복되더라도 최종 결과창에는 단 1개의 고유한 데이터만 남겨집니다.
http:// 가 생략된 주소(예: www.google.com)도 추출되나요? A. 일반적인 문장 끝의 마침표 등과 혼동되는 오탐(False Positive)을 막기 위해, 국제 통신 표준인 http:// 혹은 https:// 프로토콜로 시작하는 완전한 형태의 URL만을 타겟팅하도록 설계되어 있습니다.
수집하신 리드(Lead) 데이터와 고객 정보가 기업의 핵심 자산임을 잘 알고 있습니다. FreetyTools는 철저한 '서버 제로(Serverless)' 환경에서 작동합니다. 입력하신 원시 텍스트와 추출된 이메일/URL 리스트는 외부 서버나 데이터베이스로 절대 전송되지 않으며, 사용자 브라우저 안에서만 처리됩니다.
"타겟 리스트는 창을 닫는 즉시 완전히 증발합니다. 데이터 유출 걱정 없이 안전하게 마이닝 작업을 수행하십시오."