Email & URL Extractor

비정형 데이터 마이닝을 위한 정규식 기반 이메일/링크 정밀 추출기

📝 원본 데이터 입력

입력: 0자

✨ 추출 결과 (중복 제거됨)

추출됨: 0건

🔍 이메일 및 웹주소 추출기란? (What is this Tool)

💡 쉽고 빠른 3-Step 사용 방법 (How to Use)

Step 1

원시 데이터 입력

화면 좌측(모바일은 상단)의 입력창에 이메일이나 링크가 숨어 있는 방대한 웹페이지 소스 코드나 덤프 텍스트를 통째로 복사하여 붙여넣습니다.

Step 2

추출 옵션 실행

목적에 따라 하단의 '이메일만 추출', 'URL만 추출', 또는 '모두 추출' 버튼 중 하나를 클릭하여 정규식 스캔을 시작합니다.

Step 3

고유 리스트 복사

우측 창에 동일한 데이터가 완벽하게 제거된 고유(Unique) 리스트가 출력되며, '결과 복사' 버튼을 눌러 엑셀 등에 즉시 활용할 수 있습니다.

⚙️ 기술 명세 및 정규식 아키텍처 (Technical Specs)

본 도구는 단순한 텍스트 검색을 넘어, 고도화된 '정규 표현식(Regular Expression)' 알고리즘을 백그라운드에서 활용합니다. @ 기호와 최상위 도메인(TLD)을 갖춘 이메일 규격과, http:// 프로토콜로 시작하는 완전한 URL 형태만을 엄격하게 타겟팅하여 오탐(False Positive)을 차단합니다.

또한, 추출된 배열 데이터는 자바스크립트의 Set 객체를 통한 해시(Hash) 식별 알고리즘을 거쳐, 동일한 주소가 수백 번 반복되더라도 단 1개의 고유한 값으로 필터링되어 O(N) 시간 복잡도의 압도적인 중복 제거 성능을 보여줍니다.

1. 노이즈 텍스트 입력 안녕! [email protected] 어쩌구 https://

➔

2. Regex 패턴 스캔 이메일/URL 규격 검증 및 매칭

➔

3. 고유값(Unique) 필터 Set 객체로 중복 제거 후 반환

※ 핵심 파싱 및 중복 제거 알고리즘

data-parsing-logic.js

// 프레티 툴즈: Regex 패턴 매칭 및 Set 알고리즘 기반 중복 제거
const dataExtractor = {
  // RFC 규격 기반 이메일 정규식 패턴
  emailRegex: /[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}/g,
  
  // HTTP/HTTPS 프로토콜 강제 URL 정규식 패턴
  urlRegex: /https?:\/\/(www\.)?[-a-zA-Z0-9@:%._\+~#=]{1,256}\.[a-zA-Z0-9()]{1,6}\b([-a-zA-Z0-9()@:%_\+.~#?&//=]*)/g,

  extractAndDeduplicate: (rawText, type) => {
    let results = [];
    
    if (type === 'email' || type === 'both') {
      results = results.concat(rawText.match(dataExtractor.emailRegex) || []);
    }
    if (type === 'url' || type === 'both') {
      results = results.concat(rawText.match(dataExtractor.urlRegex) || []);
    }

    // Set 객체를 활용한 O(N) 시간 복잡도의 압도적인 중복 제거
    return [...new Set(results)].join('\n');
  }
};

💡 실무 활용 시나리오 (Practical Use Cases)

B2B 영업 리드(Lead) 확보

영업 담당자가 잠재 고객의 연락처를 찾기 위해 공개된 기업 디렉토리나 포럼 게시글 텍스트를 긁어올 때, 이 도구를 사용하면 콜드 이메일(Cold Email) 발송을 위한 타겟 리스트를 1초 만에 정제할 수 있습니다.

SEO 및 링크 구조 분석

검색엔진 최적화(SEO) 마케터가 경쟁사의 웹페이지 소스 코드(HTML)를 복사해 넣으면, 해당 페이지에 삽입된 모든 아웃바운드 링크(Outbound Link)와 백링크 구조를 즉각적으로 추출하여 파악할 수 있습니다.

사이버 보안 및 OSINT

보안 분야의 공개출처정보(OSINT) 분석가들이 불특정 다수의 덤프(Dump) 파일에서 악성 URL이나 유출된 계정 이메일을 스캐닝할 때, 가장 빠르고 안전하게 기초 데이터를 격리하고 분류합니다.

🛠 장애 대응 및 자주 묻는 질문 (Troubleshooting)

Q. '중복된 이메일이나 링크'가 섞여 있으면 어떻게 되나요?

A. 시스템이 정규식으로 데이터를 추출하는 즉시, 내부적으로 고유값 식별(Deduplication) 프로세스를 수행합니다. 따라서 동일한 이메일이나 URL이 수십 번 반복되더라도 최종 결과창에는 단 1개의 고유한 데이터만 남겨집니다.

Q. http:// 가 생략된 주소(예: www.google.com)도 추출되나요?

A. 일반적인 문장 끝의 마침표 등과 혼동되는 오탐(False Positive)을 막기 위해, 국제 통신 표준인 http:// 혹은 https:// 프로토콜로 시작하는 완전한 형태의 URL만을 타겟팅하도록 설계되어 있습니다.

🛡️ 데이터 독립성 및 영업 비밀 보호 서약

수집하신 리드(Lead) 데이터와 고객 정보가 기업의 핵심 자산임을 잘 알고 있습니다. FreetyTools는 철저한 '서버 제로(Serverless)' 환경에서 작동합니다. 입력하신 원시 텍스트와 추출된 이메일/URL 리스트는 외부 서버나 데이터베이스로 절대 전송되지 않으며, 사용자 브라우저 안에서만 처리됩니다.

"타겟 리스트는 창을 닫는 즉시 완전히 증발합니다. 데이터 유출 걱정 없이 안전하게 마이닝 작업을 수행하십시오."