Vai al contenuto

Katana Web Crawler Foglio di formaggio

Panoramica

Katana è un framework web crawling veloce e personalizzabile sviluppato da Project Discovery. È progettato per strisciare i siti web in modo efficiente per raccogliere informazioni e scoprire endpoint. Katana si distingue dagli altri web crawler grazie alla sua velocità, flessibilità e attenzione ai casi di utilizzo dei test di sicurezza.

Ciò che rende Katana unica è la sua capacità di strisciare intelligentemente applicazioni web moderne, tra cui applicazioni di singola pagina (SPA) che si basano pesantemente su JavaScript. Può gestire tecnologie web complesse ed estrarre informazioni preziose come URL, file JavaScript, endpoint API e altri beni web. Katana è costruito con i professionisti della sicurezza in mente, rendendolo uno strumento eccellente per la ricognizione durante le valutazioni di sicurezza e la caccia di taglie di bug.

Katana supporta varie strategie di strisciamento, tra cui strisciamento standard, JavaScript parsing, e sitemap-based crawling. Può essere personalizzato per concentrarsi su specifici tipi di risorse o seguire particolari modelli, rendendolo adattabile a diversi scenari di test di sicurezza. Lo strumento è progettato per essere facilmente integrato nei flussi di lavoro di test di sicurezza e può essere combinato con altri strumenti Project Discovery per una ricognizione completa.

Installazione

Utilizzo di Go

Traduzione:

Utilizzo di Docker

Traduzione:

Utilizzo di Homebrew (macOS)

Traduzione:

Utilizzo di PDTM (Project Discovery Tools Manager)

Traduzione:

Su Kali Linux

Traduzione:

Uso di base

Crawling a singolo URL

Traduzione:

Crawling URL multipli

Traduzione:

Opzioni di uscita

Traduzione:

Opzioni di rotazione

Depth e Scope di Cracovia

Traduzione:

Strategie di deformazione

Traduzione:

Selezione del campo

Traduzione:

Uso avanzato

URL Filtro

Traduzione:

Filtro delle risorse

Riempimento del modulo

Traduzione:

JavaScript Parsing

Traduzione:

Ottimizzazione delle prestazioni

Convalutazione e limitazione dei tassi

Traduzione:

Opzioni di timeout

Traduzione:

Ottimizzazione per grandi scansioni

Traduzione:

Integrazione con altri strumenti

Pipeline con Subfinder

Traduzione:

Pipeline con HTTPX

Traduzione:

Pipeline con Nuclei

Traduzione:

Personalizzazione di uscita

Formato di uscita personalizzato

Traduzione:

Filtro dell'uscita

Traduzione:

Filtro avanzato

URL Pattern Matching

Traduzione:

Filtro dei contenuti

Traduzione:

Opzioni Proxy e Network

Traduzione:

Varie Caratteristiche

Riempimento automatico del modulo

Traduzione:

Percorsi specifici

Traduzione:

Storing Responses

Traduzione:

Risoluzione dei problemi

Questioni comuni

  1. JavaScript Parsing Issues Traduzione:

  2. ** Limitare il bersaglio* * Traduzione:

  3. ** Problemi di memoria ** Traduzione:

  4. Revisione: Traduzione:

Debug

Traduzione:

Configurazione

File di configurazione

Katana utilizza un file di configurazione situato in $HOME/.config/katana/config.yaml. È possibile personalizzare varie impostazioni in questo file:

Variabili dell'ambiente

Traduzione:

Riferimento

Opzioni della linea di comando

Flag Description
-u, -url Target URL to crawl
-list, -l File containing list of URLs to crawl
-o, -output File to write output to
-json Write output in JSON format
-silent Show only URLs in output
-v, -verbose Show verbose output
-depth Maximum depth to crawl (default: 2)
-crawl-scope Crawling scope (strict, subs, out-of-scope)
-crawler Crawler types to use (standard, js, sitemap, robots)
-field Fields to display in output
-extension File extensions to include
-exclude-extension File extensions to exclude
-match-regex Regex pattern to match URLs
-filter-regex Regex pattern to filter URLs
-match-condition Condition to match URLs
-form-fill Enable automatic form filling
-js-crawl Enable JavaScript parsing
-headless-timeout Timeout for headless browser (seconds)
-chrome-path Path to Chrome browser
-concurrency Number of concurrent requests
-delay Delay between requests (milliseconds)
-rate-limit Maximum number of requests per second
-timeout Timeout for HTTP requests (seconds)
-max-urls Maximum number of URLs to crawl
-proxy HTTP/SOCKS5 proxy to use
-header Custom header to add to all requests
-cookie Custom cookies to add to all requests
-paths Specific paths to crawl
-paths-file File containing paths to crawl
-store-response Store all responses
-store-response-dir Directory to store responses
-version Show Katana version

Crawling Scopes

Scope Description
strict Crawl only the exact domain provided
subs Crawl the domain and its subdomains
out-of-scope Crawl any domain, regardless of the initial domain

Tipi di cassonetto

Type Description
standard Standard HTTP crawler
js JavaScript parser using headless browser
sitemap Sitemap-based crawler
robots Robots.txt-based crawler

Opzioni di campo

Field Description
url Full URL
path URL path
method HTTP method
host Host part of URL
fqdn Fully qualified domain name
scheme URL scheme (http/https)
port URL port
query Query parameters
fragment URL fragment
endpoint URL endpoint

Risorse


*Questo foglio di scacchi fornisce un riferimento completo per l'utilizzo di Katana, dalla scansione di base al filtraggio avanzato e l'integrazione con altri strumenti. Per le informazioni più aggiornate, consultare sempre la documentazione ufficiale. *