Wat kun je met een website in een onderzoek?
Doe jij regelmatig onderzoek naar websites? Dan kan de checklist op deze pagina je daarbij helpen. De checklist helpt je namelijk om je onderzoek naar websites te structureren zodat jij niets vergeet. In onderstaande blog lees hoe je de verschillende stappen uit de checklist kunt uitvoeren om nog meer uit je onderzoek te halen.
OSINT-checklist: websites
Eerder deze maand schreven wij een blog over hoe je onderzoek naar e-mailadressen kunt doen. In dat artikel publiceerden wij ook onze eerste OSINT Checklist: een checklist die jij kunt gebruiken in je onderzoek. Onze checklists geven je namelijk aan wat je kunt doen met bepaalde basisinformatie in een onderzoek. Denk hierbij aan informatie als een e-mailadres, telefoonnummer of website. De checklist geeft je vooral inzicht in WAT je met deze informatie kunt, HOE je de stappen uit de checklists kunt nemen leggen wij je uit in onze tips en trainingen. Hieronder lees je hoe je aan de hand van onze checklist uitgebreid onderzoek naar websites kunt verrichten.
Tactische informatie
Een website die je bezoekt staat vol met zichtbare informatie. Denk hierbij aan e-mailadressen, telefoon- en faxnummers, handelsnamen, KvK-, btw- en bankrekeningnummers, namen, adressen, accounts op sociale media, enzovoorts. Deze informatie kun je vervolgens gemakkelijk controleren en gebruiken in je verdere onderzoek.
Let er ook op dat je de algemene voorwaarden en eventuele privacy disclaimers bekijkt. Ondernemingen vermelden daarin vaak de verplichte bedrijfsgegevens. Klik dus vooral door op de website om geen informatie over het hoofd te zien.
Een website monitoren
De meeste websites veranderen continu. Dit betekent dat er morgen of over een week misschien nieuwe relevante informatie op een website komt te staan. Je kunt deze wijzigen natuurlijk bijhouden door om de zoveel tijd te kijken of een website veranderd is, maar dit kan een stuk makkelijker. Met een website als visualping.io kun je bijvoorbeeld automatisch een website laten monitoren, waarbij jij per e-mail op de hoogte gebracht wordt van eventuele wijzigingen. Je kunt bovendien ook nog eens aangeven wat er precies gewijzigd moet zijn.
WHOIS-gegevens
Met de term “WHOIS” wordt het protocol bedoeld waarmee je vragen kunt stellen over wie er verantwoordelijk is voor een domeinnaam of IP-adres. Door de WHOIS-gegevens op te vragen kun je er mogelijk achter komen wie de registrant van een domeinnaam is en bij welke hosting provider (de “registrar“) de domeinnaam geregistreerd is. In de WHOIS-gegevens kunnen bijvoorbeeld namen, adressen, e-mailadressen, telefoonnummers en gegevens over de technische of administratieve contactpersoon staan.
Belangrijk bij het opvragen van WHOIS-gegevens is dat je meerdere bronnen combineert en dat je de gevonden gegevens verifieert. In een komende blogpost zullen we je uitgebreid vertellen waarom. Bronnen die je in ieder geval kunt gebruiken zijn sidn.nl (voor .nl-domeinen), DomainBigData.com, DomainTools.com (betaald), viewdns.info en Whoxy.com (ook historische gegevens). WHOIS-gegevens kun je ook opvragen via de “command line” in Linux.
Archiefbestanden
Hierboven hebben we al beschreven dat je websites kunt monitoren op veranderingen. Het is uiteraard in sommige gevallen ook mogelijk om historische snapshots van websites te bekijken. Bekende websites waarmee je archiefbestanden van websites kunt bekijken zijn Archive.org, Archive.is en Cachedpages.com.
Bekijk ons overzicht van andere tools om website-archieven te bekijken. Ook kun je via de Google Cache soms nog interessante informatie boven water halen! Wist je ook dat Archive.org een “Advanced search” aanbiedt? Super handig!
Teksten op een website
De meeste websites bestaan voor een groot deel uit teksten. Dat is fijn voor jou, want teksten zijn gemakkelijk te onderzoeken. We doelen in dit kopje echter niet zozeer om wat er precies geschreven staat, maar meer op of de geschreven tekst ook op andere websites voorkomt. Sommige oplichters of criminelen zijn namelijk lui en gebruiken dezelfde teksten op meerdere websites of in meerdere advertenties. Dat betekent dat jij aan de hand van een stuk tekst andere websites of advertenties van eenzelfde persoon kunt achterhalen.
Een manier om te controleren of een tekst voorkomt op een andere website is om een tekst te kopiëren en deze bij een zoekmachine als Google in te vullen. De zoekmachine toont dan de websites waarop dezelfde tekst (of een deel daarvan) voorkomt. Andere websites die dit automatisch voor je doen zijn bijvoorbeeld Copyscape.com en Plagium.com.
Foto’s en video’s op een website
Naast teksten kunnen er op een website ook foto’s en video’s staan. En deze foto’s en video’s kunnen net het puzzelstukje in jouw onderzoek zijn. Bekijk deze foto’s en video’s allereerst goed om erachter te komen of deze relevante informatie bevatten. Wellicht kun je namelijk een locatie, tijdstip of relevante personen achterhalen. Voer daarnaast een reverse image search uit om te kijken of het foto- en/of videomateriaal ook op andere websites voorkomt. Bestudeer tot slot ook de EXIF-data van een foto of video. Deze bevat mogelijk locatiegegevens, datum en tijdstippen, toesteltypes, technische gegevens, enzovoorts.
Verborgen links en pagina’s
Een website die je bezoekt bevat mogelijk meer links en pagina’s dan je denkt. Het kan hier gaan om links naar pagina’s op de website (“interne links“) of om links naar pagina’s op andere website (“externe links“). De pagina’s op de website bestaan dus soms wel degelijk, maar zijn gewoonweg moeilijk te vinden. Er zijn verschillende manieren om deze pagina’s toch te vinden.
Een eerste manier om verborgen pagina’s te vinden is door via een zoekmachine als Google te zoeken met de operator “site:aware-online.com“. Deze operator toont vervolgens alle webpagina’s van onze website Aware-online.com. Het nadeel hiervan is dat je hiermee alleen de resultaten verkrijgt die geïndexeerd zijn door zoekmachines.
Een tweede manier is om het Robots.txt-bestand van de website te bekijken. In dit bestand kan namelijk beschreven staan welke webpagina’s niet door zoekmachines geïndexeerd mogen worden. Webpagina’s die hierin genoemd worden bestaan dus wel degelijk, maar zijn niet vindbaar via reguliere zoekmachines.
Een derde manier is om een browser-extensie als Link Gopher te gebruiken. Zo’n add-on helpt je om meer links van een webpagina in kaart te brengen, maar is in veel gevallen niet volledig.
Een veel betere manier is om gebruik te maken van meer krachtige tooling als bijvoorbeeld de Photon-crawler. Met dit Python-script worden alle interne en externe links geautomatiseerd in kaart gebracht en krijg je ook direct inzicht in gebruikte bestanden, e-mailadressen en telefoonnummers.
Verborgen domeinen
Subdomeinen zijn onderdeel van een domein. Zo kan www.examen.aware-online.com een subdomein van www.aware-online.com zijn. Het spreekt voor zich dat een subdomein extra informatie kan bevatten die nuttig kan zijn voor jouw onderzoek. Het is daarom van belang om altijd te controleren of een website subdomeinen heeft. Een manier om dit te controleren is via de website Pentest.tools.com of via een krachtige Python-tool als SpiderFoot.
Broncode
Als je een website bezoekt dan vertaalt de browser die je gebruikt als het ware de broncode van jouw website naar een prettig leesbaar formaat. De broncode van een website ziet er dus heel anders uit dan de website die je bekijkt. Het leuke aan de broncode is dat de broncode veel informatie kan bevatten die je niet uit de “normale” website kunt halen. Zo heeft bijvoorbeeld de website Coolblue.nl een wervingstekst bovenin de broncode staan.
Andere relevante informatie die de broncode kan bevatten zijn templates, plug-ins, bestandsnamen, Google Analytics ID’s, Google AdSense ID’s, enzovoorts. Deze informatie kan jou als onderzoeker meer informatie bieden over de software die op de website draait. Daarnaast kun je aan de hand van gegevens uit de broncode onderzoeken of er andere websites zijn waarin dezelfde gegevens terugkomen. Zo wordt een Google Analytics ID bijvoorbeeld door een websitebeheerder vaak op meerdere websites gebruikt.
IP-adressen / DNS
Als je onze website in de URL intypt wordt onze domeinnaam automatisch door het Domain Name System (DNS) vertaald naar een IP-adres. Dit is handig, want zonder dit systeem zouden we IP-adressen van de websites die we willen bezoeken uit ons hoofd moeten leren.
IP-adressen voor websites kunnen “uniek” zijn of “gedeeld” worden. Bij een uniek IP-adres kun je het IP-adres van de website direct in de URL intypen om de website te bezoeken. Dit kan bijvoorbeeld prettig zijn om te voorkomen dat jouw website door een firewall wordt geblokkeerd als gevolg van blokkades die zijn opgelegd aan websites die hetzelfde IP-adres delen.
Bij een gedeeld IP-adres gebruiken meerdere websites op een server hetzelfde IP-adres. Deze IP-adressen kun je niet direct in de URL intypen, want de website weet dan immers niet welke website op de webserver je wilt bezoeken. Door de domeinnaam in te typen, wordt via het IP-adres van de webserver gevraagd om het betreffende domein te tonen.
Via een gedeeld IP-adres kun je soms achterhalen welke websites er nog meer op de webserver draaien, wat relevant kan zijn voor je onderzoek. Daarnaast krijg je ook informatie over de organisatie die het IP-adres in beheer heeft.
Een simpele NSlookup via de Windows Opdrachtprompt wijst uit dat onze website aware-online.com het IPv4-adres 46.30.215.53 heeft. Dit IP-adres is niet rechtstreeks te benaderen via de URL, wat betekent dat er meerdere websites op deze webserver draaien. Via DomainBigData zijn een aantal van deze websites zichtbaar.
SSL Certificaten
Website certificaten worden gebruikt voor de validatie en de beveiliging (“encryptie“) van het het verkeer tussen websites (een webserver) en een cliënt (jouw computer). Certificaten worden verstrekt door zogeheten Certification Authority’s (CA) welke de identiteit van de website verifiëren. Met een geldig certificaat weet jij als gebruiker dat je de “goede” website bezoekt en dat de verbinding veilig (versleuteld) is.
SSL certificaten bestaan in verschillende vormen. Zo heb je certificaten die voor één domeinnaam geldig zijn, certificaten die voor meerdere (sub)domeinen geldig zijn en certificaten die voor een onbeperkt aantal subdomeinen geldig zijn (“wildcards”). Met dit gegeven kun jij als onderzoeker aan de hand van een SSL-certificaat onderzoeken of dit certificaat ook gebruikt wordt op andere (sub)domeinen.
Websites die je hierbij kunnen helpen zijn Shodan.io, Censys.io, crt.sh en entrust.com. @Sector035 schreef hier eerder voor Osintcurio.us een hele interessant blog over!
Andere Top Level Domeinen
Een “Top Level Domain” (TLD) is het laatste gedeelte van een domeinnaam, bijvoorbeeld .nl, .com of .xyz. Top level domeinen worden beheerd door zogeheten “registries” welke onder contract van ICANN staan. Zo is de Stichting Internet Domeinregistratie Nederland (SIDN) verantwoordelijk voor het .nl-domein.
Bedrijven die websites hebben, willen vaak dat hun domeinnaam ook via andere top level domeinen te bezoeken is. Zo hebben wij niet alleen de domeinnaam aware-online.com geregistreerd, maar ook de domeinnaam aware-online.nl.
Ondanks dat aware-online.nl direct wordt doorgestuurd naar aware-online.com als je de website bezoekt, kun je wel meer informatie over dit domein opvragen. En in sommige gevallen zul je natuurlijk wel gewoon een website te zien krijgen, welke je meer informatie kan opleveren voor jouw onderzoek. Onderzoek dus altijd of er meerdere top level domeinen zijn, bijvoorbeeld via een operator als:
-site:aware-online.com site:aware-online.*
Verwijzingen naar website
Het kan interessant zijn om te onderzoeken welke websites er verwijzen naar jouw-target website. Deze websites hebben immers mogelijk iets met jouw target-website te maken. Je kunt dit bijvoorbeeld onderzoeken door gebruik te maken van onderstaande Google Operators:
-site:aware-online.com “aware-online.com”
Je krijgt hiermee alleen resultaten te zien waarin “aware-online.com” genoemd wordt, behalve resultaten die op de website aware-online.com zelf voorkomen.
Openstaande poorten
Het kan interessant zijn om in kaart te brengen welke poorten bij een webserver open staan en welke services daarop draaien. Deze informatie kun je bijvoorbeeld gebruiken om kwetsbaarheden in kaart te brengen, wat vaak gedaan wordt in zogeheten “penetratietesten” of “pentests“.
Websites en tools die je hierbij kunnen helpen zijn bijvoorbeeld Pentest-Tools.com, The Harvester en Nmap.org. Denk altijd na of het uitvoeren van een pentest juridisch gezien toelaatbaar is, of de target-website geen schade ondervindt en of je toestemming hebt gekregen om een pentest uit te voeren.
Gebruikte e-mailadressen
Medewerkers van organisaties maken uiteraard veelvuldig gebruik van de e-mailadressen die ze van hun organisatie hebben gekregen. Zo gebruiken wij het e-mailadres info@aware-online.com voor onze communicatie richting cursisten. Het kan natuurlijk interessant zijn om te achterhalen of wij meerdere e-mailadressen in gebruik hebben. Tools die je hierbij kunnen helpen zijn bijvoorbeeld SpiderFoot.net en Hunter.io.
Let op de sporen die je achterlaat!
Als je websites bezoekt, dan laat je sporen achter bij de website die je bezoekt. Dit zorgt niet alleen voor afbreukrisico’s maar ook voor veiligheidsrisico’s. Wees je daarom ten allen tijde bewust van de sporen die je achterlaat en stel een “threat model” voor jezelf op.
Eigen risico
Aware Online heeft geen enkel belang in de websites en tools van derden die op deze website genoemd worden en is niet aansprakelijk voor het gebruik daarvan. Het gebruiken van de websites of tools beschreven op deze pagina geschiedt derhalve volledig op eigen risico.
Meer tips of contact?
Wil je meer weten over hoe je onderzoek naar websites kunt verrichten? Of heb je behoefte aan ondersteuning in jouw onderzoek? Laat het ons dan vooral weten of volg een van onze OSINT-trainingen! Ook horen we het graag als je tips of suggesties voor dit artikel hebt.