Deep Web-Crawling

Webseiten und Foren werden nach spezifischen Suchparametern abgesucht, Link-Strukturen automatisch in die Tiefe verfolgt. Das menschliche Suchverhalten wird simuliert, um unverfälschte Ergebnisse zu erhalten.
Besonderheiten: Automatische Logins, Umgehung von IP- und Landessperren, Verarbeitung von Captchas, Link-Weiterleitungen und Tarnmechanismen für versteckte Inhalte.

Internet-Forensik

Basierend auf technischen Untersuchungen eruieren wir, wer für Online-Inhalte bzw. die technische Bereitstellung der Informationen verantwortlich ist, sowie wo Daten faktisch gespeichert werden. Besondere Bedürfnisse können durch zusätzliche Recherche-Dienstleistungen (Social Engnineering) erfüllt werden.

📈

Big Data Analysis

Unstrukturierte Daten aus heterogenen Quellen werden normalisiert, in eine mit dem Kunden abgestimmte Struktur eingepasst, kategorisiert, bewertet und überprüft.
Die Kombination von zentral definierten Regeln, dezentraler Bearbeitung und Lernmechanismen nach der Methodik von Expertensystemen ermöglichen eine optimale Interaktion von Mensch und Maschine.

🔍

Automatisierte Online-Recherchen

Optimierte Anfragen werden automatisiert an Suchmaschinen geschickt, Rankings der Anbieter werden ebenso umgangen wie Ergebnisbeschränkungen.
Parallele Stapelverarbeitung für regelmäßige Suchaufträge. Regional und sprachlich bedingte Unterschiede (z.B. durch Anfrage aus verschiedenen Ländern) können sichtbar gemacht werden.

Automatisierte IT-Workflows

Unsere Entwicklungsumgebung für Skripte und Kommandozeilen-Tools beinhaltet vordefinierte Ein-. und Ausgabekanäle für unterschiedliche Datenquellen und ein spezialisiertes .NET Framework und erlaubt schnelle Entwicklung von Multithread-Programmen. Zeitsteuerung und paralleles Cloud-Computing sind möglich.

Deep Web-Crawling

Nur weil Suchmaschinen etwas nicht finden, bedeutet das nicht, dass es nicht da ist. Eventuell suchen Sie einfach an der falschen Stelle. Das so genannte Deep Web ist ein riesiger Informationsspeicher, der kaum oder unvollständig von Suchmaschinen indiziert ist. Das sogenannte Shallow Web, auch Surface Web oder Static Web genannt, umfasst hingegen diejenigen Webseiten, die Suchmaschinen komplett indizieren. Der Großteil des Deep Web besteht aus Quellen, die eine Indizierung durch Suchmaschinen gezielt verhindern oder deren Indizierung aus technischen Gründen schwierig ist. Der populäre Begriff "Invisible Web" ist daher eigentlich eine falsche Bezeichnung, weil die Informationen nicht wirklich unsichtbar sind. Abhängig davon, wen man fragt, wird das Deep Web auf die fünf bis 500-fache Größe des Shallow Web eingeschätzt, so dass es eine immense und außergewöhnliche Informationsressource darstellt. Rechnen Sie einfach mal nach: Wenn nur 20% aller existierenden Webseiten von den großen Suchmaschinen indiziert werden, so verzichtet man 80% der weltweit verfügbaren Quellen, wenn man eine Recherche nur auf Suchmaschinenabfragen aufbaut.

Suchmaschinen indizieren typischerweise folgende Arten von Webseiten nicht:

  • Kostenpflichtige Websites
  • Foren und andere Seiten, die eine Anmeldung erfordern
  • Seiten mit komplexen Skripten
  • Dynamische Websites
  • Temporäre Sites
  • Blockierte Seiten (z.B. durch den Site-Administrator)
  • Durchsuchbare Datenbanken

Viele dieser Webseiten erfordern eine Anmeldung mit Nutzernamen und Passwort, was eine automatische Indizierung verhindert. Da die Crawl-Agenten der Suchmaschinen Skriptcode zwar lesen, aber meist nicht korrekt ausführen können, sind Webseiten mit zahlreichen Skripten oft ebenso wenig indizierbar. Mit etwas bösem Willen können die Bots von Suchmaschinen durch Skripting auch in Enlosschleifen gefangen werden.

Dynamische Websites generieren Inhalte erst auf Anfrage des Besuchers. Die so erzeugten Webseiten haben in der Regel nur eine beschränkte Lebensdauer (z.B. Flug- oder Fahrpläne).

Wer schon einmal einen interessanten Link auf einer Nachrichtenseite gefunden hat, der am nächsten Tag nicht mehr funktionieren wollte, ist auf eine temporäre Seite gestoßen.

Weiterhin können Administratoren explizit angeben, dass eine Seite nicht indiziert werden soll (Robot Exclusion Protocol) und einige Suchmaschinen lassen Websites auch aufgrund von eigenen Grundsätzen oder Richtlinien aus.

  • Verfolgen von Link-Strukturen bis zum gesuchten Inhalt

  • 🔑

    Automatische Logins für Seiten, die eine Anmeldung erfordern (Foren)

  • Auflösen von Captchas, Link-Weiterleitungen und anderen Inhalts-Tarnmethoden

  • Nutzen der internen Suchfunktionen von Websites

  • 🌎

    Umgehung von IP- und Landesblockaden

  • 🎓

    Automatische Filterung und Bewertung von Inhalten basierend auf nutzerdefinierten Regeln

Internet-Forensik

Internet Forensik verwendet eine Kombination modernster Computertechnik und menschlicher Intuition, um Anhaltspunkte über Menschen und Computer im Internet zu finden. Das wichtigste Einsatzgebiet ist die Ermittlungsarbeit zur Bekämpfung von Kriminalität, vor allem von Betrug und Identitätsdiebstahl.
Jederman, der selbst Websites betreibt oder Online-Transaktionen durchführt kann heute zum Opfer von Online-Angriffen werden. Internet Forensik kann dabei helfen, das Netz in Zukunft wieder sicherer zu machen.

Wir unterscheiden dabei verschiedene Aspekte von Internet Forensik:

  • Email-Forensik

    Quelle und Inhalt von E-Mails werden analysiert, die tatsächlichen Absender und Empfänger einer Nachricht sowie deren physischen Standort ermittelt. Ergänzenden Daten wie die tatsächlichen Zeiten von Versand und Empfang werden identifiziert. Ein weiterer Teil der E-Mail-Forensik ist die Analyse verlorener E-Mails, zu welchem Zeitpunkt wurde eine E-Mail verloren und wodurch wurde die Auslieferung verhindert (Blacklisting, Spam-Filter, etc.)

  • Web-Forensik

    Es werden Antworten gesucht auf Fragen wie: "Wer ist für einen veröffentlichten Inhalt verantwortlich? Von wem und wo werden Informationen technisch bereitgestellt? Wo sind diese Informationen physikalisch gespeichert?
    Web-Forensik kann sich auch auf die Überwachung der Netzwerknutzung beziehen, z.B. um zu untersuchen wie viele Menschen eine Website besucht haben, wie lange sie auf besuchten Seiten verweilen usw., um zu beurteilen, wie effektiv eine Web-Präsenz ist und welche Wirkungen sie hat.

    Andere Aspekte der Web Forensik, die vor allem für Unternehmen interessant sein können, betreffen die Analyse von Browser-Historien und Computeraktivitäten, um verdächtige Nutzungsmuster oder Inhalte zu erkennen.

  • Netzwerk-Forensik

    Netzwerk-Forensik befasst sich mit der Überwachung und Analyse von Netzwerkverkehr, sowohl lokal als auch in LAN und WAN / Internet. Ziel ist die Informationserfassung in erster Linie zur Prävention oder Kontrolle nicht autorisierter Zugriffe zu einem Netzwerk. Netzwerk-Forensik kann jedoch auch Hinweise auf inhaltliche Nutzung und andere Informationen liefern.

Manchmal sind technische Methoden nicht ausreichend, um alle forensische relevanten Informationen zu sammeln. In diesen Fällen ist die Arbeit von menschlichen Online-Detektive erforderlich. Dabei wenden wir die gleichen Methoden an, die Cyber-Kriminelle nutzen, und verwenden diese gegen sie. Da diese Art von nicht-technischen Methoden stark auf menschlicher Interaktion basieren werden sie üblicherweise als Social Engineering bezeichnet.

  • Bestimmung der inhaltlichen Verantwortung veröffentlichter Informationen

  • Bestimmung des technischen Anbieters von Dienstleistungen und Aktionen

  • 🌎

    Bestimmung von Standorten zu Online-Diensten und Informationsspeicherung

  • 🔦

    Erkennung von Angriffen und Betrugsfällen

  • 🔄

    Hilfe für ungestörten Dauerbetrieb Ihrer Systeme

📈 Big Data Analyse

Big Data ist ein weit gefasster Begriff für Datenmengen, die so umfangreich oder komplex sind, dass traditionelle Methoden der Datenverarbeitung unzureichend sind. Zu den Herausforderungen in diesem Zusammenhang zählen die Analyse, Erfassung, Daten Kuration, Suche, gemeinsame Nutzung, Speicherung, Übermittlung und Visualisierung von Big Data. Oft wird der Begriff Big Data auf den Einsatz von statistischen Methoden bezogen, mit denen um anwendungsbezogene Aussagen aus vorhandenen Daten extrahiert werden. Im Gegensatz dazu setzen wir unseren Fokus im Zusammenhang mit Big Data auf die Reduktion und Normalisierung riesiger Mengen von unstrukturierten Daten aus heterogenen Quellen, um diese für eine effektive und zielgerichtete Auswertung verfügbar zu machen. Durch eine auf die jeweilige Anwendungssituation angepasste Reduzierung der Datenmenge werden Big Data Analysen schnell und kostengünstig möglich.

Hauptaspekte unseres Konzepts für den Umgang mit Big Data:

  • Festelegung der zu beantwortenden Fragen und zu nutzenden Datenquellen aus Sicht des Kunden und Definition einer geeigneten Datenstruktur
  • Zusammentragen und Normalisieren der Daten
  • Integration der Daten in die vordefinierte Datenstruktur
  • Automatisierte Vorbewertung der Daten basierend auf einem Regelwerk, das von der Fragestellung des Kunden abgeleitet worden ist
  • Kategorisierung der Daten
  • Datenkontrolle durch menschliche Bearbeiter
  • Berechnung von Trends, kennzahlen und anderen statistischen Auswertungen
  • Erstellen von grafischen Auswertungen, die für eine Beantwortung der vorgegebenen Fragen des Kunden dienlich sind

Durch die Abfolge dieser Bearbeitungsschritte werden schwer handhabbare und verwirrende Datenmassen sukzessive strukturiert und verdichtet, so dass effizient mit ihnen gearbeitet werden kann. Diesen Ansatz nennen wir den

Trichter-Ansatz für Big Data

  • Kosteneffiziente Erhebung und Auswertung von großen Datenmenge unter Verzicht auf unnötigen Aufwand

  • Zentrale Ablage von Regeln für die Filterung und Bewertung

  • Dezentrale Bearbeitungsumgebung mit optimierter Mensch-Maschine-Interaktion

  • 🎓

    Intelligente Datenbewertung nach dem Prinzip von Expertensystemen

  • 📄

    Extensive logging of data processing and human editing

  • Offene Schnittstellen für zusätzliche und ergänzende Daten

🔍 Automatisierte Online-Recherchen

Online-Recherchen beginnen in der Regel mit einer Datensammlung, die sehr oft mit der Abfragen von Suchmaschinen begonnen wird. Die Kombination von Suchergebnissen aus unterschiedlichen Quellen (z.B. Ergebnisse aus Suchmaschinen und spezifischen Online-Datenbanken) führt zu erheblichem Rechercheaufwand an Zeit und Geld. Durch Verbindung von automatisierten Suchmaschinenabfragen mit Deep Web-Crawling-Technologien können wir eine deutliche Steigerung von Effizienz und Komfort realisieren und ermöglichen so Online-Recherchen in einer automatisierten und integrierten Art und Weise.

Probleme und Unannehmlichkeiten bei der Nutzung von Suchmaschinen

Web-Suchmaschinen speichern Informationen, die sie aus dem HTML-Markup von Webseiten extrahieren. Die Suchmaschine analysiert dann den Inhalt jeder Seite, um festzulegen, wie diese indiziert werden soll. Beispielsweise können Wörter aus den Titeln, Seiteninhalt, Überschriften oder Fachgebiete genannt Meta-Tags extrahiert werden. Daten über die so analysierten Web-Seiten werden in einer Indexdatenbank für die Verwendung in späteren Abfragen gespeichert. Anfragen von Nutzern greifen auf diesen Index zu. Auf diese Weise können Abfrageergebnisse so schnell wie möglich verfügbar gemacht werden. Andereseits birgt dieser Indizierungsmechnismus einige ernstzunehmende Probleme und Unannehmlichkeiten für den Anwender:

  • Gewichtung der Ergebnisse auf Basis von Nutzerverhalten

    Für viele private Nutzer ist es praktisch, dass heutzutage Suchmaschinen ihre Ergebnisse nach dem bisherigen Verhalten des anfragenden Nutzers gewichten. Für Business-Anwender dies kann jedoch sehr ärgerlich sein, da hier oft neutrale Ergebnislisten bevorzugt werden, die dann entsprechend dem eigenen spezifischen Recherchekontext sortiert werden können.

  • Gewichtung der Ergebnisse auf der Grundlage von deren Beliebtheit

    Auf ähnliche Weise werden Ergebnisse, die bei der Mehrheit aller Nutzer weniger beliebt sind, in Ergebnislisten weiter hinten aufgeführt. Dies macht es sehr zeitaufwendig und oft für eine manuelle Recherche unmöglich auch diese weniger populären Ergebnisse auszuwerten.

  • Filterung von Ergebnissen abhängig von der geografischen Herkunft der Anfragen

    Da es für die meisten Benutzer bequem ist Abfrageergebnisse zu erhalten, die ihrem eigenen geographischen und kulturellen Kontext entsprechen, filtern Suchmaschinen ihre Ergebnisse entsprechend. Daher werden die Ergebnisse auf gleiche Abfragen in der Regel unterschiedlich sein, wenn diese von unterschiedlichen IP-Adressen in verschiedenen Ländern aus angefragt werden. In vielen Business-Kontextten kann es jedoch sehr interessant sein, Ergebnisse aus der Perspektive unterschiedlicher Länder mit einander zu vergleichen.

  • Beschränkungen in Bezug auf Menge und Geschwindigkeit aufeinander folgender Abfragen

    Um Performance-Engpässe zu verhindern ist die Abfragerate in der Regel streng beschränkt.

  • Einschränkungen durch die schiere Menge an Daten vorhanden

    Die einfache Tatsache, dass die verfügbaren Datenmenge sehr groß ist, kann eine komplette Auswertung aller Ergebnisse, die im Prinzip zur Verfügung stehen, verhindern.

Unsere Suchmaschinen-Automatisierung macht allen diesen oben genannten Einschränkungen ein Ende. Optimierte Suchanfragen werden in einer neutralen Weise ohne Verbindung zu früherem Nutzerverhalten übertragen. Parallele Stapelverarbeitung ermöglicht die komplette Sammlung von Suchergebnissen ohne Mengenbeschränkung, die dann individuell nach den Bedürfnissen unserer Kunden gewichtet und sortiert werden können. Eine Simulation verschiedener Benutzerkontexte ist möglich. So kann z.B. bei Bedarf die Simulation von Anfragen von verschiedenen geografischen Regionen aus oder unter Verwendung verschiedener Software-Umgebungen simuliert werden.

  • Integration der Nutzung von Suchmaschinen mit Deep Web-Crawling

  • Individuelle Abfrageoptimierung mit Hilfe ausgereifter Konfigurationsoptionen

  • Multithread-Batch-Verarbeitung von Suchanfragen

  • Keine Mengenbegrenzung von Suchergebnissen

  • Individuelle Filterung und Sortierung der Ergebnisse auf der Grundlage vordefinierter Auswertungsregeln

  • 🔀

    Eine Kombination von Ergebnissen aus verschiedenen Suchmaschinen und andereren Quellen ist möglich

  • 🌎

    Vergleich von Ergebnisse aus verschiedenen Benutzerkontexten z.B. durch Simulation von geographischen und Spracheinstellungen

Automatisierte IT-Workflows

Mit Hilfe unserer intelligenten Scripting-Umgebung können Ketten spezialisierter Programme (Software-Agenten) aufgebaut werden, mit denen komplette Arbeitsabläufe der Datenverarbeitung automatisiert werden können. Diese Verarbeitungsketten können auf Windows- oder Linux-Maschinen eingesetzt werden, sind ohne menschlichen Eingriff lauffähig und können per Zeitsteuerung koordiniert werden. Auf Wunsch kann die Verarbeitung in Cloud Computing-Umgebungen verlagert werden, so dass auch kurzfristig beliebige Skalierungen möglich sind.

Grundsätzlich können die Software-Agenten jede Art von Datenverarbeitungsaufgaben übernehmen wie beispielsweise:

  • Validierung
    Sicherstellen, dass gelieferte Daten "sauber, richtig und sinnvoll" sind
  • Sortierung / Ranking
    Anordnen und/oder Gruppierung von Elementen entsprechend vorhandener Eigenschaften
  • Transformation
    Veränderung von Datenformaten und/oder Speicherung an anderen Orten und/oder in anderen Software-Umgebungen
  • Summierung
    Reduktion von Detaildaten auf das Wesentliche
  • Aggregation
    Kombination verschiedener Teildaten, um neuen sinnhaftere Eigenschaften zu erzeugen
  • Kombination
    Kombinieren von Daten aus unterschiedlichen Quellen und/oder mit unterschiedlichen/sich ergänzenden Eigenschaften
  • Analyse
    Erzeugung von Meta-Informationen über Struktur und Qualität vorhandener Daten
  • Reporting
    Übersichtsinformationen zu vorhandenen Daten, z.B. Trends oder Kennzahlen
  • Klassifikation
    Indizierung durch sinnvolle Kategorien

Im Prinzip sind dies grundlegende IT-Anwendungen, die bereits Teil des täglichen Lebens geworden sind. Bei näherer Betrachtung können jedoch einige irritierende Hindernisse identifiziert werden, die eine genauere Untersuchung verdienen:

  • Daten liegen in nicht kompatiblen Formaten vor
  • Daten sind in nicht miteinander kommunizierenden Stellen gespeichert
  • Verschiedene Datensätze sind nicht ausreichend miteinander verknüpft
  • Verarbeitungsanforderungen sind oft sehr ähnlich, aber nur sehr selten identisch
  • Daten können unvollständig und "schmutzig" sein

Werkzeuge für die Datenverarbeitung müssen daher ständige angepasst, neue Werkzeuge für plötzlich auftauchenden Aufgaben neu erschaffen werden.
Unsere Scripting-Umgebung mit integrierten Framework für die Datenverarbeitung vereinfacht und beschleunigt die Bewätigung dieser Aufgaben und ermöglicht

  • Schnelle Programmierung von neuen Lösungen und Schnittstellen
  • Schnelle und effiziente Skalierung
  • Einfache Anpassung und Wiederverwendung bestehender Lösungen
  • Komfortable Integration verschiedener IT-Landschaften
  • Flexible Umsetzung von Workflow-Szenarien
  • 💻

    Komplette .NET-Entwicklungsumgebung mit Code-Vervollständigung

  • Spezialisiertes Framework für Datenmanipulationen (Datenextraktion, Crawling, Fuzzy Matching und mehr)

  • Verschiedene vordefinierte Ein- und Ausgangskanäle (Datenbanken, verschiedene Dateiformate, Queuing-Systeme und mehr)

  • Multithread-Batch-Verarbeitung

  • Deployment für Windows und Linux (Mono)

  • 🎯

    Normalisiertes internes JSON-Format

  • 💿

    Komplette Workflows können durch Ketten aufeinander folgender und gegenseitig abhängiger Software-Agenten abgebildet werden

  • Instanz-Management mit Terminplanung

  • Cloud-Deployment und -Management (z.B. via Amazon Cloud)

Zu unseren Referenzen zählen

GEMA

Die GEMA vertritt die Urheberrechte von mehr als 65.000 Mitgliedern in Deutschland.

Arvato

Entwicklung und Management von Prozessen auf Basis neuester Outsourcing-Technologien.

Freudenberg

International ausgerichtetes Unternehmen mit technisch führenden Produkten, Lösungen und Dienstleistungen.

Universität Heidelberg, Forschungsdezernat

Unterstützung für Forscher. Eine Unterabteilung bietet Unterstützung in Planung, Kalkulation und Organisation von Tagungen und andere Veranstaltungen.

KM Zündholz

Vertrieb von Zündhölzern und Werbematerialien.

STAMM GmbH & Co. KG

Spritzrohre und Bewegungseinrichtungen für die Zellstoffindustrie und Entwässerungstechnik.

IHK Rhein-Neckar

Die Industrie- und Handelskammern bieten Service für die Wirtschaft und die Erfüllung der hoheitlicher Aufgaben in deren Dienst.

Bayrische Warenbörse

Die Bayerische Warenbörse in München ist seither der Ort, wo landwirtschaftliche Erzeugnisse in Südbayern gehandelt und notiert werden.

Kontaktieren Sie uns / Anfrage um Rückruf

Wir melden uns bei Ihnen sobald wie möglich.