WWW.DISSERTATION.XLIBX.INFO
FREE ELECTRONIC LIBRARY - Dissertations, online materials
 
<< HOME
CONTACTS



Pages:     | 1 |   ...   | 31 | 32 ||

«PhD-FSTC-2015-30 Ecole Doctorale IAEM Lorraine Faculté des Sciences, de la Technologie et de la Communication DISSERTATION Defense held on ...»

-- [ Page 33 ] --

Certains travaux ont déjà démontré cette caractéristique en fournissant des méthodes efficaces pour découvrir les différents sous-domaines d’un nom de domaine grâce à des dictionnaires de mots couramment utilisés à cet effet. Ces méthodes de sondage du DNS sont cependant basiques et peu adaptables. Ainsi, pour compléter ces méthodes, nous proposons une nouvelle technique de sondage du DNS afin de découvrir les sous-domaines d’un nom de domaine en s’appuyant sur les similarités sémantiques que présentent les sous-domaines d’un même nom de domaine. En effet, les différents sous-domaines d’un même nom de domaine sont fréquemment donnés par une même personne et pour des raisons de mémorisation ces noms sont souvent apparentés. Nous supposons donc qu’en disposant d’un jeu initial de sous-domaines d’un même nom de domaine, nous pouvons découvrir de nouveau nom de domaine en testant des mots sémantiquement apparentés.

Nous présentons trois modules capables de générer de nouveau mots susceptibles d’être des sous-domaines d’un nom de domaine donné et ce, en utilisant une liste de sous-domaines déjà connus. Ces modules sémantiques analysent la composition des noms de domaine en extrayant les mots les composant. Un premier module cherche les mots apparentés aux sous-domaines existants. Un second module essaie de découper les sous-domaines en plusieurs mots ayant du sens afin de former de nouveaux sous-domaines en combinant des mots apparentés. Le dernier module identifie si les noms de domaine sont composés d’une partie numérique et tente d’incrémenter et décrémenter cette composante afin de découvrir de nouveaux sous-domaines. Les trois modules sont combinés afin de générer des mots susceptibles d’être des sous-domaines.

Pour tester la validité de cette approche nous avons sélectionné 24 noms de domaine populaires que nous avons sondés en utilisant trois méthodes existantes afin de créer un jeu initial de sous-domaines sur lequel notre méthode peut être appliquée. Pour chaque mot généré par notre méthode, une requête DNS est faite afin de vérifier si le potentiel sous-domaine en est effectivement un ou non. Les tests réalisés montrent que sur la base des jeux initiaux de sous-domaines, notre méthode est capable de découvrir entre 84% et 102% de nouveaux sous-domaines, signifiant qu’elle est capable de doubler le nombre de sous-domaines connu en moyenne. Ceci montre que cette méthode est complémentaire avec les solutions existantes. De plus, en fusionnant les jeux initiaux produits par les trois différents outils de sondage de noms de domaine de l’état de l’art, le sondage sémantique améliore encore de 30% le nombre de sous-domaines connus en moyenne.

Cela montre que l’analyse de parenté sémantique dans les noms de domaine est capable d’extraire le modèle de composition de ces noms. En utilisant soigneusement les informations extraites nous pouvons construire des modèles capables de prédire les noms de domaine qui sont susceptibles d’être utilisés. Le résultat des expériences réalisées montre que les noms de domaine sont prévisibles puisque nous avons pu découvrir les sous-domaines de noms de domaine populaires. Bien que la tâche de prédire des sous-domaines est plus facile que la prédiction des noms de domaine complets, ceci donne des indices sur l’applicabilité des techniques d’inférence de parenté sémantique pour prédire les noms de domaine complets.

Découverte Proactive des Noms de Domaines d’Hameçonnage Après avoir abordé les solutions pour l’identification des noms de domaine et des URLs d’hameçonnage en temps réel, nous venons d’aborder l’applicabilité de l’analyse sémantique pour prédire les noms de domaine légitimes en usage. Cette technique fut appliquée à du sondage du DNS et a présenté de meilleurs résultats que les techniques proposées dans l’état de l’art.

Sur la base de ces premières conclusions, nous proposons d’explorer les manières d’appliquer les modèles de langage naturel et l’analyse sémantique à la prévention de l’hameçonnage. Une caractéristique principale des campagnes d’hameçonnage est leur courte durée de vie, rendant une réaction rapide primordiale afin d’y faire face. Ainsi, plutôt que d’utiliser des techniques réactives ou d’identification en temps réel pour combattre l’hameçonnage, nous présentons une technique prédictive à cette fin. Cette méthode se présente sous la forme d’une liste noire prédictive composée de noms de domaine qui sont susceptibles d’être utilisé pour de l’hameçonnage. Elle présente les avantages des listes noires en étant facilement intégrable dans un client de messagerie électronique ou un navigateur Internet tout en supprimant l’inconvénient de latence dans la mise à jour.

La composition de cette liste noire repose sur l’analyse structurelle et lexicale de la composition des noms de domaine d’hameçonnage existants. Nous présentons des caractéristiques pertinentes pour capturer la composition structurelle des noms de domaine. Ces caractéristiques sont le nombre de mots composant un niveau de nom de domaine, les mots utilisés dans les noms de domaine, les TLDs utilisés et les transitions entre les différents mots. Nous montrons que ces caractéristiques ont des valeurs différentes lorsqu’elles sont extraites de noms de domaine d’hameçonnage ou de noms de domaine légitimes. Les mots qui composent les noms de domaine d’hameçonnage appartiennent à un vocabulaire réduit qui est différent de celui utilisé dans les noms de domaine légitimes. Ces caractéristiques permettent donc de construire un modèle reposant sur le langage naturel pour les noms de domaine d’hameçonnage. Ce modèle repose sur un modèle de chaîne de Markov qui permet de générer de nouveau noms de domaine suivant les règles de composition qu’il a appris. Il est étendu avec un module sémantique afin d’accroître la variété des noms de domaine générés.





Nous avons étudié l’efficacité de cette technique en utilisant un ensemble de noms de domaine d’hameçonnage afin de construire le modèle de génération. Les expériences ont montré que le modèle appris est capable de générer de nombreux noms de domaine d’hameçonnage qui sont effectivement utilisés dans des activités malveillantes après leur génération. Certains noms de domaine légitimes sont également générés, mais dans de faibles proportions et un score calculé pendant le processus de génération de la chaîne de Markov permet d’identifier la plupart d’entre eux. Ceci fournit une approche intéressante pour faire face aux attaques d’hameçonnage en empêchant la connexion à une ressource malveillante avant qu’elle ne soit effectivement disponible.

La lutte contre les menaces persistantes telles que l’hameçonnage s’appuyait jusqu’alors sur des techniques réactives. Cependant, les techniques qui ont été développées pour combattre ce problème n’ont pas réussi à enrayer cette menace. Les hameçonneurs développent continuellement de nouvelles attaques et nouveaux subterfuges pour contourner les techniques de protection mises en œuvre. Ainsi, pour traiter efficacement ce problème, il est nécessaire de réfléchir plus vite que les hameçonneurs et de prévoir à l’avance les nouveaux moyens qu’ils utiliseront pour perpétrer leurs activités malveillantes. Une telle solution est proposée avec cette méthode de composition de liste noire prédictive qui est en mesure de prédire les noms de domaine qui seront utilisés dans de futures attaques d’hameçonnage. Cette technique n’est pas infaillible car elle génère une part non négligeable de noms de domaine légitimes. En outre, la plus grande partie des noms de domaine générés n’est pas encore utilisée et ne le sera probablement jamais. Néanmoins, les techniques de prévention proactives sont susceptibles d’être les méthodes permettant de se débarrasser de la menace persistante qu’est l’hameçonnage.

Pour combattre les activités d’hameçonnage et leurs néfastes conséquences qui ne cessent de croître, cette thèse présente plusieurs défis qu’il convient de relever afin d’inverser cette tendance, en développant des solutions efficaces pour protéger les utilisateurs de moyens de communications électroniques de l’hameçonnage. Il y a d’abord une nécessité de développer des techniques de détection rapides et capables de faire face aux attaques d’hameçonnage ayant une courte durée de vie. Ces techniques doivent pouvoir être intégrées dans un système de détection en temps réel qui ne détériorerait pas la qualité d’utilisation des applications auxquelles elles seraient intégrées comme des navigateurs Internet par exemple. Un deuxième défi consiste à développer des méthodes de protection anti-hameçonnage avec une grande portée afin de faire face à la majorité des attaques d’hameçonnage. Un troisième défi est de développer des techniques de détection d’hameçonnage fiables, car les contenus d’hameçonnage ont tendance à imiter des contenus légitimes rendant leur identification compliquée. Le dernier défi résidait moins dans des aspects techniques, mais plus sur la convivialité d’utilisation des solutions développées afin que les utilisateurs inexpérimentés puissent facilement comprendre et utiliser ces techniques.

Cette thèse ne traite pas tous ces défis afin de fournir une protection infaillible contre l’ensemble des attaques d’hameçonnage. Cependant, elle fournit quelques contributions pertinentes qui améliorent le combat contre l’hameçonnage, en introduisant l’utilisation de l’analyse de parenté sémantique et de la composition des noms de domaine et des URLs pour identifier les attaques d’hameçonnage. Bien que l’analyse de parenté sémantique ait déjà été utilisée pour la détection d’attaque d’hameçonnage dans le passé, elle fut appliquée uniquement à des contenus contenant beaucoup d’informations à savoir des courriels et des pages Internet. Nous avons présenté dans ce document différentes techniques pour extraire le contexte sémantique des noms de domaine et des URL, qui sont des localisateurs contenant peu d’informations. L’analyse lexicale et sémantique des URLs a l’avantage de s’appuyer uniquement sur des informations contenues dans ces entités, ce qui signifie que cette méthode s’applique à toutes attaques d’hameçonnage utilisant des URLs. Ceci permet de couvrir un large éventail d’attaques d’hameçonnage car les URLs sont utilisées dans un grand nombre d’entre elles. En outre, cette technique s’est montrée rapide d’exécution de telle façon qu’elle ne détériorerait pas l’expérience des utilisateurs en étant capable de détecter des attaques en temps réel. Enfin, pour certaines applications comme un système de recommandation d’URLs par exemple, cette technique présente une grande fiabilité laissant envisager un déploiement dans le monde réel.

Une exigence qui n’est pas abordée par les contributions présentées dans cette thèse est la facilité d’utilisation des résultats obtenus par des utilisateurs inexpérimentés. Bien que ces techniques se soient montrées théoriquement efficaces, aucune étude de leur utilisabilité n’a été effectuée avec un groupe d’utilisateurs. En outre, les ensembles de test considérés pour les évaluations étaient de taille limitée ne permettant pas d’évaluer la capacité de mise à l’échelle de nos solutions bien qu’elles soient conçues sur des modèles distribués devant permettre ce passage à l’échelle. De même, nous n’avons pas effectué de réel déploiement de ces techniques dans le monde réel. Par conséquent, les résultats présentés dans cette thèse soulèvent des nouvelles perspectives pour des travaux de recherche futurs.

Abstract

Phishing is a kind of modern swindles that targets electronic communications users and aims to persuade them to perform actions for a another’s benefit. Miscreants performing this activity are named phishers and employ their power of persuasion to tailor socially engineered messages able to deceive their gullible victims. A popular example of phishing activities is the stealing of web services account login information or credit card information using fake websites or spoofed emails. However, several means are used to perform phishing attacks and several goals are sought, which harden the fight against phishing. Despite the forces engaged to get rid of this threat, phishing remains a concerning problem since the financial damage it causes is increasing overtime. Moreover, the perceived fatality about being a victim of phishing erodes the trust among users and threaten the use of electronic means as way of communicating.

Existing solutions to cope with phishing attacks are not adapted to their short lifetime and the variety of means used to perform them, making them inefficient. Crowd verified blacklists, emails content analysis techniques or web page content analysis techniques did not succeed to reverse the increasing trend presented by phishing consequences. None of these solutions present the essential requirements that must meet a phishing protection technique to be efficient and which are speed, coverage, reliability and usability.

Stating that phishing attacks rely mostly on social engineering and that most phishing vectors leverage directing links represented by domain names and URLs, we introduce new solutions to cope with phishing. These solutions rely on the lexical and semantic analysis of the composition of domain names and URLs. Both of these resource pointers are created and obfuscated by phishers to trap their victims. Hence, we demonstrate in this document that phishing domain names and URLs present similarities in their lexical and semantic composition that are different form legitimate domain names and URLs composition. We use this characteristic to build models representing the composition of phishing URLs and domain names using machine learning techniques and natural language processing models. The built models are used for several applications such as the identification of phishing domain names and phishing URLs, the rating of phishing URLs and the prediction of domain names used in phishing attacks. All the introduced techniques are assessed on ground truth data and show their efficiency by meeting speed, coverage and reliability requirements. This document shows that the use of lexical and semantic analysis can be applied to domain names and URLs and that this application is relevant to detect phishing attacks.

Keywords: phishing detection, DNS monitoring, semantic analysis, URL lexical anlysis, Internet security, machine learning L’hameçonnage est une escroquerie moderne qui cible les utilisateurs de communications électroniques et vise à les convaincre de réaliser des actions pour le bénéfice d’un individu nommé hameçonneur. Les hameçonneurs emploient leur pouvoir de persuasion pour formuler des messages capables de tromper leurs crédules victimes. Un exemple populaire d’hameçonnage est le vol d’information relative à des comptes de sites internet ou de numéro de carte de crédit en utilisant de faux sites internet ou des courriels falsifiés. Cependant, beaucoup de techniques sont utilisées pour effectuer des attaques d’hameçonnage et beaucoup d’objectifs sont recherchés, rendant difficile la lutte contre l’hameçonnage. Malgré les forces engagées pour se débarrasser de cette menace, l’hameçonnage reste un problème important si l’on considère le préjudice financier grandissant qu’il provoque. Les solutions existantes pour combattre les attaques d’hameçonnage ne sont pas adaptées à leur courte durée d’exécution et à la variété des moyens utilisés pour les réaliser, les rendant inefficaces. Les listes noires, l’analyse du contenu des courriels ou des pages internet sont tant de techniques qui ne sont pas parvenus à inverser la tendance. Aucune de ces solutions ne présente les exigences essentielles auxquelles doivent répondre une technique de protection efficace contre l’hameçonnage et qui sont la vitesse, l’universalité, la fiabilité et la facilité d’utilisation.

Constatant que les attaques d’hameçonnage s’appuient essentiellement sur de l’ingénierie sociale et que la plupart des attaques d’hameçonnage utilisent des liens représentés par des noms de domaine et des URLs, nous proposons de nouvelles solutions pour combattre l’hameçonnage. Ces solutions reposent sur une analyse lexicale et sémantique de la composition des noms de domaine et des URLs. Ces deux pointeurs de ressources sont créés et offusqués par les hameçonneurs pour piéger leurs victimes. Ainsi, nous démontrons dans cette thèse que les noms de domaine et les URLs utilisés dans des attaques d’hameçonnage présentent des similitudes dans leur composition lexicale et sémantique, et que celles-ci sont différentes des caractéristiques présentées par les noms de domaine et les URL légitimes. Nous utilisons ces caractéristiques pour construire des modèles représentant la composition des URLs et des noms de domaine d’hameçonnage en utilisant des techniques d’apprentissage automatique et des méthodes de traitement du langage naturel. Les modèles construits sont utilisés pour des applications telles que l’identification de noms de domaine et des URLs d’hameçonnage, la notation des URLs d’hameçonnage et la prédiction des noms de domaine utilisés dans les attaques d’hameçonnage. Les techniques proposées sont évaluées sur des données réelles et elles montrent leur efficacité en répondant aux exigences de vitesse, d’universalité et de fiabilité. Cette thèse démontre que l’utilisation de l’analyse lexicale et sémantique peut être appliqué aux noms de domaine et aux URLs et que cette utilisation est pertinente pour détecter les attaques d’hameçonnage.

Phishing is a kind of modern swindles that targets electronic communications users and aims to persuade them to perform actions for a another’s benefit. Miscreants performing this activity are named phishers and employ their power of persuasion to tailor socially engineered messages able to deceive their gullible victims. A popular example of phishing activities is the stealing of web services account login information or credit card information using fake websites or spoofed emails. However, several means are used to perform phishing attacks and several goals are sought, which harden the fight against phishing. Despite the forces engaged to get rid of this threat, phishing remains a concerning problem since the financial damage it causes is increasing overtime. Moreover, the perceived fatality about being a victim of phishing erodes the trust among users and threaten the use of electronic means as way of communicating. Existing solutions to cope with phishing attacks are not adapted to their short lifetime and the variety of means used to perform them, making them inefficient. Crowd verified blacklists, emails content analysis techniques or web page content analysis techniques did not succeed to reverse the increasing trend presented by phishing consequences. None of these solutions present the essential requirements that must meet a phishing protection technique to be efficient and which are speed, coverage, reliability and usability.

Stating that phishing attacks rely mostly on social engineering and that most phishing vectors leverage directing links represented by domain names and URLs, we introduce new solutions to cope with phishing. These solutions rely on the lexical and semantic analysis of the composition of domain names and URLs. Both of these resource pointers are created and obfuscated by phishers to trap their victims. Hence, we demonstrate in this document that phishing domain names and URLs present similarities in their lexical and semantic composition that are different form legitimate domain names and URLs composition. We use this characteristic to build models representing the composition of phishing URLs and domain names using machine learning techniques and natural language processing models. The built models are used for several applications such as the identification of phishing domain names and phishing URLs, the rating of phishing URLs and the prediction of domain names used in phishing attacks. All the introduced techniques are assessed on ground truth data and show their efficiency by meeting speed, coverage and reliability requirements. This document shows that the use of lexical and semantic

Pages:     | 1 |   ...   | 31 | 32 ||


Similar works:

«2014 Uniform Evaluation Report Chartered Professional Accountants of Canada UNIFORM EVALUATION REPORT i MEMBERSHIP OF 2014 BOARD OF EVALUATORS Christine Allison CPA, CA MD Funds Management Inc. Ottawa, Ontario Pierre-Yves Desbiens, CPA, CA, CF, MBA Cindy Ditner, FCPA, FCA, CMA Institute NEOMED BDO Canada LLP Montréal, Québec Toronto, Ontario Aline Girard, Ph.D., MBA, CPA, CA Mike Fitzpatrick, CPA, CA HEC Montréal Fitzpatrick & Company Montréal, Québec Charlottetown, Prince Edward Island...»

«Who are the children of the Matrix? WE ARE Ridicule is the tribute that mediocrity pays to genius. Anon. All truth goes through three stages. First it is ridiculed. Then it is violently opposed. Finally it is accepted as self-evident. Schoepenhouer Man will occasionally stumble over the truth, but most of the time he will pick himself up and continue on. Winston Churchill When they think they know the answers, people are difficult to guide. When they know they don't know, people can find their...»

«Normalising the Insurance Council of Australia Natural Disaster Event List: 1967–2011 Report prepared for the Insurance Council of Australia by Ryan P. Crompton Risk Frontiers Macquarie University www.riskfrontiers.com December 2011 Normalising the ICA Natural Disaster Event List: 1967-2011 INTRODUCTION This report builds upon the previous loss normalisation undertaken by Risk Frontiers for the Insurance Council of Australia (Crompton, 2006; Crompton and McAneney, 2008). Loss normalisation is...»

«Website: http://www.HeadsAboveTheRest.com  Email: headsabovetherest@peoplepc.com   Chemistry of Tanning  Written and Photographed by Ron Schaefer Tanning in the taxidermy industry is a very vital purpose for the life of your mount. But what is it and how does it work? Tanning is the process of changing a protein skin into a non protein state. This article is not meant to access each method, but cover the importance of properly handling the skin, understanding the makeup of the skin, and...»

«INFORMATION TO USERS This mmusaipt has krn nproduced hom the micidilm mastet. UMI films the text dindly fr#n the original or copy suknitteâ. Thus, r m I h d s and o dissertiition copies an, in typmdter face, whik othem may k,frwn any type of cornputer pnnter. thr quality of this nproduction ir dapondont upon tho puility d Vir copy submitted. Broken or indistinct print, cakred or poor quality illustnüons and photognphs, print blwdthiough, substanâard marglis. and i mr alignmnt un s d w m l y...»

«RESTORING MULTILATERAL TRADE COOPERATION: REFLECTIONS ON DIALOGUES IN FIVE DEVELOPING COUNTRIES DIAGNOSTIC REPORT PETER DRAPER AND MEMORY DUBE, SOUTH AFRICAN INSTITUTE OF INTERNATIONAL AFFAIRS DICK CUNNINGHAM AND BERNARD HOEKMAN, CORDELL HULL INSTITUTE ABSTRACT The World Trade Organisation is currently in a state of flux and unable to advance its rulemaking function through the Doha Development Round. Out of this impasse a new architecture of negotiations has emerged, centred on mega-regional...»

«An English Boy in Chinese Turkestan: The Story of Orlando Hobbs Imre Galambos During the first decades of the 20th century, Chinese Central Asia became the scene for archaeological enterprises led by foreign explorers and scholars. Besides exploration carried out by leading European powers, the Japanese also joined the race for antiquities with a series of ambitious expeditions organized by Count Ōtani Kōzui (1876–1948), the head of one of Japan’s largest Buddhist organizations. The last...»

«1 Curriculum Vitae Dr. Alberto ZANI Born in Rome on September 4th 1955, married, 2 boys. Senior Researcher at the Institute of Molecular Bioimaging and Physiology, Italian National Research Council (C.N.R.), c/o Milan Research Area 3 (ARM3), 20125 Milan, Voice: Office: +39-02-66173340, Lab: +39-02-66173369; Fax: +39-02-66173405. E-Mail: alberto.zani@ibfm.cnr.it Head of the “Electro-Functional Brain Imaging unit”, (EFBIu), of the Institute of Molecular Bioimaging and Physiology, Italian...»

«I. New York (Forty Days and Forty Nights Earlier) Prologue. The Smidge Jonah knew the 59th Street subway station well enough that he did not have to look up from his iPhone as he made his way among its corridors and commuters to the track. He felt lucky as he came down the stairs to the platform to see a train just pulling in—he boarded without breaking his stride, took a seat by the door of the nearly empty car, went on typing. A crowd of people flooded in at the next station, but Jonah felt...»

«Katena The Instrument Care Booklet A Guide to Proper Care and Handling of Delicate Surgical Instruments It’s been said that the right tool can make a difficult job easier, but if the right tool is not functioning properly, an easy job can become difficult or even impossible. The right tools for the ophthalmic surgeon are hand-crafted microsurgical instruments, maintained at peak efficiency. Modern technology has produced tremendous innovations in ophthalmology over the last several decades,...»

«UNIT-1 CANADIAN POETRY Structure 1.0 Objectives 1.1 Introduction 1.2 Pre-Confederation Period 1.2.1 The First Stirrings of the Poetic Culture 1.3 Confederation Period 1.3.1 Emergence of a National Literature 1.4 Modernist Period: 1.4.1 First Phase 1.4.2 Second Phase 1.4.3 Third Phase 1.5 Postmodernist /Contemporary Period 1.6 Let Us Sum Up 1.7 Review Questions 1.8 Bibliography 1.0 Objectives · To introduce the students to an understanding of the phases of Canadian poetic culture; · To...»

«THE QUEENS DAUGHTERS IN INDIA BY ELIZABETH W. ANDREW and KATHARINE C. BUSHNELL With Prefatory Letters by MRS. JOSEPHINE BUTLER and MR. HENRY J. WILSON, M.P. “ Remember them that are in bonds as bound with them.” LONDON. MORGAN AND SCOTT, 12 Paternoster Buildings, E.C. To be obtained from the British Committee of the Federation for the Abolition of State Regulation of Vice 17 Tothill Street, Westminister, S.W., And from the American Purity Alliance, United Charities Building, New York,...»





 
<<  HOME   |    CONTACTS
2016 www.dissertation.xlibx.info - Dissertations, online materials

Materials of this site are available for review, all rights belong to their respective owners.
If you do not agree with the fact that your material is placed on this site, please, email us, we will within 1-2 business days delete him.