64
1 Bettina Berendt Humboldt-Universität zu Berlin – www.berendt.de * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma, Italy Semantic Web Mining* Heute: Semantik für und aus Blogs**

1 1 Bettina Berendt Humboldt-Universität zu Berlin – * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

Embed Size (px)

Citation preview

Page 1: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

1

1

Bettina Berendt

Humboldt-Universität zu Berlin – www.berendt.de

* mit vielen Ko-AutorInnen

** mit Roberto Navigli, Università “La Sapienza”, Roma, Italy

Semantic Web Mining*

Heute:Semantik für und aus Blogs**

Page 2: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

2

2

Agenda

1. Motivation und Überblick

Warum Web? Warum Blogs?

Semantic Web Mining

2. Finding your way through blogspace:

Using semantics for cross-domain blog analysis

Page 3: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

3

3

Agenda

1. Motivation und Überblick

Warum Web? Warum Blogs?

Semantic Web Mining

2. Finding your way through blogspace:

Using semantics for cross-domain blog analysis

Page 4: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

4

4

Das Ziel

Page 5: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

5

5

Das Wissen der Menschheit möglichst vielen Menschen effektiv zugänglich machen.

Page 6: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

6

6“Makrokosmos World Wide Web”

Page 7: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

7

7

“Mikrokosmos Blogosphere”

Page 8: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

8

8

Konkrete Ziele(Bsp. für Teil 2 dieses Vortrags)

Klassifikation:„Dieser Blog behandeltInhalte aus Ernährungund Gastronomie.“ Vorschläge von Meta-Tags für den Blog Unterstützung vonBlog-Suchmaschinen

Klassifikation:„Dieser Blog behandeltInhalte aus Ernährungund Gastronomie.“ Vorschläge von Meta-Tags für den Blog Unterstützung vonBlog-Suchmaschinen

Empfehlungenmit Erklärung:„Wenn Sie diesen Bloginteressant fanden,dann wird Sie vielleichtauch Blog ... interessieren,und zwar weil ...“

Empfehlungenmit Erklärung:„Wenn Sie diesen Bloginteressant fanden,dann wird Sie vielleichtauch Blog ... interessieren,und zwar weil ...“

Page 9: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

9

9

Das Potenzial

Page 10: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

10

10

Sehr viel Wissen, für Menschen zugänglich.

Page 11: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

11

11

Die Probleme

Page 12: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

12

12

Sehr viel Wissen, für Menschen zugänglich.

Page 13: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

13

13

Web Mining

Page 14: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

14

14

Formen

Knowledge discovery (aka Data mining):

“the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.” 1

Web Mining: die Anwendung von Data-Mining-Techniken auf Inhalt, (Hyperlink-) Struktur und Nutzung von Webressourcen. Webmining-Gebiete:

Web content mining

Web structure mining

Web usage mining

1 Fayyad, U.M., Piatetsky-Shapiro, G., Smyth, P., & Uthurusamy, R. (Eds.) (1996). Advances in Knowledge Discovery and Data Mining. Boston, MA: AAAI/MIT Press

Page 15: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

15

15

Webmining-Gebiete:

Web content mining

Web structure mining

Web usage mining

Web Mining:Beispiele

Page 16: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

16

16

Das Hauptproblem des Web Mining

Page 17: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

17

17

Syntax in, Syntax out.

Page 18: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

18

18

Page 19: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

19

19

Semi-automatisches Tagging: Tag-Empfehlung auf Basis von Syntax + existierenden Labels

Page 20: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

20

20

Tagyu funktioniert auch (mit Einschränkungen) für Ressourcen in anderen Sprachen

Page 21: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

21

21

Funktioniert das wirklich? (1)

Page 22: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

22

22

Funktioniert das wirklich? (2)

Page 23: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

23

23Das Wikipedia 300 Component Model, generiert mit diskreter PCA cosco.hiit.fi/search/H300.html/topic_list - common phrases of selected components

1. process; water; air; pressure; gas; body of water; natural gas; high pressure; hot water; fresh water;

2. Mark; Gospel; Matthew; Luke; Rose; Virgin; Virgin Mary; Gospel of John; Gospel of Mark; Gospel of Luke;

3. part; text; Britannica; entry; Encyclopedia Britannica; Encyclop~¦dia Britannica; Encyclopaedia Britannica; domain Encyclop~¦dia Britannica; public domain Encyclop~¦dia Britannica; public domain text;

4. property; theorem; elements; proof; subset; axioms; proposition; natural numbers; fundamental theorem; mathematical logic;

5. Dove; AMD; Dove Streptopelia; imperial crown; Imperial army; imperial court; imperial family; Collared Dove Streptopelia; Imperial Russia;

6. side; feet; long time; long period; right side; left side; long distances; different types; short distance; opposite side;

7. David; bill; Bob; Jim; Allen; Dave; Current stars; former members; Bill Clinton; former President;

8. magazine; newspaper; political parties; public domain text; public opinion; political career; public schools; own right; political life; public service;

9. way; things; boy; cat; long time; same way; same thing; only way; different ways; good thing;

10. problems; zero; sum; digits; ~~; natural numbers; positive integer; mathematical analysis; decimal digits; natural logarithm;

11. population density; couples; races; total area; makeup; Demographics; median age; income; density; housing units;

175. Torres; Iraqi KASUMI KHAZAD Khufu; Granada; Spa; Fra; General information; General Public License; General Bernardo; New Granada; Torres Strait;

176. love; Me; Rolling Stones; love songs; Rolling Stone magazine; Love Me; Fall in Love; Meet Me; love story; professional wrestler;

Zusammenfassend – Schwächen rein statistischer Ansätze:

Interpretation der Resultate?

Existenz von Resultaten?

Korrektheit?

Inferenzen?

Zusammenfassend – Schwächen rein statistischer Ansätze:

Interpretation der Resultate?

Existenz von Resultaten?

Korrektheit?

Inferenzen?

Page 24: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

24

24

Semantic Web

Page 25: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

25

25

Das Semantic Web

“The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in co-operation.” 1

“The Semantic Web provides a common framework that allows data to be shared and reused across application, enterprise, and community boundaries. It is a collaborative effort led by W3C with participation from a large number of researchers and industrial partners. It is based on the Resource Description Framework (RDF), which integrates a variety of applications using XML for syntax and URIs for naming.” 2

1 Berners-Lee, T., Hendler, J., & Lassila, O. (2001). The Semantic Web. Sci. American, May.

2 http://www.w3.org/2001/sw/3 Berners-Lee, T. (2000). Semantic Web XML2000.

www.w3.org/2000/Talks/1206-xml2k-tbl/

Page 26: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

26

26Category structure:<RDF xmlns:r="http://www.w3.org/TR/RDF/" xmlns:d="http://purl.org/dc/elements/1.0/" xmlns="http://directory.mozilla.org/rdf"><Topic r:id="Top"> <tag catid="1"/> <d:Title>Top</d:Title> <narrow r:resource="Top/Arts"/> ....</Topic><Topic r:id="Top/Arts"> <tag catid="2"/> <d:Title>Arts</d:Title> <narrow r:resource="Top/Arts/Books"/> ... <narrow r:resource="Top/Arts/Artists"/> <symbolic r:resource="Typography:Top/Computers/Fonts"/></Topic>....</RDF>

Category structure:<RDF xmlns:r="http://www.w3.org/TR/RDF/" xmlns:d="http://purl.org/dc/elements/1.0/" xmlns="http://directory.mozilla.org/rdf"><Topic r:id="Top"> <tag catid="1"/> <d:Title>Top</d:Title> <narrow r:resource="Top/Arts"/> ....</Topic><Topic r:id="Top/Arts"> <tag catid="2"/> <d:Title>Arts</d:Title> <narrow r:resource="Top/Arts/Books"/> ... <narrow r:resource="Top/Arts/Artists"/> <symbolic r:resource="Typography:Top/Computers/Fonts"/></Topic>....</RDF>

Resources:<RDF xmlns:r="http://www.w3.org/TR/RDF/" xmlns:d="http://purl.org/dc/elements/1.0/" xmlns="http://directory.mozilla.org/rdf"> ...<Topic r:id="Top/Arts"> <tag catid="2"/> <d:Title>Arts</d:Title> <link r:resource="http://www3...ca/…./file.html"/></Topic><ExternalPage about="http://www…ca/file .html"> <d:Title>John phillips Blown glass</d:Title> <d:Description>A small display of glass by John Phillips</d:Description></ExternalPage><Topic r:id="Top/Computers"> <tag catid="4"/> <d:Title>Computers</d:Title> <link r:resource="http://www.cs.tcd.ie/FME/"/> <link r:resource=”http://foo.asdfsa….."/></Topic></RDF>

Resources:<RDF xmlns:r="http://www.w3.org/TR/RDF/" xmlns:d="http://purl.org/dc/elements/1.0/" xmlns="http://directory.mozilla.org/rdf"> ...<Topic r:id="Top/Arts"> <tag catid="2"/> <d:Title>Arts</d:Title> <link r:resource="http://www3...ca/…./file.html"/></Topic><ExternalPage about="http://www…ca/file .html"> <d:Title>John phillips Blown glass</d:Title> <d:Description>A small display of glass by John Phillips</d:Description></ExternalPage><Topic r:id="Top/Computers"> <tag catid="4"/> <d:Title>Computers</d:Title> <link r:resource="http://www.cs.tcd.ie/FME/"/> <link r:resource=”http://foo.asdfsa….."/></Topic></RDF>

Semantic Web:Beispiel

Page 27: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

27

27

Warum Semantic Web?Bsp. strukturierte Suche

– Metadaten gemäß Dublin Core (DC)

Page 28: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

28

28

Semantische Suche: Bsp. 2 – Metadaten

gemäß DC + Domänenontologie

Page 29: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

29

29

Das Hauptproblem des Semantic Web

Page 30: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

30

30

Wer soll das alles machen?

Page 31: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

31

31

Der Ansatz

Page 32: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

32

32

Web Mining: Maschinelles Lernen extrahiert aus Daten Wissen

Das Semantic Webmacht Wissen maschinen-verständlich

Semantic Web Mining• nutze Semantik zur Verbesserung v. Mining • nutze Mining zur Generierung v. Semantik

Semantic Web Mining• nutze Semantik zur Verbesserung v. Mining • nutze Mining zur Generierung v. Semantik

Page 33: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

33

33

Page 34: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

34

34

Web Mining

Semantic Web

Web Mining

Semantic Web

...p3ee24304.dip.t-dialin.net - - [19/Mar/2002:12:03:51 +0100]"GET /search.html?t=jane%20austen&SID=023785&ord=asc HTTP/1.0" 200 1759 p3ee24304.dip.t-dialin.net - - [19/Mar/2002:12:05:06 +0100] "GET /search.html?t=jane%20austen&m=video&SID=023785&ord=desc HTTP/1.0" 200 8450p3ee24304.dip.t-dialin.net - - [19/Mar/2002:12:06:41 +0100] "GET /view.asp?id=3456&SID=023785 HTTP/1.0" 200 3478...

Ver-stehen

Page 35: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

35

35

Web Mining

Semantic Web

...<BIBLIOGRAPHY><FLOAT><PAGENUMBER>136</PAGENUMBER></FLOAT><HEAD>Literaturverzeichnis</HEAD>

<CITATION WORKTYPE="journal" PUBLISHED="PUBLISHED"><CUT ID="bib-15-">[1] </CUT><WORKAUTHOR>Agarwal, R.; Krueger, B. P.; Scholes, G. D.; Yang, M.; Yom, J.; Mets, L.; Fleming, G. R.</WORKAUTHOR>U<ARTICLETITLE>ltrafast energy transfer in LHC-II revealed by three-pulse photon echo peak shift measurements</ARTICLETITLE>, <WORKTITLE>J. Phys. Chem. B</WORKTITLE>, <PUBDATE>2000</PUBDATE>, <NUMBER>104</NUMBER>, <PAGES>2908</PAGES>, </CITATION>

...

beitragen

Page 36: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

36

36

Web Mining

Semantic Web

ordnen und

erklären

beitragen

Page 37: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

37

37

Agenda

1. Motivation und Überblick

Warum Web? Warum Blogs?

Semantic Web Mining

2. Finding your way through blogspace:

Using semantics for cross-domain blog analysis

Page 38: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

38

38

Context

Semi-automatic tagging

Blog recommendation

Semantics-enhanced text mining, word sense disambiguation

Exploratory analyses of blog contents

Computational Approaches to Analyzing Weblogs AAAI 2006 Spring Symposium

Read more in the paper:

http://www2.wiwi.hu-berlin.de/~berendt/Papers/SS0603BerendtB.pdf

Page 39: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

39

39

Blog recommendation: collaborative + content-based filtering (www.iro.umontreal.ca/~aimeur/publications/Workshop20.pdf)

Page 40: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

40

40

An example of exploratory blogs analysis (in which a syntax-based approach is sufficient): the run-up to the 2004 US presidential election (Adamic & Glance, 2005)

Page 41: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

41

41

Our procedure

1. Take a set of blog corpora (= collection of blogs manually labelled as belonging to one topic)

2. In all of the following analyses:

what is blog corpus about?

to which other blog corpora is it related, and why?

3. syntactic analysis: keyphrases

4. semantic analysis I: domain labels

5. semantic analysis II: structural semantic interconnections

Page 42: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

42

42

Data

Page 43: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

43

43

Sample data: 4 blog corpora

Food and drink

Health and medicine

Law

Weblogs about blogging

Randomly sampled from the Yahoo! blog directory, 140-330 K words each

Available at

http://www.wiwi.hu-berlin.de/˜berendt/Blogs/Sample20050917/

Page 44: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

44

44

Syntactic analysis

Page 45: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

45

45

What is a blog about? Term Extraction

Domain relevance and domain consensus:

Keyphrases: DR ≥ 0.35, DC ≥ 0.23 (values from previous experiments)

t = term, = corpus (here: blog corpus), b = a blog (here: as an element of a corpus k)

Page 46: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

46

46

What is shared by two blogs? Syntactic similarity: Jaccard coefficient

T(C) = keyphrases / “terminology“of corpus C

Page 47: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

47

47

Semantic analysis I:WordNet and WordNet domains

Page 48: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

48

48

WordNet

Page 49: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

49

49

Hierarchical knowledge: Domain labels

Page 50: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

50

50

Domain label statistics show that the blog corpora have clear thematic foci

frequency of domain D in corpus C = no. of keyphrases in C with a sense that maps to D

Page 51: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

51

51

Blog foci: Top 5 Domains

Food Health Law Meta-blogs

1 Gastronomy Medicine Law Telecommunications

2 Alimentation Time period Quality Time period

3 Quality Quality Politics Person

4 Botany Biology Administration Publishing

5 Person Physics Economy Economy

Page 52: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

52

52

Top-10 intersections

Law – meta-blogs

Law, politics, economy (+ 3 factotum)

Law – health

Law, psychology (+ 2 factotum)

Health – meta-blogs

Law (+ 2 factotum)

Food – law

Sociology (+ 2 factotum)

No overlap food – health, health – law

Page 53: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

53

53

Semantic analysis II:Hierarchical and non-hierarchical knowledge: WordNet and SSI (Structural semantic interconnections)

Page 54: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

54

54

The need for word sense disambiguation

“She sat by the bank and looked sentimentally at the last fish.“

„She sat by the bank and looked sentimentally at the last coins.““She sat by the bank and looked sentimentally at the last coins.“

Page 55: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

55

55

WordNet semantic relations

Page 56: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

56

56

Structural semantic interconnections: bank – fish

Details of SSI‘s enhanced lexcial database(extending WordNet) and of SSI‘s word sense disambiguation are described in

R. Navigli & P. Velardi. Structural Semantic Interconnections: a knowledge-based approach to word sense disambiguation. IEEE Transactions on Pattern Analysis and Machine Intelligence (27-7), July, 2005.

Page 57: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

57

57

Structural semantic interconnections: bank – coin

Page 58: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

58

58

Knowledge-based similarity between blogs

Example:

connection between two terms from the domain computer science

path weights: 0.33; 0.25; 0.25 = 1 / path length in no. of edges)

Procedure: For each blog pair

1. find all SSI paths between all pairs of a term (keyphrase) from blog 1 and a term from blog 2

(in all conditions but the baseline: choose only terms that map to senses in the top domain(s), and choose only those senses)

2. Measure of blog pair similarity = sum over the weights of all these paths

Page 59: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

59

59

Experi-mental settings

Page 60: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

60

60

Results (Quantitative view)

Page 61: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

61

61

Results: Qualitative view

Baseline: Spurious connections between law – metablogs: via computer science terms filtered out in domain-label conditions

Correct connections throughout: Food – health: greasy food (cream cheese, chocolate sauce, ...) – other fats, or health food

1/3-relatedness reveals important connections: Expected: law – metablogs: enterprise (related to law) – computer science

(related to telecommunications), publishing, politics: law firms, news organizations, news story, political party

Unexpected: law – food: local government – town planning (including parking lots, the main drag)

Single-term expressions particularly visible in food – health (eggs, onions, ... – health food; disease – beef) lexicalization effect, depends on domains (also related domains in law – metablogs)

3-relatedness: topic drift, many highly generic single-word terms (activity, life, computer, area, food) establish many generic paths to a 2nd corpus (these terms are „related to“ nearly everything else) topic drift

Page 62: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

62

62

Restricting path grammar to find valid interconnections

Starting from 3-relatedness

≤ 1 related-to link filters out 88.8% of the paths

≤ 2 types of links filters out 53.4% of the path

Results:

Mostly, “meaningful“ paths were retained.

But further research is needed.

Page 63: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

63

63

Questions / future work

Evaluation Standard datasets („senseval for blogs“): try the following ?!

– http://www.blogpulse.com/www2006-workshop/

– 10 M posts from 1 M weblogs from three weeks in July 2005.

– This data set has been selected as it spans a period of time during which an event of global significance occurred, namely the London bombings.

Compare syntax- and semantics-based approaches

– Assuming that the semi-automatic approaches of Semantic Web Mining give qualitatively better results:

How can the quality gains be weigthed against the additional costs of manual post-processing?

Improve path grammars

Ontology learning

Page 64: 1 1 Bettina Berendt Humboldt-Universität zu Berlin –  * mit vielen Ko-AutorInnen ** mit Roberto Navigli, Università “La Sapienza”, Roma,

64

64

… für Ihre Aufmerksamkeit!

Danke …