Upload
herbert-hofmeister
View
242
Download
9
Tags:
Embed Size (px)
Citation preview
Oracle TEXT 10g Release 1
New Features
Edwin BalthesOracle Support ServicesOracle Deutschland GmbH
AGENDA
Multilingualer Lexer Multipart Mime Filtering Query Log Analyse – neues Package Progressive Relaxation JDeveloper wizards for text
search Near Accum Ctx_Report XML Output ALTER INDEX rebuild replace metadata
Text 10g Release 1Globalisierung
• Unicode Lexer Erweiterung• Japanische Sprachunterstützung• Neue Deutsche Rechtschreibung
Text 10g Release 1Unicode Lexer
• Neue Lexer Präferenz – World_Lexer• Support für jede Unicode 4.0 Sprache
Text 10g Release 1Japanische Sprachunterstützung
• Delimiter characters • Fuzzy Funktion für das Japanische• Japanisches Stemming• Japanischer Unicode• Japanisches Benutzer Lexikon
Text 10g Release 1Neue Deutsche Rechtschreibung
Alte Rechtschreibung
Neue Rechtschreibung
Potential PotenzialKatarrh Katarr, Katarrh Delphin DelfinErdgeschoß Erdgeschoss Schiffahrt Schifffahrt Weh tun WehtunIrgend etwas IrgendetwasSoviel So viel
• Alte Schreibweise• Neue Schreibweise
Text 10g Release 1Query Template - Erweiterungen
• Query Rewrite • Progressive Relaxation• Spezifikation - Query Language • Alternatives Scoring• Alternative Grammatik
<query>…..</query>
Text 10g Release 1Query Rewrite
Text 10g Release 1Beispiel - Query Rewrite
SELECT * FROM purchaseorders WHERE CONTAINS (text,’<query><textquery lang="ENGLISH" grammar="CONTEXT"> Retail Sales<progression><seq><rewrite>transform((TOKENS, "{", "}", " "))</rewrite></seq><seq><rewrite>transform((TOKENS, "{", "}", " ; "))</rewrite>/seq><seq><rewrite>transform((TOKENS, "{", "}", "AND"))</rewrite></seq><seq><rewrite>transform((TOKENS, "{", "}", "ACCUM"))</rewrite></seq></progression></textquery><score datatype="INTEGER" algorithm="COUNT"/></query>’)>0;
Text 10g Release 1NEAR_ACCUMulate
NEAR_ACCUM((word1, word2,..., wordn) [, max_span [, order]])
Text 10g Release 1Progressive Relaxation
Text 10g Release 1Progressive Relaxation
select * from purchaseorders where CONTAINS (text,'<query>
<textquery lang="ENGLISH" grammar="CONTEXT">Retail Sales<progression><seq>{Retail} {Sales}</seq><seq>{Retail} NEAR {Sales}</seq><seq>{Retail} AND {Sales}</seq><seq>{Retail} ACCUM {Sales}</seq></progression></textquery><score datatype="INTEGER" algorithm="COUNT"/></query>')>0;
Text 10g Release 1Query Templates - Erweiterungen
Multi_Lexer - Query Languageselect id from docs where CONTAINS (text,'<query><textquery lang="french">bon soir</textquery></query>')>0;
Alternatives Scoringselect id from docs where CONTAINS (text,'<query><textquery grammar="CONTEXT" lang="english"> mustang </textquery><score datatype="float" algorithm="DEFAULT"/></query>')>0
Alternative Grammatikselect id from docs where CONTAINS (text,'<query><textquery grammar="CTXCAT">San Diego</textquery><score datatype="integer"/></query>')>0;
Text 10g Release 1CTX_REPORT Package
• CTX_REPORT.DESCRIBE_INDEX • CTX_REPORT.DESCRIBE_POLICY • CTX_REPORT.CREATE_INDEX_SCRIPT • CTX_REPORT.CREATE_POLICY_SCRIPT • CTX_REPORT.INDEX_SIZE• CTX_REPORT.INDEX_STATS• CTX_REPORT.TOKEN_INFO • CTX_REPORT.QUERY_LOG_SUMMARY • CTX_REPORT.TOKEN_TYPE
Text 10g Release 1CTX_REPORT - Query Log Analyse
• Welche Abfragen wurden gemacht ? • Welche Abfragen waren erfolgreich ? • Welche Abfragen waren nicht erfolgreich ?• WAS wurde WIE HÄUFIG angefragt ?
Text 10g Release 1CTX_REPORT - Query Analyse
1. Start query logging2. End query logging3. Query log summary
Text 10g Release 1XML Output - CTX_REPORT Package
SELECT ctx_report.describe_index('DOCS_TEXT','XML') FROM dual;CTX_REPORT.DESCRIBE_INDEX('DOCS_TEXT','XML')--------------------------------------------------------------------------------<CTXREPORT><DESCRIBE_INDEX><INDEX_ATTRIBUTES><INDEX_ATTRIBUTE NAME="index name">"CTXSYS"."DOCS_TEXT"</INDEX_ATTRIBUTE><INDEX_ATTRIBUTE NAME="index id">1392</INDEX_ATTRIBUTE><INDEX_ATTRIBUTE NAME="index type">context …
Text 10g Release 1Erweiterungen - Dokumenten Services
In 9i wurde für highlight, markup, tokens, filter, gist und markup ein Index benötigt.
Dies geht nun in 10gauch ohne einen Index
Text 10g Release 1Alter Index Rebuild Replace Metadata
• Ersetzen der existierenden Präferenz-Settings durch neue Präferenz-Settings• betrifft auch die SYNC Parameter• Kein Neuaufbau des Textindexes
• ACHTUNG – eigene Verantwortung für einen konsistenten Index
Text 10g Release 1Erweiterungen - Mail Filtering
• Konvertieren einer RFC-2045 Email in ein indizierbares Format
• Behandlung der Message Bodies basierend auf dem Content-Type • Text Meldungen werden in den DB Characterset konvertiert• Binärer Text wird gefiltert -> INSO • Andere nicht binäre Daten werden nicht ausgegeben
• Benutzerdefinierte Felder sind als Sektionen suchbar
Text 10g Release 1Erweiterungen bei der Indizierung
• AUTO und ON COMMIT Synchronisierung für CONTEXT Indizes • Transaktionale CONTEXT Indizes• Automatische Multi-Language Indizierung• Unterstützung für Local Partitioned CONTEXT Indizes in parallel • Binäres Filtern für den MULTI_COLUMN_DATASTORE • Neue XML Output Option für Index Reports
Text 10g Release 1Auto und ON COMMIT Synchronisierung
DML COMMITDML Pending Queue
Text 10g Release 1Index Synchronisierung
CREATE INDEX <index_name> ON<table_name>(<column_name>)INDEXTYPE ISCTXSYS.CONTEXT PARAMETERS('SYNC(MANUAL |
ON COMMIT |EVERY "interval_string" MEMORY size PARALLEL degree');
CREATE INDEX index_name ON table_name(column_name) INDEXTYPE IS CTXSYS.CONTEXT LOCAL(PARTITION part_name1 PARAMETERS(' SYNC(MANUAL |ON COMMIT |EVERY "interval_string" MEMORY size PARALLEL degree'), PARTITION part_name2 PARAMETERS('...'),...)PARAMETERS('...');
Global Indexes
Local Indexes
Text 10g Release 1Views - Synchronisierung
CTX_USER_INDEXES
CTX_INDEXES
CTX_INDEX_PARTITIONS
CTX_USER_INDEX_PARTITIONS
Text 10g Release 1Transaktionale CONTEXT Indizes
SELECT… CONTAINS(…)
DML
Text 10g Release 1CTXXPATH - Erweiterungen
• Indizierung von Number und Unterstüzung von numerischen Range Searches • Attribute Existence • Positional Predicate.
Text 10g Release 1INPATH and HASPATH Erweiterungen
• Highlighting mit• INPATH• HASPATH
Text 10g Release 1Änderung der Rechte für CTXSYS
DBA Privilege
Text 10g Release 1JDeveloper TEXT Wizards
•Text Wizard•Classification Wizard•Catalog Wizard
Text 10g Release 1Text Wizard Demo
Text 10g Release 1Text Wizard Demo
Text 10g Release 1Text Wizard Demo
Text 10g Release 1Text Wizard Demo
Text 10g Release 1Text Wizard Demo
Text 10g Release 1Text Wizard Demo
Text 10g Release 1Text Wizard Demo
Text 10g Release 1Text Wizard Demo
Text 10g Release 1Text Wizard Demo
Text – Simple Search
Text – Advanced Search
Text – Knowledge Base
Oracle Ultra Search
Out-of-the-Box search engine– Basiert auf Oracle Text
Suche über intranet/extranet sources– Web, Databases, Files, Mail Servers,
Repositories Verfügt über Web style interface und Java API
für UserInterface Wird mit 9i Database, 9iAS/Portal, Collab.
Suite R2/3 ausgeliefert
Ultra Search
Ultra Search Adv. Search
Collab Suite Search App.
Ultra Search Architecture
SQL EngineSQL EngineOracle TextOracle TextWeb Server Web Server
Query & Query & Admin Admin
CapabilitiesCapabilities
Web Web BrowsBrows
erer
Ultra Search Client
Ultra Search Mid-Tier
Component
Ultra Search ServerCrawlerCrawler
CrawlerCrawlerCrawlerCrawlerCrawlerCrawler
Crawled Search Architecture
Mid-tier
Ultra Search
Search App.
Meeting
MeetingCrawlet
WebCrawler
Calendar
Mail Crawlet
Files
Files Crawlet
CalendarCrawlet
Search Repository
Oracle Confidential
Client
Caching DocumentsWK$DOCUMENT
Indexing Documents
Gathering URLs
Federated Search Architecture
Mid-tier
Search Federator
Calendar Meeting
Mail Searchlet
Files
Files Searchlet
CalendarSearchlet
UltraSearch MeetingSearchlet
WebSearchlet
Search App.
Search RepositoryOracle Confidential
Client
Integrated Search Architecture
Mid-tier
Calendar MeetingFilesMail
Crawled Search
MeetingSearchlet
WebSearchlet
Ultra Search Repository
Portal Crawlet
Database
DatabaseCrawlet
Portal
3rd-party Sources Search Federator
Mail Searchlet
Files Searchlet
CalendarSearchlet
Collab. Suite Search App.
Client
Java Query API
New Feature AreasSecurityFederated SearchNeue repositories (Documentum, Lotus/Notes)Classification/Clustering
Advanced SecurityAuthentifizierung mit SSOUltra Search repository unterstützt ACLs für crawled Dokumente
–OID Integration für die group Info.–Benutzereingeschränkte Suche nach was erlaubt ist–Crawlet für (document, ACL) Paare
Nur mit Extensible Crawler repositories HTTPS, Digest Authentication support
Federated Search
Mid-tier
Calendar MeetingFilesMail
Crawled Search
MeetingSearchlet
WebSearchlet
Ultra Search Repository
Portal Crawlet
Database
DatabaseCrawlet
Portal
3rd-party Sources
Search Federator
Mail Searchlet
Files Searchlet
CalendarSearchlet
Client
New 10g Multimedia FeaturesStandards Support – SQL/MM Still Image
New version of Java Advanced Imaging and additional image processing operators
Support for additional media formats
–Microsoft ASF, MPEG2 & MPEG4
•Microsoft Windows Media Server Plugin
•Real Server Plugin for Helix Server
•XML DB integration
Standards Support
Oracle10g supports the first edition of the ISO/IEC 13249-5:2001 SQL/MM Part 5: Still Image Standard.
The standard defines object relational types for images and image characteristics. Each object type includes attributes, methods, and associated SQL functions and procedures.
Java Advanced ImagingSupport for JAI 1.1.1_01, the newest version of the SUN Open Standard for Image Processing
Additional image processing operators–Arbitrary Image Rotate
–Flip & Mirror
–Page extract from a multi page TIFF file
–Contrast Enhancement
–Quantize algorithm
–Gamma Correction
Microsoft ASF & Windows Media Server
Advanced System Format has become a popular streaming media format on the web
–Oracle10g Database can parse ASF file format metadata
Windows Media Server–An Oracle developed plugin for the Microsoft Windows Media that enables it to stream ASF audio/video files stored in Oracle10g Database
–Analogous to the existing Oracle9i Database support for Real Networks streaming server
Available through OTN
AQ&FRAGENFRAGEN??????