Hans Husman kommenterar IT

På Accesspunkt kommenterar Hans Husman IT med inriktning på säkerhet, trafik och att skriva.

Wikipedia till AI: Identifiera kategorier, entiteter och relationer

Skriv en kommentar
23 februari 2012 00:07

Extraherat och filtrerat är Wikipedia svårslagen för att använda vidare i AI och mycket annat maskinellt för att identifiera kategorier för text eller relaterat till en entitet eller koncept man har. Nedan har vi några av många exempel (även få ut RSS-strömmar för företag m.fl. indirekt) där jag haft stor nytta. Stor, god kvalitet och byggs ut där både nytt och gammalt kommer in.

Citaten med exemplen är från Världsproblemen med störst byråkratiskt utrymme jag skrev till Nyfiken vital. Här har jag också kompletterat med fler länkar.

Wikipedia bäst för att hitta fakta och bestämma typ
Förutom denna typ av organisationer, myndigheter, regeringar, politiska tankesmedjor, organisationer m.m. finns även en del relationer från Wikipedia i Blue light. Dock har det försökts att hållas ner (även om det är bra för att ”utspritt” på korrekta platser i det nätverks som byggs upp därför dessa är definierade hyggligt enhetligt i uppslagsboken) därför att det är för lätt vilket gör att det värde de former av organisationer som prioriterades representerar missas (Wikipedia är just enkelt och känns alltid bra därför att fakta man extraherar tycks uttrycka allt så exakt och fullständigt men just allt verksamhetsnära till ett mer unikt perspektiv missas för det istället kanske mer ”objektiva”).

Däremot används Wikipedias kategorier och info-boxar på uppslagssidorna (se [1] för en artikel presenterad vid WWW 2008) m.m. extraherat från Wikipedia och nästan exklusivt i en helt annan del av plattformen. Medan Blue Light liknar psykologins prototyper kan vi jämföra Wikipedia-data:s ansvarsområde med kategori-neuroner (vad vissa former av ”absolut” mening tenderar att konvergera till eller i närheten av i en grupp neuroner). De hjälper oss att typbestämma och sortera rätt vad entiteter och relationer betyder.

Exempel på en tidig version identifiering av kategorier m.m. för godtyckliga ord finns här: The Librarian: Area drill för samband mellan och typiska aspekter på entiteter. Diskussioner algoritmer m.m. finns i ett otal publicerade artiklar från forskningsvärlden också många direkt tillämpade på Wikipedia: Large-Scale Named Entity Disambiguation Based on Wikipedia Data och Learning Named Entity Recognition from Wikipedia.

En till excellent källa jag av samma anledning undvikit i Blue light men periodvis också använt jämförbart med Wikipedia nedan är Wordnet. Det känns bra om man klarar sig med bara Wikipedia då projektet ju har gott tempo i allt.

Dessutom expanderar den i bredd där ju bland äldre projekt Wiktionary också är värdefullt ex. bag of words eller semantiska nät. Det klassiskt välkända exemplet på sådana semantiska nät är Collins och Quillians från 1969 där de semantiska relationerna byggdes upp i plan utifrån vilka ord som var relaterade i ordlistor. En av deras artiklar som bra passar till artikeln citaten kommer från Retrieval time from semantic memory givet att just accesstid för features diskuteras. De modellerade ju sitt semantiska nät utifrån det i psykologin klassiska fråge-gruppen fåglarna. Bästa exemplet även om jag inte minns om de använde det är att mäta accesstiden det tar för att identifiera en pingvin som fågel jämfört med en mycket mer typisk fågel. Deras semantiska nät kan argumenteras uttrycka det.

Det finns en mängd artiklar från forskningsvärlden med ofta även mer konkret praktiskt användbar förutom indikationer om möjlighet och algoritmer. Den här sökningen på Google Scholar kan vara en utgångspunkt: info-box wikipedia .

Potentialen extraherat Wikipedia data har för detta är svårslagen. Kvaliteten är hög och omfånget stort. Viktigast utvecklas och uppdateras uppslagsverket kontinuerligt. Det avbildar mänsklighetens begrepp och hur de flesta uppfattar deras vanligaste betydelser. Kanske är Wikipedia vad vi kan jämföra med en ”approximation” av motsvarande kategori-neuroner fast för mänskligheten? Vi kan se hur andra referensverk konvergerar upp mer sammanfattade till uppslagssidorna där de finns som referenser.

Entydiga relationer mellan entiteter (ex. personer, företag och organisationer i Wikipedia) med de kategorier de tillhör (en rad för varje relation). Motsvarande finns givetvis även att extrahera ut (gjort och finns i samma fil vi ser) för abstrakta koncept och andra relationer. Det ger möjlighet att resonera om vilka kategorier, typer eller motsvarande olika entiteter eller begrepp sorterar till.

Extrahera RSS till named entities

Nedan laddade jag upp fel bild men rätt finns i original-artikeln.

Ett exempel med Wikipedia som utgångspunkt för att lära mer från informationen där ser vi nedan där RSS-adresser (blogg-strömmar till tidningar, organisationer m.fl. entiteter som kan förekomma i tidningsnyheter tas ut genom att först identifiera deras vanliga webbadress på deras uppslagssida i Wikipedia vilken därefter kontrolleras för att se om en publik feed finns:

Just detta data datat är planerat att publiceras fritt när klart. Det tar dock ett antal dagar till eftersom att cirka 236000 webbadresser ska spindlas och när RSS-hittas behöver roboten undersöka dessa. Vidare behöver datat kontrolleras något också manuellt så att inte ”skräp” från sidorna råkat komma med ev. om än oerhört osannolikt något privat någon kan ha skrivit i kommentar i html-koden och trott att det ej var publikt läsbart.

Kommentera inlägget

Artikelkommentatorerna ansvarar själva för sina inlägg.

Var god skriv in texten du ser nedan:

XHTML: Ni kan använda er av följande taggar: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>


Cloud Magazine-nytt

Mest läst just nu

Senaste testerna

Mest kommenterade

Bloggare

Heta whitepaper

Senaste nytt 100 senaste | Arkiv | RSS | Läsarfavoriter

IDG.se bottom line
Dagens dilbert
Dagens dilbert via idg en enkel XML som visar dagens Dilbert
Städjes skriverier

Sveriges vassaste it-krönikörer

Krönikor

Dags för Dell att lyfta blicken

HiQ har ännu mer att ge

Bygg en bro mellan vd:n och cio:n

Tre spikar har hjälpt mig i soppkoket

Sluta simulera bibliotek - e-böcker hör inte hemma där


It-nyheter efter ämne
Outsourcing

AdtechHar du synpunkter på sajten? Kontakta ansvarig utgivare: Carl Grape | Kontakta IDG.se | Tipsa om en nyhet |
Så använder vi cookies | Om Personuppgifter & copyright
Karlbergsv. 77 106 78 Stockholm Tel: 08-453 60 00 Karta | Copyright © International Data Group