Wikipedia till AI: Identifiera kategorier, entiteter och relationer
Extraherat och filtrerat är Wikipedia svårslagen för att använda vidare i AI och mycket annat maskinellt för att identifiera kategorier för text eller relaterat till en entitet eller koncept man har. Nedan har vi några av många exempel (även få ut RSS-strömmar för företag m.fl. indirekt) där jag haft stor nytta. Stor, god kvalitet och byggs ut där både nytt och gammalt kommer in.
Citaten med exemplen är från Världsproblemen med störst byråkratiskt utrymme jag skrev till Nyfiken vital. Här har jag också kompletterat med fler länkar.
Wikipedia bäst för att hitta fakta och bestämma typ
Förutom denna typ av organisationer, myndigheter, regeringar, politiska tankesmedjor, organisationer m.m. finns även en del relationer från Wikipedia i Blue light. Dock har det försökts att hållas ner (även om det är bra för att ”utspritt” på korrekta platser i det nätverks som byggs upp därför dessa är definierade hyggligt enhetligt i uppslagsboken) därför att det är för lätt vilket gör att det värde de former av organisationer som prioriterades representerar missas (Wikipedia är just enkelt och känns alltid bra därför att fakta man extraherar tycks uttrycka allt så exakt och fullständigt men just allt verksamhetsnära till ett mer unikt perspektiv missas för det istället kanske mer ”objektiva”).
Däremot används Wikipedias kategorier och info-boxar på uppslagssidorna (se [1] för en artikel presenterad vid WWW 2008) m.m. extraherat från Wikipedia och nästan exklusivt i en helt annan del av plattformen. Medan Blue Light liknar psykologins prototyper kan vi jämföra Wikipedia-data:s ansvarsområde med kategori-neuroner (vad vissa former av ”absolut” mening tenderar att konvergera till eller i närheten av i en grupp neuroner). De hjälper oss att typbestämma och sortera rätt vad entiteter och relationer betyder.
Exempel på en tidig version identifiering av kategorier m.m. för godtyckliga ord finns här: The Librarian: Area drill för samband mellan och typiska aspekter på entiteter. Diskussioner algoritmer m.m. finns i ett otal publicerade artiklar från forskningsvärlden också många direkt tillämpade på Wikipedia: Large-Scale Named Entity Disambiguation Based on Wikipedia Data och Learning Named Entity Recognition from Wikipedia.
En till excellent källa jag av samma anledning undvikit i Blue light men periodvis också använt jämförbart med Wikipedia nedan är Wordnet. Det känns bra om man klarar sig med bara Wikipedia då projektet ju har gott tempo i allt.
Dessutom expanderar den i bredd där ju bland äldre projekt Wiktionary också är värdefullt ex. bag of words eller semantiska nät. Det klassiskt välkända exemplet på sådana semantiska nät är Collins och Quillians från 1969 där de semantiska relationerna byggdes upp i plan utifrån vilka ord som var relaterade i ordlistor. En av deras artiklar som bra passar till artikeln citaten kommer från Retrieval time from semantic memory givet att just accesstid för features diskuteras. De modellerade ju sitt semantiska nät utifrån det i psykologin klassiska fråge-gruppen fåglarna. Bästa exemplet även om jag inte minns om de använde det är att mäta accesstiden det tar för att identifiera en pingvin som fågel jämfört med en mycket mer typisk fågel. Deras semantiska nät kan argumenteras uttrycka det.
Det finns en mängd artiklar från forskningsvärlden med ofta även mer konkret praktiskt användbar förutom indikationer om möjlighet och algoritmer. Den här sökningen på Google Scholar kan vara en utgångspunkt: info-box wikipedia .
Potentialen extraherat Wikipedia data har för detta är svårslagen. Kvaliteten är hög och omfånget stort. Viktigast utvecklas och uppdateras uppslagsverket kontinuerligt. Det avbildar mänsklighetens begrepp och hur de flesta uppfattar deras vanligaste betydelser. Kanske är Wikipedia vad vi kan jämföra med en ”approximation” av motsvarande kategori-neuroner fast för mänskligheten? Vi kan se hur andra referensverk konvergerar upp mer sammanfattade till uppslagssidorna där de finns som referenser.
Entydiga relationer mellan entiteter (ex. personer, företag och organisationer i Wikipedia) med de kategorier de tillhör (en rad för varje relation). Motsvarande finns givetvis även att extrahera ut (gjort och finns i samma fil vi ser) för abstrakta koncept och andra relationer. Det ger möjlighet att resonera om vilka kategorier, typer eller motsvarande olika entiteter eller begrepp sorterar till.
Extrahera RSS till named entities
Nedan laddade jag upp fel bild men rätt finns i original-artikeln.
Ett exempel med Wikipedia som utgångspunkt för att lära mer från informationen där ser vi nedan där RSS-adresser (blogg-strömmar till tidningar, organisationer m.fl. entiteter som kan förekomma i tidningsnyheter tas ut genom att först identifiera deras vanliga webbadress på deras uppslagssida i Wikipedia vilken därefter kontrolleras för att se om en publik feed finns:
Just detta data datat är planerat att publiceras fritt när klart. Det tar dock ett antal dagar till eftersom att cirka 236000 webbadresser ska spindlas och när RSS-hittas behöver roboten undersöka dessa. Vidare behöver datat kontrolleras något också manuellt så att inte ”skräp” från sidorna råkat komma med ev. om än oerhört osannolikt något privat någon kan ha skrivit i kommentar i html-koden och trott att det ej var publikt läsbart.























