Irrungen,Wirrungen MIT自然语言处理

丹尼斯·U(Dennis U.)

“如果您只阅读其他人都在阅读的书,那么您就只能考虑其他人在想什么。”挪威木业 村上春树

村上的Dieses Zitat von Murakami的动机和发展的方向。 畅销书,中篇小说,经典Schinken和Zeitlose Klassiker。 Genie um letztere geht es in Artem Artikel。

Wir wollen zeigen,Méglichkeit和机器学习,深度学习和人工智能方面的新技术。 在线Buchmesse 2018 大会#obm2018 )和Frankfurter Buchmesse( #fbm18 )下线Deutsche Klassiker Genauer直到Lupe genommen。 Hierfürhaben wir uns einen德国音乐学院的书店:Das Buch“ Irrungen,Wirrungen” von Theodor Fontane。

由卡尔·布雷特巴赫(Carl Breitbach,1833-1904年)(zeno.org)[公共领域],通过Wikimedia Commons

请注意,在Irrungen的Handlung提醒,在Wirrungenfürdiejenigen的Letüreschon eine Weilezurückliegt。

1887年在Buchform herausgegeben的Vossischen Zeitungveröffentlichtund ein Jahrspäter中的Der Roman von Theodor Fontane wurde erstmalig。 玛格达琳(莱恩)的博托·冯·赖内克尔男爵和克莱恩·比格·格里兴男爵(罗马) Beidekönnensich nicht von ihren gesellschaftlichen Grenzenlösen和heiraten letzendes einen anderen合伙人。 祖姆·恩德(Jum Ende)饰演Botho danngeläutert电影节,达斯·莱恩斯(Dass Lenes neuer)合伙人吉迪恩·恩法奇 [1]

罗马战争史上的达姆斯和哈特提格·阿布勒努格·埃尔法赫伦。 身陷困境的人,达斯·丰坦·莱恩(Dass Fontane Lene),托特兹·尼德里格伦(Tritz ihres niedrigeren)脱颖而出。

Aus Data Science深入研究了机器学习算法,学习了机器学习算法,并从信息免疫学和免疫学方面获得了信息。 Eine Methode der Datenanalyse,作者自然语言处理。

Durch自然语言处理(NLP)专家在DatenanalysenatürlicheSprache zu erfassen和mit Hilfe von Algorithmen zu verarbeiten中工作。

“自然语言学家穆斯(Lösungenschaffen),乌姆·索沃·格斯普罗兴纳(ugs sowohl gesprochene)以及其他分析专家,分析专家和研究人员。 Hierfürist einVerständnisnicht nur von einzelnenWörternundSätzen,儿子Ersfassen von komplettenTextzusammenhängen和Sachverhalten notwendig。” [2]

在不流行的秋季中,普通语言的NLP算法库Python库[3]在罗马语vorkommen und welche中的gewisse Worte中发挥了重要作用。

NLP Herausforderungen

分析文本的麻烦,就死于费尔登·德特里希·施维里格·马赫·阿尔斯·贝恩的“正常”日期。

Zum einengehörenTexte zu den sog。 Daten和einer Tabelle中的Daten不合时宜。 Denn durch Eigenschaften与underschiedlichenLängenvon Worten undSätzen和deren Anordnung kann sich一起发表了演讲。 Einige Herausforderungen sind zum Beispiel:

  • Die Bedeutung von Worten-同义词,反义词,和声使zusätzlicheKomplexität。
  • 死后复活,死而复生。
  • 内幕消息来自内部情报,由本尔·坎恩(Berbiniel)负责。

Im Anschluss haben wir ein paar einfache NLP Techniken am Beispiel von Theodor Fontanes Irrungen,Wirrungen ausprobiert。

Zunächstsei gesagt,简单的罗马文字分析法。 Hierfürmuss der Text代表了vorbereitet werden。

文本

Voljständigkeitshalbersei jedoch gesagt,dass elementare Schritte zum预处理das Entfernen von Satzzeichen和sogenannten 停止词 sind。 停用词会使Worte死,使您无法正常工作,而Relevanz zur Bestimmung des Inhalts可能会危害您的健康。 Ausperdem haben wir zum Beispiel死于Satzzeichen的入职者,SroieGroßschreibungauf Kleinschreibung reduziert。 Eskönnennoch weitere Schritte vorgenommen werden wie das Reduzieren von

Häufigkeiteines Wortes

Nach dem Entfernen der停止用语,要用最优惠的价格买到Worte nun amhäufigstenvorkommen。

Häufigkeiteinzelner文字文字作者冯·伊伦根,维尔伦根·冯·西顿·丰坦

Wie der Graph zeigt,Horufsten vorkommen的Worte“ frau”,“ ja”,“ lene”,“ botho”,“ immer”,“dörr”和“ sagte”。

希拉乌斯·坎恩(Hieraus kann man)饰演手稿。 Das Wort“ Frau” kommtüber250-mal im Text vor。 Darauslässt女士,dass weibliche Charaktere eine besondere Rolle spielen。

Auererdem sind Namen von 3 Charakteren,nämlichLene,Botho和FrauDörr,以及下瓦尔登堡。 死于方根(Dialogen wiederholt)和死于名字(Namen ansprechen)的死因。

Lettztlich kommt das Wort在dem Roman中“ sagte” auf knapp 190 Wiederholungen。 Dine ist eine klare Indikationdarüber,达斯·达斯·布赫·贝松德斯(Dusch Dialogegeprägtist)。 Dennochlässtsich dadurch nicht克拉尔·萨根(Klar Sagen),肥胖者,尼姑·维尔·奥德·韦尼格(Dialoge sind im Vergleich)和安德伦·泽特根诺西斯(Werken)。

Die Stimmung im Buch —情绪分析

AlsNächsteswollten wir bestimmen,ob das Buch eher positiv oder negativ geschrieben ist。 Teile der nltk图书馆,图书馆,图书馆,图书馆。

Dabei wurde在wörterbuch遗赠了klassifiziert和gleicht并在Häufigkeitvon eben diesen遗赠。 我是Endeerhältman einen得分。 在不安定的秋天中,人们对葡萄酒的态度和态度都受到了损害。 (他的seierwähnt,dass es noch和ereMöglichkeitengibt sich ein Bildüberdas Sentiment zu machen,wie zB den AFINN Score,welcher eine Zahl zwischen 1和-1 liefert)

Trotz des eher traurigen Endes ist der der Roman dennoch von einer positiven Sprachegeprägt。 因此,罪恶的2/3识别为正数(正值= 0.6999,负值= 0.3333)

Anschließendwollten wir wissen,einzelnen Kapitel verhalten。

西奥多·丰塔内斯·艾伦根·维伦根的情绪分析

绝地求生记分卡宾特尔(Einzelnen Kapitel)。 达·贝索·祖尔·厄肯特尼斯·科姆特的《大赦》杂志宣布,布法罗·德·吉迪恩·恩·贝塞尔·曼·菲尔·莱恩·伊斯特·阿尔斯 Hier wird der Ton anscheinend negativerbzw。 vorherigen Kapiteln的nüchternerals。

Wie bereits voraberwähnt,作者ine eine sehr einfache分析并撰写了man kann noch viel tiefer一文。 Vielmehrdrängtsich die Frage auf,WofürMan solche Analysenüberhauptgebrauchen kann。 Dafürgivers es verschiedene商业案例,因电子商务而生的资深专家。

  1. Eine Sentiment分析用户的反馈意见。 Eine Vielzahl和Prowerktbewertungen共同为您解决了问题,Ener Vielzahl先生和von Sekunden先生一起为您介绍了Bewertungen durchforstet和gefiltert werden。
  2. Eine weitereMöglichkeit和Text2Cassification方法。 较高级别的产品目录可以直接发送给werden或更多gegengeprüftwerden。
  3. Text2Numbers —文本eine Zahl erstellen。 Die ist ein eher eher abstrakter Anwendungsfall,dennochkönnteman beispielsweise den Preis eines Fahrzeugs durch dessen Beschreibung ermittelnbzw。 schätzen。
  4. Clusteranalyse von Lesern — Amazon ist bereits sehr stark,作者:Empfehlen vonähnlichenBücherngeht。 Dort wird jedochüberwiegendein Algorithmus genutzt,Kaufhistorie von Millionen von Usern检查了und dann unter derberühmten,“ Andere Kunden kauften auch…” -Kategorie empfohlen。 Eine weitereMöglichkeitdurch NLP,SpeziellfürVerlage,Analysieren von Schreibstilen,Wortwahl oderähnlichenCharakteristika von Schriftstellern和um eine solche Empfehlung zu machen。

请在Verlagswesen einsetzenkönnen的工作人员中学习一下用例。 跌倒了吗? 好好帮忙萨赫,我的灵魂死了文本Herauslesen kann吗?
解决方案用例有很多,例如,有经验的人,有经验的人,有经验的人,有的人,有的人,有的人。

[1] Wikipedia.org, Irrungen,Wirrungen, https: //de.wikipedia.org/wiki/Irrungen,_Wirrungen (2018)

[2] Bigdata-Insider, 是自然语言处理吗?, https://www.bigdata-insider.de/was-ist-natural-language-processing-a-590102/