logo       
Google Custom Search
    AddThis Social Bookmark Button
-->

Re: Adressverzeichnisse (Reverz, Klick-Info, Telefonbuch): msg#00054

Subject: Re: Adressverzeichnisse (Reverz, Klick-Info, Telefonbuch)
On Wed 2004-07-14 (13:40), Hagen Kuehnel wrote:
> Hallo,
> 
> On Wed, Jul 14, 2004 at 12:11:35PM +0200, Martin Trautmann wrote:
>  
> > opengeodb nutze ich als Basis fuer die Ortsdaten. Abgleichen moechte ich es
> > mit tatsaechlichen Adressangaben, speziell aber auch fuer Strassendaten.
> 
> Die DPAG bietet sämtliche Straßendaten, wenn man Großkunde beim
> Paketversand ist (oder wird). Sinn ist, dass die Pakete vom Absender
> bereits kodiert werden sollen (Postleitcode).
> 
> Ich habe letztes Jahr dazu ein Frontend gebaut, was remote oder mit
> einer website ansprechbar ist. Die Daten werden via bash-Skript in eine
> MySQL eingelesen. 

Hallo Hagen,

wie schon erwaehnt: du bist da auf sehr duennem Eis, weil gerade diese
Nutzung von der DPAG untersagt ist.

Abgesehen davon sind mir die DP-Daten zu unvollstaendig, wenn auch so
ziemlich am besten recherchiert. (Beispiel: 'Schwarzes Kloster' hier in
Freiburg, bekannte Gasse in der Innenstadt, aber bei der Post unbekannt.
Vermutlich gibt's dort tatsaechlich keinen Briefkastenkunden).

> > Hat jemand von euch hier praktische Erfahrungen mit den neueren
> > Telefonbuch-Versionen, die einen vollstaendigen Datenexport erlauben sollen?
> 
> Ist in Planung, also auf der ToDo. Ob es dieses Jahr noch etwas wird,
> weiß ich nicht.

Da bin ich gespannt auf deine Ergebnisse :-)

> > - Strassenname und dessen haeufige Schreibfehler bzw. -Varianten
> >   (z.B. Haeufigkeit von 'Dresdener Str.' vs. 'Dresdner Str.')
> 
> Wer soll diese Fipptehler erfassen? Das muss ja irgendjemand analysieren
> und eine Alias-Tabelle anlegen. Besser ist es, den user auf senen Fehler
> zu verweisen.

Das waere fuer den Telefonbuch-Betreiber interessant, wenn man auf Eingabe
der Daten von 'Bachstraße' den Hinweis bekommt, dass man wohl die
'Johann-Sebastian-Bach-Straße' meinen wuerde (mit zig Varianten:
J-S-Bach-Strasse, Joh.-Bach-Str., ...)

Bei mir ist das Kind aber schon in den Brunnen gefallen: Es geht daher um
die Erzeugung der Aliase, was typische Fehler sind.

Hauptfehler sind z.B. Leerzeichen und Bindestriche.
Haeufig sind Abkuerzungen (Prof.-/Frh.-/BGM-/-v.-/St.-)
Oft man auch spezifische Rechtschreibfehler (Elsa Br[aä]ndstr[oö]m, Albert
Schwei[t]*zer, ...).

> > - dazu erforderlich sind wohl PLZ oder Vorwahl und Ort,
> >   hilfreich die Hausnummer
> 
> Es gibt Straßen, die sich über mehrer Postleitzahlen erstrecken.

Ja, aber fuer diese Anwendung hier reicht eine beliebige meist aus, um den
Partner  zweier Schreibweisen zuzuordnen. Natuerlich gibt's etliche
Sonderfaelle, wo sich zwei Strassen in unterschiedlichen Ortsteilen nur
winzig unterscheiden. Aber im Vergleich zu identischen Strassennamen ist
das auch tolerabel (schau dir z.B. mal die Gartenstr. in Hadamar an).

> >   (z.B. die Frage, wie oft vierstellige Hausnummern in D vorkommen)
> 
> Dass kann ich ermitteln, also wieviele Straßen mit vierstelligen Nr.
> existieren. 

Das waere schon mal interessant - wobei mich nicht die Strassen mit
vorgeblich vierstelligen Nummern interessieren (typisch z.B. fuer manche
amerikanischen Block-Wohn-Siedlungen), sondern wie viele Leute dort
tatsaechlich wohnen.

> > - Initialen sind interssant - z.B. wie oft die gleichen Initialen an
> >   einer Adresse vorkommen.
>  
> ???

Es geht um die Adresscodierung mit Ort, Strasse, Hausnummern und
Initialen. Mir fehlen statistische Infos, wie oft aktuell schon in einer
groesseren Wohneinheit die gleichen Initialen mehrfach vorkommen. - In
unserer Familie waer's schon dreimal MT, aber tolerabel. Andere im Haus
haben andere Initialen. Aber mich wuerden hier auch die
Haeufigkeitsverteilung der Initialen interessieren, z.B. wie
wahrscheinlicher 'HM' oder 'AS' in Vergleich zu 'VQ' sind.

> > Hat hier vielleicht jemand Erfahrung mit der Qualitaet der exportierten
> > Daten? Wie gross werden diese? - Denn unkomporimiert 30 Mio Datensaetze mit
> > z.B. je 1 KB Daten ergibt gleich mal 35 GB Festplattenplatz.
> 
> Ja, dass sind ungefähre Größenordnungen. Über Referenzen lässt sich das
> natürlich stark verkleinern, aber 10GB kommen schon zusammen. Das sollte
> man dan nicht einer IDE-Platte antun ;)

Autsch, dann sollte ich sie besser selbst extrahieren/komprimieren, als
mir hier eine DVD-Bibliothek anzutun ;-)
Irgendwo werde ich schon mal an einen Win-Rechner rankommen.

Schoenen Gruss
Martin
-- 
Mailingliste OpenGeoDB
Listenadresse: opengeodb-r1mDYR0DdAyzQB+pC5nmwQ@xxxxxxxxxxxxxxxx
Informationen: http://opengeodb.de
Mit freundlicher Unterstütztung von php::bar (http://phpbar.de)



<Prev in Thread] Current Thread [Next in Thread>