On 2006-07-21 17:37, Ingmar Loetzsch wrote:
> Pro PLZ-Bereich gibt es genau zwei Einträge in geodb_text_data, davon einen
> mit text_type 500100000, der die Nummer darstellt, und einen mit text_type
> 500100004, der einen Ortsnamen für den PLZ-Bereich darstellt.
Kann es sein, dass du hier entweder einem Missverstaendnis unterliegst
oder fuer andere Leser nur ungenau trennst?
Daher als Betonung: Du beziehst dich auf
opengeodb-0.2.4d-UTF8-text-plz.zip
opengeodb-0.2.4d-UTF8-text-plz.txt
Oder tatsaechlich auf die geodb_textdata mit
500100000 Name
500100004 Region eines Postleitzahlgebietes
500300000 Postleitzahl
100800000 Postleitzahlgebiet
Wir haben derzeit 8178 PLZ-Eintraege,
8270 geodb-Eintraege mit 100800000, die zur PLZ-Hierarchie gehoeren,
ebenso viele (hoffentlich die gleichen) mit 500100004,
aber 500100000 ist universell bei fast 30 000 Datensaetzen zu finden.
Ebenso gibt's insgesamt 24 000 PLZ-Nennungen.
Typischerweise sieht die PLZ-Hierarchie also so aus:
geodb_coordinates VALUES(5078,13.7210676148814,51.0600336463379,200100000,...
geodb_hierarchies
VALUES(5078,6,104,105,121,185,267,15827,null,null,null,'1993-07-01',...
geodb_hierarchies
VALUES(5078,7,104,105,121,185,267,15827,27374,null,null,'1993-07-01',...
geodb_hierarchies
VALUES(5078,7,104,105,121,185,267,15827,27375,null,null,'1993-07-01',...
geodb_textdata VALUES(5078,'01067',500100000,'de',1,1,'1993-07-01',...
geodb_textdata VALUES(5078,'Dresden',500100004,'de',1,1,...
geodb_coordinates VALUES(5079,13.7389066401609,51.039558876083,200100000,...
geodb_hierarchies
VALUES(5079,6,104,105,121,185,267,15827,null,null,null,'1993-07-01',...
geodb_textdata VALUES(5079,'01069',500100000,'de',1,1,'1993-07-01',...
geodb_textdata VALUES(5079,'Dresden',500100004,'de',1,1,...
Die PLZ 01067 gilt also fuer z.B.
geodb_coordinates VALUES(27375,13.7077,51.05,200100000,...
geodb_hierarchies VALUES(27375,7,104,105,121,185,267,15827,27375,...
geodb_textdata
VALUES(27375,'01067',500300000,null,null,null,'1993-07-01',300100000,...
geodb_textdata VALUES(27375,'Friedrichstadt',500100000,'de',1,1,...
Von daher sind die ganzen 100800000-Eintraege der Post-Hierarchie im
Wesentlichen eine Wiederholung und Zusammenfassung etlicher
500300000-Eintraege. Ich war ueberrascht, dass ueberhaupt zu einer PLZ
mehrere Eintraege genannt werden, weil ich bisher von einer vereinfachten
Organisation mit einem einzigen Referenz-Eintrag ausging. Von daher wirkt
diese PLZ-Hierarchie auf mich redundant. Eigentlich sind vieles davon
Sekundaer-Daten, die aus den anderen Datensaetzen abgeleitet werden
koennten!? Deine Pruefung auf Datenkonsistentz sollte also keine neuen
Erkenntnisse bringen - ausser womoeglich Fehler bei der Ableitung dieser
Daten.
> Da wäre noch interessant, woher der Ortsname stammt. Von einem Ort aus der
> Datenbank? Oder von der Post? Warum konnte man nicht mit einem Fremdschlüssel
> arbeiten?
Die Orts-Zuordnung (500100004 Region) erfolgte in gewissem Sinne
zufaellig. Du solltest dich nicht darauf verlassen, dass sie
repraesentativ oder offiziell ist.
Echt eigenstaendigen Wert haben daher vor allem die Koordinaten der PLZ
(geodb_coordinates). Die geodb_hierarchies sind redundant. Die PLZ als
Text ist zwingend erforderliches Hauptmerkmal.
Schoenen Gruss
Martin
--
Mailingliste OpenGeoDB
Listenadresse: opengeodb-r1mDYR0DdAyzQB+pC5nmwQ@xxxxxxxxxxxxxxxx
Informationen: http://opengeodb.de
Mit freundlicher Unterstütztung von php::bar (http://phpbar.de)
|