Archivio forum

Gestione di fondani.it :: Notiziario - sfida
pag. 1, 2  avanti...»
AutoreMessaggio
Emanuele

Webmaster
Reg: 11 set 2000
Msg inviati: 2423
Notiziario - sfida
Inviato il: 4 set 2006, 11:50

Non so se qualcuno tra i collaboratori-sviluppatori del sito possa essere interessato alla cosa: si tratta del notiziario di Latina Oggi.
Come avrete notato, gli articoli sono in formato pdf quindi attualmente il robot del notiziario di fondani.it non riesce a indicizzarli e riportare le notizie. Mi stimola l'idea di realizzare uno script in php in grado di leggere i file pdf ed estrarre quantomeno i titoli delle notizie.
Facendo alcune ricerche su internet sembra che attualmente nessuno abbia ancora realizzato qualcosa del genere in PHP quindi è una bella sfida. Sicuramente non facile, e per questo molto stimolante.

Esistono delle librerie per generare dinamicamente file pdf ma nessuno ha ancora creato delle librerire per leggerli.

(Ultima modifica da parte di Emanuele il 07/09/2006, 12:30. Modificato 2 volte in totale)
Emanuele

Webmaster
Reg: 11 set 2000
Msg inviati: 2423
Re: Notiziario - sfida
Inviato il: 4 set 2006, 11:52

Un punto di partenza potrebbe essere questo:

http://www.foolabs.com/xpdf/home.html

piciola
Reg: 8 feb 2005
Msg inviati: 420
Inviato il: 5 set 2006, 13:38
Emanue' se ne può parlare per quanto mi riguarda, però non posso prima del 23 settembre!!!
Giomini

Reg: 10 ago 2004
Msg inviati: 644
Inviato il: 7 set 2006, 0:04
potrei anche applicarmici, ma sai già che ho un'altra priorità. comunque se non ci vuole troppo tempo si può fà
CyberSyx^

Reg: 22 gen 2005
Msg inviati: 65
Re: Notiziario - sfida
Inviato il: 7 set 2006, 11:50
Emanuele ha scritto:

Un punto di partenza potrebbe essere questo:

http://www.foolabs.com/xpdf/home.html

 

Emanuele nn penso quello sia un punto di partenza, quello è solo un programma per leggere i file pdf sotto X (ovvero interfaccia grafica di Linux) magari si può partire da pdftohtml.

Emanuele

Webmaster
Reg: 11 set 2000
Msg inviati: 2423
Re: Notiziario - sfida
Inviato il: 7 set 2006, 12:36
CyberSyx^ ha scritto:
Emanuele ha scritto:

Un punto di partenza potrebbe essere questo:

http://www.foolabs.com/xpdf/home.html

 

Emanuele non penso quello sia un punto di partenza, quello è solo un programma per leggere i file pdf sotto X (ovvero interfaccia grafica di Linux) magari si può partire da pdftohtml.


Sbagliato: il progetto XPDF è codice OPEN SOURCE che implementa - tra le altre cose - anche la lettura e l'estrazione di testo da files pdf ed è scritto in C++.
E' quindi un buon punto di partenza per riscriverne uno in PHP, visto che in questo linguaggio non c'è ancora codice utilizzabile.

Se non sbaglio il pdftohtml è un'applicazione commerciale (eseguibile binario), quindi inutile al nostro scopo.
Giomini

Reg: 10 ago 2004
Msg inviati: 644
Inviato il: 7 set 2006, 16:20
caspita avevo capito male! praticamente dici di scriverla proprio da 0 una libreria per leggere i pdf
pensavo che lo scopo era quello di far funzionare il notiziario
CyberSyx^

Reg: 22 gen 2005
Msg inviati: 65
Re: Notiziario - sfida
Inviato il: 7 set 2006, 17:14
Emanuele ha scritto:
CyberSyx^ ha scritto:
Emanuele ha scritto:

Un punto di partenza potrebbe essere questo:

http://www.foolabs.com/xpdf/home.html

 

Emanuele non penso quello sia un punto di partenza, quello è solo un programma per leggere i file pdf sotto X (ovvero interfaccia grafica di Linux) magari si può partire da pdftohtml.


Sbagliato: il progetto XPDF è codice OPEN SOURCE che implementa - tra le altre cose - anche la lettura e l'estrazione di testo da files pdf ed è scritto in C++.
E' quindi un buon punto di partenza per riscriverne uno in PHP, visto che in questo linguaggio non c'è ancora codice utilizzabile.

Se non sbaglio il pdftohtml è un'applicazione commerciale (eseguibile binario), quindi inutile al nostro scopo.

 

non è un'applicazione commerciale, Ci sono i sorgenti, io ho compilato i sorgenti su linux e lo sto usando.

Emanuele

Webmaster
Reg: 11 set 2000
Msg inviati: 2423
Re: Notiziario - sfida
Inviato il: 7 set 2006, 19:46
CyberSyx^ ha scritto:

non è un'applicazione commerciale, Ci sono i sorgenti, io ho compilato i sorgenti su linux e lo sto usando.

Ah ok, potevi mettere il link al sito allora. Comunque se è questo: http://pdftohtml.sourceforge.net/

anche lui utilizza la libreria XPDF di cui ho parlato prima quindi sempre da lì bisogna partire.

CyberSyx^

Reg: 22 gen 2005
Msg inviati: 65
Inviato il: 8 set 2006, 15:31
ma se invece nn facciamo semplicemente uno bello script in php utlizzando pdtohtml? non è più semplice ?
Emanuele

Webmaster
Reg: 11 set 2000
Msg inviati: 2423
Inviato il: 18 ott 2006, 17:50

Ho trovato un altro pezzo di codice che potrebbe essere utile:

http://www.codeproject.com/cpp/ExtractPDFText.asp

Code to extract plain text from a PDF file

Anche questo purtroppo è in C++ quindi va convertito in PHP. Tuttavia, la libreria ZLIB che utilizza per decomprimere il testo nei file PDF è già integrata in PHP, e questo semplifica molto il lavoro.

Emanuele

Webmaster
Reg: 11 set 2000
Msg inviati: 2423
Inviato il: 18 ott 2006, 18:29
Emanuele ha scritto:

Ho trovato un altro pezzo di codice che potrebbe essere utile:

http://www.codeproject.com/cpp/ExtractPDFText.asp

Code to extract plain text from a PDF file

Anche questo purtroppo è in C++ quindi va convertito in PHP. Tuttavia, la libreria ZLIB che utilizza per decomprimere il testo nei file PDF è già integrata in PHP, e questo semplifica molto il lavoro.

Dall'articolo la cosa sembra abbastanza semplice. Praticamente si apre il file pdf e si estraggono i blocchi di dati delimitati dalle stringhe "stream" e "endstream" (gli oggetti che formano la struttura del file pdf). Ciascun blocco può contenere una porzione di testo (o altri contenuti), e una volta identificato un blocco contenente testo lo si decomprime utilizzando la libreria Zlib e il gioco è fatto.

piciola
Reg: 8 feb 2005
Msg inviati: 420
Inviato il: 19 ott 2006, 8:57
Quindi il discorso della ricerca full text e del campo blob se ne va a far friggere?
Emanuele

Webmaster
Reg: 11 set 2000
Msg inviati: 2423
Inviato il: 19 ott 2006, 10:30

piciola ha scritto:
Quindi il discorso della ricerca full text e del campo blob se ne va a far friggere?

Anche quella è un'idea interessante, però come ti ho detto non sono sicuro che funzioni, visto che il testo in un file pdf è memorizzato in formato compresso.
Mi sembra difficile che la ricerca full text riesca ad indicizzare testo compresso memorizzato in un campo blob.
Però puoi sempre fare una prova, magari la mia ipotesi viene smentita!

Emanuele

Webmaster
Reg: 11 set 2000
Msg inviati: 2423
Inviato il: 6 nov 2006, 16:35

Emanuele ha scritto:
Dall'articolo la cosa sembra abbastanza semplice. Praticamente si apre il file pdf e si estraggono i blocchi di dati delimitati dalle stringhe "stream" e "endstream" (gli oggetti che formano la struttura del file pdf). Ciascun blocco può contenere una porzione di testo (o altri contenuti), e una volta identificato un blocco contenente testo lo si decomprime utilizzando la libreria Zlib e il gioco è fatto.

Sono a buon punto, sembra ci siano ottime probabilità che funzioni. Sono riuscito ad aprire e decomprimere il testo in un file pdf direttamente da PHP.

Spero a breve di pubblicare qui una prima demo funzionante.

Emanuele

Webmaster
Reg: 11 set 2000
Msg inviati: 2423
Inviato il: 17 nov 2006, 12:44
Ecco una prima dimostrazione funzionante dello script.
https://www.fondani.it/notiziario/test/test_latina_oggi.php

Selezionando il giorno nel menu verranno mostrate tutte le pagine pubblicate su latina-oggi di quell'edizione. Selezionando la pagina verrà importato il file pdf e convertito in tempo reale in testo html.

Sembra funzioni discretamente. La parte più difficile è stata quella di associare correttamente ciascun titolo (ed eventualmente sottotitolo e occhiello) al blocco di testo corrispondente. Tuttora c'è qualche problema quando l'articolo è formattato in maniera particolare.
Visto che c'ero ho anche importato le immagini. Pure qui però non è molto facile riuscire ad associare l'immagine all'articolo corrispondente, per cui il grado di accuratezza non è elevatissimo.

Però sono molto soddisfatto di come è uscito e ritengo la sfida vinta!

Farò ancora qualche altro test, e se la redazione di latina-oggi darà l'autorizzazione a riportare gli articoli nella rassegna stampa di fondani.it aggiungerò anche questo quotidiano al robot.
SergiodiRio

Reg: 31 mag 2005
Msg inviati: 281
Inviato il: 17 nov 2006, 13:01

Emanuele ha scritto:
Ecco una prima dimostrazione funzionante dello script.
https://www.fondani.it/notiziario/test/test_latina_oggi.php

Selezionando il giorno nel menu verranno mostrate tutte le pagine pubblicate su latina-oggi di quell'edizione. Selezionando la pagina verrà importato il file pdf e convertito in tempo reale in testo html.

Sembra funzioni discretamente. La parte più difficile è stata quella di associare correttamente ciascun titolo (ed eventualmente sottotitolo e occhiello) al blocco di testo corrispondente. Tuttora c'è qualche problema quando l'articolo è formattato in maniera particolare.
Visto che c'ero ho anche importato le immagini. Pure qui però non è molto facile riuscire ad associare l'immagine all'articolo corrispondente, per cui il grado di accuratezza non è elevatissimo.

Però sono molto soddisfatto di come è uscito e ritengo la sfida vinta!

Farò ancora qualche altro test, e se la redazione di latina-oggi darà l'autorizzazione a riportare gli articoli nella rassegna stampa di fondani.it aggiungerò anche questo quotidiano al robot.

Emanuè si gruoss!

Antennasport

Collaboratore
Reg: 2 mag 2003
Msg inviati: 556
Inviato il: 17 nov 2006, 16:51
complimenti a te Emanue'!!!
MrMandarino

Reg: 10 dic 2004
Msg inviati: 180
Inviato il: 17 nov 2006, 21:10
Spettacolare!
Claudia*

Reg: 16 ott 2004
Msg inviati: 593
Inviato il: 21 nov 2006, 13:47

POOOOOOO PO PO PO PO POOOOOOOOOOO POOOOOOOOOOO

 

hahahah! :)

 

Bravoooooooooooooooo!!

Emanuele

Webmaster
Reg: 11 set 2000
Msg inviati: 2423
Inviato il: 1 dic 2006, 17:46
Ho ulteriormente migliorato lo script. Non è ancora perfetto, ma penso sia pronto per essere aggiunto al notiziario del sito.
Ho messo al corrente la redazione di "latina Oggi" delle mie intenzioni e non ho ricevuto alcun divieto di procedere. Lo considero come tacito assenso e pertanto nei prossimi giorni provvederò ad integrare il notiziario con gli articoli del suddetto quotidiano.
Emanuele

Webmaster
Reg: 11 set 2000
Msg inviati: 2423
Inviato il: 2 dic 2006, 17:29
Notiziario aggiornato!
Il nuovo automa è ancora in fase sperimentale, quindi se notate delle anomalie segnalatemele per favore.
piciola
Reg: 8 feb 2005
Msg inviati: 420
Inviato il: 6 dic 2006, 8:54

Emanuele ha scritto:
Notiziario aggiornato!
Il nuovo automa è ancora in fase sperimentale, quindi se notate delle anomalie segnalatemele per favore.

Sei un grande Manu!

AzzBanD

Reg: 23 feb 2004
Msg inviati: 547
Inviato il: 6 dic 2006, 13:06
piciola ha scritto:

Sei un grande Manu!

 

e cert s sentiva la mancanz!!!! 

Francesco Fusco

Reg: 3 nov 2004
Msg inviati: 3760
Inviato il: 11 dic 2006, 19:51

grazie Emanuele grazie Fondani.it

   adesso, nella rassegna stampa, compaiono anche gli articoli di "Latina Oggi", si sentiva infatti (almeno lo scrivente) la mancanza anche di questo quotidiano per avere una visione completa (o quasi) degli accadimenti che interessano il territorio di Fondi.

 

 

Spermy

Collaboratore
Reg: 20 giu 2002
Msg inviati: 1484
Inviato il: 28 gen 2007, 20:48
Ciao manu ci sono problemi nella visualizzazione della notizia del falso geometra di "Latina Oggi" in home del giorno 28-01-2007 :-)...
Emanuele

Webmaster
Reg: 11 set 2000
Msg inviati: 2423
Inviato il: 29 gen 2007, 10:45
Ok corretto, grazie. Il problema non dovrebbe verificarsi più.
piciola
Reg: 8 feb 2005
Msg inviati: 420
Inviato il: 7 feb 2007, 8:49
Manu, senti ho notato che nel notiziario, ancora riporta alcune notizie doppie. Non so se è dovuto al DB o cosa, fatto sta che questo problema si verifica solo ed esclusivamente per Latina Oggi!!!
Emanuele

Webmaster
Reg: 11 set 2000
Msg inviati: 2423
Inviato il: 7 feb 2007, 10:59
Effettivamente c'era un errore. Ora dovrei averlo corretto. Grazie di avermelo segnalato!
SergiodiRio

Reg: 31 mag 2005
Msg inviati: 281
Il Territorio
Inviato il: 1 mar 2007, 13:43

Caro cap'mast' ti segnalo che è disponibile online in formato pdf un'altra testata provinciale: Il Territorio.

L'url è questo http://parvapolis.panservice.it/ilterritorio.pdf 
Se non è troppo complicato o impegnativo modificare lo script che hai usato per Latina Oggi sarebbe interessante aggiungere quest'altro quotidiano alla rassegna stampa.

pag. 1, 2  avanti...»
Gestione di fondani.it :: Notiziario - sfida