Tenho o código-fonte abaixo de um site da Web que pego utilizando o HttpClient e o HttpMethod.
Dele tenho que extrair algumas informações como:
Great Antshrike
Taraba major
http://www.xeno-canto.org/sounds/uploaded/OH38YHKJBS/GreatAs-los2-53.mp3
e mais algumas.
Lembrando que as palavras estão sempre nessa posição, mas nem sempre são essas.
Já tentei utilizar substring, StringTokenizer, mas não estou tendo sucesso. Alguém pode me dar uma luz? Existem alguma forma mais fácil, ou o caminho é esse mesmo?
Obrigado desde já.
<td class="res_new_spec">
<script language="JavaScript" type="text/JavaScript">
writeWimpyButton("http%3A%2F%2Fwww%2Exeno%2Dcanto%2Eorg%2Fsounds%2Fuploaded%2FOH38YHKJBS%2FGreatAs-los2-53.mp3", "15", "15", "&wimpyReg=N3RONXRrJTVEJTgxTSU4MFByUjBVNCUyRnpJJTdGcS1mOHg1azN0UGUlMkN4&playingColor=DFDFDE&grinderColor=DFDFDE&rollOverColor=8D2B12");
</script>
<a href='species.php?query=sp:1996.00'>Great Antshrike</a> <i>Taraba major</i><a href="http://www.xeno-canto.org/sounds/uploaded/OH38YHKJBS/GreatAs-los2-53.mp3"> <img src='http://www.xeno-canto.org/graphics/download.png' border=0 title='download this recording'></a> (0:33)
</td>
<td class="res_new_spec">Bob Planqué</td>
<td class="res_new_spec">01-10-2003</td>
<td class="res_new_spec" halign=right> 8:20</td>
<td class="res_new_spec">Peru</td><td class="res_new_spec"><a href="maps.php?lat=-12.856&long=-69.362&loc=Sachavacayoc Lodge, Tambopata">Sachavacayoc Lodge, Tambopata</a></td><td class="res_new_spec">270</td>
<td class=res_new_spec>song (C)</td>
<td class=res_new_spec> <span style="font-size:10"><a href="http://www.cs.bris.ac.uk/home/planque/Peru/" target="_blank" >[trip report]</a></span> <span title="header=[Other species (click to fix)]
singleclickstop = [on]
body=[<a href='browse.php?query=Plumbeous+Antbird'>Plumbeous Antbird</a><br> (Myrmeciza hyperythra) <br>]"
style="font-size:10; color:#581D0D; cursor:pointer">[also]</span>
<span title="header=[More options (click to fix)]