127
Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información para la Extracción de Conocimiento a través de la Web (iK-SAV&SIT+C) Fco. Fernando de la Rosa Troyano, 27323181-D [email protected] Supervised by Prof. Dr. Rafael Martínez Gasca Prof. Dr. Luis González Abril Research Report submitted to the Department of Computer Languages and Systems of the University of Sevilla in partial fulfilment of the requirements for the Research Period in Computer Engineering.

Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información para la Extracción de

Conocimiento a través de la Web (iK-SAV& SIT+C) Fco. Fernando de la Rosa Troyano, 27323181-D

[email protected]

Supervised by Prof. Dr. Rafael Martínez Gasca Prof. Dr. Luis González Abril

Research Report submitted to the Department of Computer Languages and Systems of the University of Sevilla in partial fulfilment

of the requirements for the Research Period in Computer Engineering.

����

Page 2: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información
Page 3: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

����

����������������������������INTRODUCCIÓN .................................................................................................................... 5

SISTEMAS DE INTELIGENCIA TECNOLÓGICA.......................................................11

V IGILANCIA TECNOLÓGICA E INTELIGENCIA COMPETITIVA ................................................11 ¿QUÉ ES LA VIGILANCIA TECNOLÓGICA?.............................................................................12

Fundamentos de la Vigilancia Tecnológica....................................................................12 Tipos de fuentes de información......................................................................................13

SISTEMAS DE INTELIGENCIA TECNOLÓGICA .........................................................................15 HERRAMIENTAS PARA LA GESTIÓN ESTRATÉGICA ...............................................................18 HERRAMIENTAS PARA LA VIGILANCIA TECNOLÓGICA.........................................................19

ANÁLISIS Y VISUALIZACIÓN.........................................................................................21

* METRÍAS..............................................................................................................................21 INFLUENCIAS DE LAS FUENTES DE INFORMACIÓN EN LOS ANÁLISIS.....................................24 ¿QUÉ PREGUNTAS RESPONDEN LAS *METRÍAS?....................................................................25 *METRÍA Y LAS TÉCNICAS DE VISUALIZACIÓN ......................................................................27

PROYECTO DE INVESTIGACIÓN..................................................................................31

OBJETIVOS .............................................................................................................................32 PROBLEMAS ...........................................................................................................................34

Sistemas de Inteligencia Tecnológica y Vigilancia Tecnológica...................................34 Localización y extracción de información consistente de la Web.................................35

ENFOQUE DE LOS ESTUDIOS PREVIOS...................................................................................37 APORTACIONES......................................................................................................................39

Técnicas de Análisis.........................................................................................................39 Integración y Automatización de las Actividades de Vigilancia ...................................40

APLICABILIDAD......................................................................................................................41

BIBLIOGRAFÍA.....................................................................................................................43

PUBL ICACIONES REALIZADAS DURANTE EL PERIODO DE INVESTIGACIÓN..................................................................................................................46

Page 4: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información
Page 5: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

�������� ��

��������������� ������������������������������������������������ ��

���������� ���������� ���� ������� ������������� ��������� �� ����������

������ � �������������������������������� ���������������� �����������

��������� ��� ����������� �� ��������� ��� ���������� ��� �������� ����

�������� ����������������������������� �������� ��� � ����� ���������� ���

���������������������������� �������������������������������� �� ���������

������������� �������� ������������ ����������������� ��������

�������������� ����������������� ���������!������������ ���� ���������

��������� �� ��������"����� ���������� � ��� ����� ���!� ��� ���� ��� ��� ����

��������������# "�������� �������������� ������������ �������� �������

��� ��������� ��� � �������� ������������ ��� ����� ��������� ��� ����

������� �� ���� ���������� ����� �������� ���� ������ �� ��"��� ��� �����

�������$��� ��

��%��������� ���&������������������������������

��'�� ������ �������������������������������

���������������������� �"�����������

��'�� ������ �������������������� �������������������������

�&�������������� ��� ��������� ��� ����������� ����������� �$� �������

������ � ������������������������������������������ � $�������

���������������������������� �������������������������������������

Page 6: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

6

�������������������� ���������()���� �������� ���������������������

�� ��������� ���������� �� �� ���������� ������������ �������� �����

���� ������������� �������� ������#��������������� ��������������

��� ������� �"��������� �����*���� ����������������'�������� ��������

������� �������������� ��������� �������������+�)'� ������ ��������������

���������������������� ������������������ ��������� ���������������

,��� ���� ������� �� �������� ��� +�)'� �� ()�� ��� ��� ������ �����

�&��������� ��"�� �������������� ��������������������������������

���� ������������ ���������������������������� ���������� �������

������������ ��� ��!�������������������������"#�� �$�%&��

�������� ������ ����� �������������� ������������������������������

���������������

��� ������� �&���������������� ��� ���� ���&�������� ����� �������

����� ����� � ����������&�� ��� ����� ��������� ���� ����� ���� ��

��������������������������������������� ���� �������������������

��� ����� ��� �$� �� ��� ��������� � ��� �� ���� ����� ���������������

����������������������������������� �������� �����"����'��

�������� � � �� �� ��� ���� ��� �$��� ����� �������� ���������� ��� ��

$����� �� � ������� �� ���������� ������ �� � ��� ��� ���������

��� �������

��'�� � � ������� �&������ ��������� ��� ���� � ����� ������� �

�����������&� ��� �������� �� ����������� ��� ����� �������� ��

�������������� �������(����� ����� �� ����"�������������� ��+�)'�

������ ������� ���� ��� �� ���� ���� ����� ��� �������� �� �������� ���

��� ��������������������&� ��������������������-�����������������

���� ���� �� ����"�� ��� ����� ���� ���� ����� ����� ��������� ��

������������� ��������������+�)'��'��������������������#��� ���

���� ���� �� �������� ./ ����"��� '� ������"��� )�������"���

0� ����"���1�� ������2�����(�� �������3��4�������������������� ���

��� ���������� ��� ���� ������ ��� ���� ����� �������� ��� ��������

������������� ���.�������������������������� �����������������3��� �

���������������������������������������������� ������ ���&����������

Page 7: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

7

��������� ����������� ���� ������ ���� �&� ����� ����� �&������

��������� ���� #���� ���� � � ������ ���� ���� � ��� ������ �

�� ��������� � �������� ��� �� ��������� ����� � ���� ������� ������ ��

��������"��������������� ���� ����������������������������������������

�������������������# "�������� �������������� ������

��-�� 5 ���� ��� �������� � � ��������� ��!�������� � ������������ �

���"#�� �$�%&�����������&����������#���������������� ������������

���� ������ ��������"����� �� �� ���������������������� ���� �������

��� ������������������������ �������������������������������� ���

���)���������

,��� ���� ��� ���� � � �������� �� � �"�� � ��� ����� ��� �������� ���

���������� �������������������������� ������������������������

����� �� (������ 6�� ��� ���� �������� � ���� ������� ����� ������� ���

��� ���������������������+�)'��1�������������� ���������������� ��()���

�������������������� �� ��+�)'������ ���������������������������'��

����� ������� ��� ����� ���� ����� ��� ���� ��� �������� ��� ���������

������������� ��� ��� ��� �� ��������������� ��#����� ������������� ��

������������������� ����&�7���8������������������������������� ���

������������� ���������������� ��+�)'��

����� �� (������ 7�� ��� ���� ��� ���� � ����� ��������� ��� ����� ��� ���

�������������� ������������ ��������� ������������������������������

������������������������ ��� ��������� ������ ��������� �� ����������

��� ���� ��� �������� ��� ���� ������ ��� ���� �� ������������� ��� ��

������������������������� ����&�9����������������������������� �����

�� ����� ��� �������� ������ ��������� ������ ��� ��� ������� ������� ���

������������()����

��:� ��� ������� ��� �� (������ ��� ���� '������� � ��"������������

��� ����� ������������� ����������� �������������������� ����������

�&������� �� $������ �� ������ ���������� �� �� �� ���� �� �

������� ��� ������������ ��� � � �������� ��� ���������� ��� #����

Page 8: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

8

���������� �� ���� ��$���� ��� ���"�� �� ���� ������� �� "���� �������� ���

������������ '�� $��� ��� ��� ��� �� ��������� ������� ��� �����

�������������������������$��������������"�� ��������&��

;�� ����� ����� ���������� ��� ��� ����� �������� � ���� ����������� ��

����������� ��� �� ������ ��� ������������ 1� ��� ���� � � ����� ����� �� ���

�� ������ ���� �&����� ������ �� �������� ���������� ��� ��� ����� ��� ��

�������������"����� ����������� �����&����� ���������

Page 9: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

9

Page 10: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información
Page 11: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

����������������������������� �����

����������������� ������������������������������

� � ������� ��� �������� ���� ������ ��� ������� ���� ��� � � ��������

�������� (�#�������� ��� 6<89�� =�� ��� �"�� ���������� ��� �������� � �

>��$���� ��� ���������� ���� ������� �� �� ���������� ��� �&�� ��� � �

�������� ��� ������� ����� ��� ���� ���� ��� ����� ��� ������ � ��$����

�������� � ������� � �������� ��� ������� �� ����������� ��� �� ��� � �

������������ ������ �"���-��������� �������������������������

�������������������������&�������������'��������� ����������

��������� ��� ������� � ����������&� ��� �� ����������?�.���������

+� ��6<<@3��

/������ ��� � � ������� ��� �������� ��� ������ ������ �� )��� ������

'��������.)'3�.'��������A/� ����7BB7C�-�����������2��D������7BB6C�;��

-� ����E��+� ��6<<@C�E��D��+��������;��-� ��6<<<3��������������������

������ ��������������� ����� ����������������������������������������

���� ����� �������������������� ������ ������������ ����������� ������

���� �� ��� ���� ��������� �������� �� ������ ��� ������ �$���

���������� ������������������� ������ ������������������ ������

���������������������������������� ������������� ������������������

��������������������������������������������������� ������������������

����������������������������������� ��������������������������=�����

�"�� ������������ ������� ���� ����&�� ����� �������� ����������� ��

�����������������������$������������������

Page 12: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

����������������������������������������������������������������������������������� ����������������������!���"� ����������������������������� ����������������������!���"� ����������������������������� ����������������������!���"� ����������������������������� ����������������������!���"� ����������

12

#$�%������������������������ ����&����� ����������� ������ ������ �� ����� �������� ������������� -����

� � ��� ���� �� ��������� ���� ��� ��������� ���� �������� ������� ���

���������� ������� ��� ���� ���� ��� ������������ ��� �&������ ���

��������� �� ���� ��� ����� ��� F�GA#G�� /�������� ��� �����

��������� ��� ����������� ������� ���� $������ ����� ����������� ��

������ "������������ ����������� ��� ������������ �������������=�����

�"�� ����������������������������������������������������������� ���

��� �������� ��� ���������� ��� ���������������������� ������������������

��� ���� �� �������� �������� ��� ���� ��� ��$���� ��� �������� �&�������

���#����������������������� ��������������������� $�������&������

���� ���������������������������� �F�GA#G���� ������������

-����� ��������� ��� �� ���� ��� ���������� ��� �� ��� ������

���������� �������������� .E��1��D���"�� -������ 6<<HC�I4,�)�7BBB3���� ��

���������� �� ��������� ������ � ��� ��� � �#������� ������������� ����� ���

#�������� ����� ���.J��6B��!�3��� ����� ��������#������������� ���

.8� ������ �� J� �!��3� =��� ���� ������ ��� ������� ���� ��� ���� ������ �������

��������� ���� ����� ��� �������� ���� �� ������ ���� ��� ����� ����� ���

������������-���$��� �� ��������������������������� ���� �������������

����������� �� � ��� ����� ��� ��� � ����� �� �������� �����������

��� ���#��������������������� ����������������������������������� ���

�������� ��� �������� ��� �� ������������ � ��� ��C��� ��� ��� ��� ������ ���

�������� ��� �� ������� �� �� ������ �� � �������� �������� ��� ���

���������

'����� ���������������'����� ���������������'����� ���������������'����� ���������������������������� ����������������� ����������������� ����������������� ��������

���������������� ��������� �����.+�3���������$����� ���������������������

���� ��� -���� ���������� � � ���� �� ��������� ���� �� ������� ��������� �� �

���� �� �� �� �� ����� ��� ����� ��� ������ '�� ���� ����� ����� ���� �� ���

�������� ���� ����� � � � ��� ��� ��� ��� �� � ����� ��� ��������

������������������� �"����� ��������� $������������ ��� �����������

���������������� ������ ����� ��������������������������� ���������

Page 13: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

����������������������������������������������������������������������������������� ����������������������!���"� ����������������������������� ����������������������!���"� ����������������������������� ����������������������!���"� ����������������������������� ����������������������!���"� ����������

13

����� �������� ������ ����� ������� ���������� ���� ������������� ���

��������������������������������

/�$���� � � ��� � ��� � ���������� ������� ����������� ��� ������� ���+��

�� ����� ��� ������ ����� �� ���� ��� ��� ��� ��� �������� ��� ���������

���� ���� ����� �������� ��� �&�������� ,��� ���� �� ������� ��� �� ����

��������������������������������������������������������"��������!���

��!� ��������� ������������������������ �������������+�����������������!���

��!� ���#� ��������� ����������� ����������5� ����=�����������������������

���� �����!� ������ ��������� � �������������������������� �� �

��� ���������� ���$���������!� ��������������5� ����������������� ��

��� ���������������������������������������-�����������������������

����� ��� �� �� ������ ��� ���� ��� ��!� ��� �� ����� �� ������� ���

�������� ���� ��������� �� ���� ��� �������� ����������� -�����

�������� ������ �� ��������� ���� ��� ��� �� ��� � � ������� ������� ���

�������������������������� �����������$�������������� ����������

���������

������� �����������������������������������������������������5� ���

��� ��������������� ������� ������������������������������ ������������

���� ��� �����!� ���������C���� �������������������������� ���� �����!� ���

������ ��� ���������������������������

���������(�����������(�� ��� ����������(�����������(�� ��� ����������(�����������(�� ��� ����������(�����������(�� ��� �����

-������������������������������������������������������������&� "�����

�� #" ������ ���� �������� ��� ������������ ��� ��������� ��� ��� ���

��������� ���� �� ��� ���������� ���� ������� ��� ������� � � ���� ��� ��

�&�������� ���� ��������� �� ��� ��� ��� �� ���������� .����� ����

�&������������� ��������3�-����� ��� ������������������������&� �����

���������������������������� ������������������������������ ������

.��������� ��������� ������� G� �� ������ � ���������� ���3� � ��� ������

�������������. ������������� ������������ ��������������������� ����

����3���������� �������������� ��������� ���������������� �������������

�������������������5��� ����� ��� �������� ����� ���������$��� �

Page 14: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

����������������������������������������������������������������������������������� ����������������������!���"� ����������������������������� ����������������������!���"� ����������������������������� ����������������������!���"� ����������������������������� ����������������������!���"� ����������

14

���������� ����������� ������ ������������������������������� ��

��������������������� ��������� ������� �"����������������$����� �

����������� ��� �� ��������� -�������� ��������� ���� ��������

�� ������������.����������&�����3��������� �� $������� �����������

�� �������

����� �! ������ ��� ������� ��� ���� ��������� ��� �&�������� ���

������������ ������������������������������������� �������������

����� �������� ��� ��� �� ��� ��� ��� �� ���������� ��� ������� ���

� ���������������������������������������������������� ���

� ��� ��������������� �� ������� ������������������������������4�

�� ��� ���� �� ��������� ��� ��������� � �$� ��� ��������� ������ ��

������ ��� �� �� �������� ������ ������� ���� ��� �������� ������

�����$��������������

��������� �����������&� "�������������������������������� ���� ��

���������������� �)����������� ���(��������� ��������������� ���$����

��� ���������� ��� ���� ������� �� �"��� ���� �� ��� ������� � ���� ���

�� ��������� ������� ��������������������� �������������� ���.�����

����� ���� ������ ��� ��������� ������� ��� ������������ ��������

�����������������������������������������"����������3���� �������� ���

� ��������� ����������� ������������� ���� �� ��� ���:������������

��� ����������"���% �� �� ���� �� ��������� ���� �� ������� ����

������������� �� ����������������� ���.��������������������������

����������� �������������������������������������������������������

������������������3������� ������������ ������ �#��������� ��� �������

���������������������� ��������������������� ���� ��$�% ���������

I������ ��� ������������ ����������������������������������� ��

������ ��� �������� ���� �������� ���������� �� � ��� ��� ������� �&�����

�������������������������-���$��� ��� ��������������������� ��� �

���� ��� ��� ���"�� � ��� ���� ������� ������ ����� ���� ��� ��� ��������

������������ ����������������� �"��������#������.6��7������3������

Page 15: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

����������������������������������������������������������������������������������� ����������������������!���"� ����������������������������� ����������������������!���"� ����������������������������� ����������������������!���"� ����������������������������� ����������������������!���"� ����������

15

�� ����� ��������� ��� ���������� ������� ��� ���� �������� � ��� ��� ����� ���

�������.6��7��!�3���

;�� ������ ��������� ���� �&����� ���� ����� ��� �������� ��� ���������

#" ���� ��� ��� ��� ������� �������� � ��������� ��� ����� ������

������� ����� ����������&� "���� ��� � ���� �����������������������

��������� ������ ������������������������������������������

����� ������������������������ ������ � $������� ��(����������)��� ���������� �����.()�3���� �� ��������

��������������� ������;��������� ������ ��()������ ����� �����������

������������������������������������������������������������������"�

�� ����������������� ���������������������������������� �����������

��������� ��� ��� ���� �� ��������� ��� �� (��� � ���� �����

����� ���������� ���������� �����"��.,+�)'3��

1�������� ����������������#��������()���� ������� ����������� $�����

���� �������� ������ ��� ������� ���� �� ���� ��� ���� � � �������������� �������

#� ������ ���� ����� ��� ��������� ����� �������� �� ��������� ���

��������� ��� ��������� ���� �� $����� ���������� ��� �����������

���� ������ ��� �� �����������'�� ����������� ��� �� ������ �� ��� �������

���� ������������������

��������� � ������ ��� ����� ������ ��� �� ������� ��� �������� ���

������������������������������������ ��������������������������

,��� ���� ������ �� ��������� $��� ��� �� �� ������ ��� �� �����

���� ����� �� ��������� ����� ������� �� �� ���� �� ��� ����� � � ���

��������� ������������#�����������.���� ���������� ����������G� ��

���� ������ ����������������$������������������������3��

����� ���� � ������ ��� ����� ������ ��� ������� ��� �������� .�A������ �A

�� � ��������3��� ������������������ ���.� ������������������������������

���3����� ������ �� ������ ����� ��� ���� �� ��������� ������������ '��

���� ���� ��� ����� ������ ��������� ���� ����� ��� ��������� � ������

���� ���������������������������# "������� ���������� ����

Page 16: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

����������������������������������������������������������������������������������� ����������������������!���"� ����������������������������� ����������������������!���"� ����������������������������� ����������������������!���"� ����������������������������� ����������������������!���"� ����������

16

��(�� ������� � �� ���� ������ � � $���� ��� ����� ������ ��� ������ ���

�� �������������������������������������������������������������

��� �������������������� ���������������������� ���� ������ �������

��� ������� ��������� ��� ���F� ���� ����� �� ������ �� � ��� � ���"����

��� ������������������ ������'������ �����������������������"����

� ������������������������������������������ ��������� ����F�

���� ������ ������� �"���������������������������$���� ���������

�� ��������� ��� ��� ��� ������� ��� ���� ������� ����������� �����

��������������������������������������� �����

��)�������� ���"������������������ ����� ������ ��� ������������F����

���������� ��� ����� ���F� ��� ��������� ������ ��� ����������� ���

������������ ���������������� �������������� ��� ��� ����������

�������.G�F� G���� ����� � ����������� �"������#�K��� �����3�

;�� ������ ��� ����� �������� �� � ������� �� � .���� ������ ��� ����

�� ������ �� ������3� ��� #� ��� � ���� ���$��� ������� ����������� ���

������������������������������� ���� ��� ��� ���$������ �� $������� �

()�����������������������������������������������������������������

Page 17: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

����������������������������������������������������������������������������������� ����������������������!���"� ����������������������������� ����������������������!���"� ����������������������������� ����������������������!���"� ����������������������������� ����������������������!���"� ����������

17

*�����+,��������������(���������)��� ���������� �����

1���� ������ ��� ����������� ��� ���� ��()�� ��� �� ���������� ��������

��������������� ��,+�)'���&�����#������������������������ ���� ����

���� �� �� ������������ �������� ���������������������������� ���� ��

��� ��� ��� �� ���� ����� �� (�� ����� ��� ����� ��� ��������� �������� �����

���������� �� �� ������ �� ������� ��� ����� ������ �� ������� ����� ����

�������������#�����������.�� ������������������A ����� �������������

�������� � ��� ���������� ���3� ����� ��� ���� ����� �� ������ �5�� ���

���������������������� ������� ��������������������������#��������������

���� ���� 63� ���� ��������� � ������ ���!����� ����� �� ���� �� �������

��������� ��� �������� �����"���� �� 73� �� ��� �������� ��� ������ ��� ���

#����������������� ����-������������� �������� ��� $������ ��������

��� ����� ��� �$� #�� ��� ������ ���� ������������ ���� ������� �������� � �

��$���� ��� ����������� ��������� ��� ���� ��� ()�������� �������������������

�������� �� ���������������������� ���������������� ��� �����������

��� ��� ���������������(��#�������������� ������������������� ����������

Page 18: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

����������������������������������������������������������������������������������� ����������������������!���"� ����������������������������� ����������������������!���"� ����������������������������� ����������������������!���"� ����������������������������� ����������������������!���"� ����������

18

��� �� ������ �� �&�������� ��� ��������� �� ������� ��� )��������� ���� ���

������ ������ ��������� ������ ���#��� ������ �� ��������� ����

���������������������������� ��� ��������������������� �����#�������

�&����� �� ��� )��������� ��� ����� ����� ��� #�� �������� ��� ���

������� ������� ��� �� ������ ��� ��� ��� ��� �� ()�� �� ��� ���� ��

������ ������ �()���� �� $������������ ��� ��������

���������� ��� �� �������� ���� ��� ��� ��� ������������ ��

��� �$�����������������������������������������1������ ����������

��� ��� ����������� �������� �� ��������� ��� ����� ��������� �� ()��

��� ��������� ���� �������� �� �&������� ���� ������� ���������� ��� ��

���������'��#����������������������������������� ���� ������ ���

������������ ���������������������������� �� ���������D��#��������� ���

���� ������������������ ���� ������������ ���������������� �������������

D��#������������+�)'����������������������������� ������������������

�� �� �������� ��� ����� ��������� �������� ��� �����!� �������$�� �� �

���������������������������� �������������� �����������������,+�)'���

����� �� ������ ��� �� ()�� ��� �� ���������� �� ���������� ��� ��

�������������������������� ������������������������������ ����������

�����"�� ��� ()�� �� �� ��� ������������� ����� ������������� ��� ����

#����������5� ������������������������������������

)��� ������������� ��� �����%�������� ���!��HB�������� ����������������#��������������������������������

�������#������������ ������������#������������������������� ��������

����������� ��� ��� �������� ��� ������ ���� ������ ���� ����������� ��"�

��� �� ������������������� ������������� ���������������� ��������� �

���������������������������� ������������������� � �������������

����������������� ������������������������������������������

�����������������������

��2������������������� ��� �/����'��� �����L����

��2������������������� ����D��M�����

Page 19: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

����������������������������������������������������������������������������������� ����������������������!���"� ����������������������������� ����������������������!���"� ����������������������������� ����������������������!���"� ����������������������������� ����������������������!���"� ����������

19

��2������������������� ����1��#��������� ��

������ #����������� ������� ���� ��� ��� �� ����� ��� �������� � �

��������� � � ��������� ��������� �� �������� �� � ������ � �� ������

����������������������������(�����$������ ���� ����������������

�� ���������������������������� �����

���6<NJ�-����������� ���������������� ���������#���������������

���������� ��� �������� ��� ������ ������ �������� �� ����� ������ � �

������� ��� ���������� #����� �� ���� ��� ��� ���� ����� �� �� � ������� � �

$���� ��� ��� �������� ��� �� �� ��� ��� ���� �� �������� ���� #����� ����

������������������� ���������������� ������������� ������ � � ����&���� �

���������-����� ��� ������ ��� ��������� ��� ����� ��� ���� �"���� ����� �

���������������#������ ������������������������

)��� ������������������������������ �����1���������� ������������ ��NB���� ��������� ���������� ����� ��� ������

#�������������������������������� ���� �"����-���������������������

������������� �#����������������������������������������� ������

�� ��� ��� #��� ���� ������ ��� ������� ��� ���� �"��� ���� �� ���� ������

����������

������"��������������� �����������>��������������?��>�����������

�����?���������������������������� ���#� ������ ���������������

���� �������� �� ���� �� #���� ���������� ���� ��� �������� ��� ���� � ����

��� ������#���������������� ��������������� ������� �"��������� ������

��������������-�� ��������������� ��� ������������������ ���������#���

������� ���� ��������������������� �������� ����������#� �������� ���

������������"���� ������� �"������������������������������������$����

�� ������� �� �������� ��� �������� ����������� ,��� ���� ���������� �����

���� �"�� #��� ���� ������� ��� ���� �"��� ���� ������� ������� �� ��$����

�������� ������������ 1� ��"�� ��� ����� ���� #��� �������� ���� ��������

���������� ��� #����������� ���� ��� �������� ��� ���� ����� �� ������

Page 20: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

����������������������������������������������������������������������������������� ����������������������!���"� ����������������������������� ����������������������!���"� ����������������������������� ����������������������!���"� ����������������������������� ����������������������!���"� ����������

20

������������� ��������������� ���� ������� �"���������������� ��

����������������������������������������

��O� ����� ����.����������� �����3�

��'���������� ������

��D��������� �����

��2���D����

��-��������� ��������������������� �����������������������������

��/�������������� ����

Page 21: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

��*������+��������,��� ���

-�� �.���

������������������ ��������� �������� �������� ��()�������� ���������� ��

/ ����"��.���( ��-�����6<H8C�;������6<<8C������6<<H3�����/ ����"��

��� ���� ���� ��� ���� ��� ������� ����� ����� �� ������������ ����� ����

�������� #� ��� ���������������� ����� ��� ���"�� ��� (�� ������ � �� ����

������ ��� ������ ��� ���� ��� ��� ��� �� ������� � ��� �� ������� �� ��

������������������������ ����������������������������������� ����������

���������������������� ��� �������� ��������� �������������� ����"����

��� ��� ������� ���� ��� ����� ��� ���� ���� ��� ��� � � �������

�&�������������� ������"������ ��� � � ������������������� �������� �

�������� �� �����������������#���������� ������� ���� ���������������

������� �� ���� ����� ������ ����� � ��� ��� �� ������ �� ��� ������������

����������� �&�������� ��� � � ����� ����"��A���� ����� 1 � �� ���� ������

���������� ������� ����������������������� ���������������������

������ �����"�� ����������� ���������������������

������ ������������ ������"���������������������������� �$��

�&��������#��� �������������� ����������������� ���������������

#�������� ������ ����� �������������������������������������� �����

����� ��������������������� ������������������ ����������� �&���� ���

�����������"��������� ������������ ������������� ������.;�������6<<83��

/

Page 22: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

����0��������������1����������2�������3�������"������0��������������1����������2�������3�������"������0��������������1����������2�������3�������"������0��������������1����������2�������3�������"������

22

1����� ��� �������� �� ���� �� ����� ���� �� / ����"�� �� ��� �� 5����

���� ���������� �������������� ��� ����� ������ �"��� ������������#���

������������������ ������������������������������� �������������

�� ����������������� �������������������������#��������� ��������

�������� � � ������������ ���� � � � ������ ��� ������������� ���������� ������

������������������� �������������

-�% �������������������6<H<����-���#�������P1� ��������� ��������

�����"����� �� �� ��������� ����"���?�� ��� ��� #� �"�� ���� �� ��� ��

���������������� ������

���������������������� ��������.'� �� ��� � ��6<<JC�(���F�6<<N3��

������� ��� ������� ������ � �� �� ������ ��� ������ �����"����� �����

������������ �� ������� ��������� �������� ��������� #������ ��

��������

��

����������.���#�� �� 2������� 6<<N3�� ������ ������� ��� 6<N@� ��� ��

;�)���� .)��������� � ;�������� �� ������������ );�3� ����� ��������

��������������� ��/ ����"���� ��'�������"���-������������ ����������

��� �� ������� ������� � ��� ��� � ������������ ����#���� ���������� �� ��

���"����� ��������������(#������

��%���������� ���� ��� ���� ����������� �� ��������� � ���������

�&�������� ��� �� ���� � �� ��������� �� ����� ���������� ������ ������

�����"������

��� ��������� ���� ��� ���� ��� ����������� ��� � � ������ ��� ��� �� �������

��� ��� ���� ��� �$������ � ��� ��� ������������ �� ��������� ��� �� ���������

�������� ��� � � ���� ��� �� ������������ ����"���� ��� �������"�� ���

�� ��������&������������������������� �����������������������

Page 23: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

����0��������������1����������2�������3�������"������0��������������1����������2�������3�������"������0��������������1����������2�������3�������"������0��������������1����������2�������3�������"������

23

1������ ������ ��������� �������� ��� ����������� �� ������

�����"������ �� ��� ������� � ������ ������ ���� ���������� ��������� ���

��������� ��� ���������� �������� ��� �������������������� ��������� ���

�������� ��� ��� ���� ���� �������� ���������� ��� �� ��������� ��� �����

������ ����������������� ���������������������������� �����

)���� ��� .%/����������

/ ����"�� ��������������"���������� �����'�������"�� '�����)������"�� )����������� �������������������'� ������"�� ' ��������)�� �����"�� )�� ������� �&�������� � ��� ��

��������������

��% �+,����������� ������ ��������������� ������'���$��� ���� ���������� ���� �� ������������� �� � � ������ ��� ������

���� ���� ������� ������ ������� ��� ��� ������� 7� �� 8�� ��� ���

������������� �� �� ������ ��� ����� � ����������� ��� ������� �������� 1�

���������� ��&��������5� �������������������������������������� ������

�*�������������������������

*�����0,�/$Q��� ���7BB7

*�����1,)����1�� �7BB9�

Page 24: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

����0��������������1����������2�������3�������"������0��������������1����������2�������3�������"������0��������������1����������2�������3�������"������0��������������1����������2�������3�������"������

24

��(����������������(�����������(�� ��� ���������

��*���������

=����� � � ������ ��� #���� ����� �� ������ ���� ��� �� / ����"��

������#������������� ��� ���������� ������ �"����������5��� �������

��������������������������������� ������� ��������������������������

�� ���� ��������� -�� �$��� �� ����� � � ������ ��� ��� ����� ����"��� ���

����������� �����"�� �������&�������� ���������������"������ ���������

�� ����� ��� �� ��������� ����������� �� � �������������� ���� �� �������

��� ������������������� ��� �� ���� ��������� ��"������� ����� ���

��������������� ����������� ������������&�������� ��� ������������

��� ��� �&����� ����� �� ������ �� �� #��� ��� �� ���� ������ ���������

��� ������� ���� �� ������� ������ �� � ����� ��������� �� -�� �$��� ��

��������� ��� ������ ��� ������� ��� �� ����"���� ���� ������ � ����� ���

� � ������ ����������������������� ���������� ������ ���������

� ��� ������������ ���������������������������������������"��������

��� ������������������������ ��� ��������������������������������-����

��������������������� ������������������� ���� ����������������&����

� ��� ���������������������� ��� �������������� �������������������

������������������� ���������������������������������������������������

��������������������������������������������������������������� �����������

�����������������������������������

��% �0,����������� ���������� ���R����"���

- Planificación de bibliotecas y centros de documentación - Evaluación y planificación de actividades y políticas científicas - Estudio sobre la ciencia - Investigación científica - Búsqueda de información y “estado del arte” en disciplinas científicas - Evaluación del profesorado y centros universitarios - Estado de la tecnología y conocimiento del entorno industrial y empresarial - Relaciones entre ciencia y tecnología - Mejora de la compresión de los procesos sociales

Page 25: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

����0��������������1����������2�������3�������"������0��������������1����������2�������3�������"������0��������������1����������2�������3�������"������0��������������1����������2�������3�������"������

25

#$�%����������������������-� �.��&�1���������������������������������������������������������� ������������

��� ���������� ��������� �������!� ��� �� ������� �� ���������� ��� ��� ������

�������������� ��� ��� ���������� ��������������������� ��� �������� ���

��� ����� ��������� ��� ��� ���� �������������� ������ �����.����"����

�����3������������� ���������������� �������������� ������������������

�������� ��� ��������������������� ��������� �������������� ������'��

�$��� ���� �������������������������������������������

��!� "� ��� �� ���� ������ ��� �� ��� ����� ����� ���#� !$ �� ��������

�����%��� �&����� �� �� ��� ����#��1���������� ��� ���%���������

������ ������������� ������ ��������� ��������������������"�����

��� ��� ��� �� �� �� ���� �������� ��� ���������� ����� ���������� ��

� ���� ��� ��� ���� ������ ������ ����������� (�� �������� ���

>� ���� ��� ��?� .��� ( �� -���� 6<H83� �� >�"��� �� ��� ������������

�� ����������������������������������� �������������?��

��!� "������������%�'������ �������"��� �������������� �� ���

������ �� ��� �� ��� ����#(� � � �"����� ��� ��)������ �������

�������� ����� ������������ ����������������������������������� ��

��� �$����������������� ����������

��!���������� ������ ���������������������������� ���������

"����#(������ ���������� �����������������������������������������

��� ������������������������ �����"�� ����� ��������������������� ���

���������������

��2��� ����� ���������������#����������������������32��

����� 4����� ����� ������� � �����#� �%�� ���� � �����

���������3(�(������������������������������.2��A/�!����'��������

6<<N3� ��������� ���������������������� ��� ����������� ����������

���������������������������������������� � �����>�������� �����P�

�>� �������������P��������������������������������� �����������

���������������������������$������������������ ������ ��"�����

������%��������������.'� ������ �6<<6C�'� ��6<NH���'���� �6<<N3��

Page 26: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

����0��������������1����������2�������3�������"������0��������������1����������2�������3�������"������0��������������1����������2�������3�������"������0��������������1����������2�������3�������"������

26

��"� ���� ������ �� ����� ������� ��� ������� ����������� � � �5� �� � �� ��

����������������������������� � ����������������������

��!���*�������������������������������+���,������-�������.��#�

!� "� *������� �� ��� ������� ��������� ��������� ��� �����������

������ ��� �������/� �� �� ����� ��� ��� �.��#(�-���� ��������� �� ������

���������������� ����� ���������������������������0 �����������

�������0/���.M �F���/�#����6<<@C�M���F� �6<@@C�2�� ������7BB6C�

��������6<JN3���

��!� "��� ��� ��� � ���� ������ �� ��%���� �&�������� ����� ��������

������� �����1������#(� ��� �� �� ������ �� ���� ��� ./����� 6<<63�

������ ��"����� ��������� �������� ��� ������������ �����:���"� ��������

�������������������� ������������������ ���

���� ����������� �� ��� ���������� ��������� ��� ����� ��� ���� ����� ���

���������� ����� ������� ����������5�� �����������"��������� ��������������

��� �������������������������������������������� ��������������������

��� ������������ ��� � � ������� ��� ��������� ��� ����� �� ��� ���� ��� ���

�������������� ��������9������������������������������� �������������

���� ��� ������� ��������� �������� ��� �� ����� ��� ��� ���� ��� ��� ���

������ �����������������5��������� ��������

*�����5,�-������������"�� ��������������������������������� ���R����"���

.1������������M����0��/���F�7BB93

Page 27: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

����0��������������1����������2�������3�������"������0��������������1����������2�������3�������"������0��������������1����������2�������3�������"������0��������������1����������2�������3�������"������

27

-� �.��+�����%�����������������,��� �� �������������������� �������� �������#������������������������������

#��� ������� � � ������ ��� ��� ���� ��� �� ����� ��������� �����"�����

��������� �������� ��� ��� ��� �� ���������� ����$���� �� ��� �������� ���

������������������������� �������� ��� ���� ��� ��������� �./�������6<<<C�

'#����'#���7BB8C�(#���������6<<73� ����������� �������������������

��������������� ����������������������������������� ���������� ������

�������������������������� �����������������������������������������

������������ �������������� �������������������A������� �.������

�������� ���3���������������������������������������� � $����������

������������������������ ����������� �������������������� ��,�����

�� �� ����� ������ ��� ��� ������ �������� ��� ���������� ��� �� ������� ���

��������� ���� ��� �������� ��� � � ������ ��� ���������� �� ���� ���������

������ ��� �������������� �� ������� �� ����������������������� ��

���������������

���� �������� ��� ��������� ��� ��������� �� ������ ��� ��� ���� ����

�� �������� ��� � � ���������� ��� �� ������������ ����"����� ������� ����

� ��������� ��� �������� �����"������ �� ������ ���� ���� �������� ������ ���

�� ���� ����������������������$����� ��������������� ������� ������������

M#�����(� �AI����������D���.(ID3�.M#����6<<N3������������������ ��

��������� ��� �� �������� ��� �� ����� �������� #� ��� ������

������������� �������� �������� ��� ��� #���������� ���� �������� ����� ��

��������� ��� �� �������� ��� �� ����� ������� �� ���� ������

�����"����� ���� �������� -����� ���������� ������ � ��� ��� �������� ���

���� ������ �� �������� � � �� �������� � ��� ��� .D�(3� ����

��������� �� ������ ����� �� ��� ��� ��� �� �!�� HB� ��� � � ����� ��� ��

�����"������ ����� ��� ���� ��� ����������� ��"������ ������ �������

�����������������������������������"���������� ���������������� �����

�������� ���� ���������������� ���������������� ������� ��������"������

��� ������������ �������� ��� ��� � ��� �� I���� ������� �����"����� ���

��������� ��� � � ��� ��� ��� ���������� ������ ��� � ������ � �������

��� ����.-'13�./�������6<<7C�L���������6<<83������ ������ ���$����� �

Page 28: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

����0��������������1����������2�������3�������"������0��������������1����������2�������3�������"������0��������������1����������2�������3�������"������0��������������1����������2�������3�������"������

28

��� � ��� � � ������� ��� ��������� �� ����� �������� �� ������� ���

�����������

���� �������� � ������ ��� ��������� ���������� �� ����� ����� ������������

�������������� ��� ����� �������������������������� ������������� "�����

���� ����������������� ��� ����������������������������������� ��

��� �����-������� ������������������ ��� ������#�������� ���������������

���������� ��� �������� ��� ��������� ������ ��� ���� ���������� �����

.����� �������� �7BBB3��� �� �� ������� ������� ���#���.���3�.2G���

7BBBC3�� ��� ������� ����� �� �� �� �� �������� ��� �� ������ �� ����� ��

�������D�(������������������������ ����������������������� "�������� ��

����������������������������:� ��������������&� ��� ��������"�� �� ����

������������������ ���������������������������������������� �������������

����� ���������������� ��� ���������D�(�������� �� ��� ���������� �� ����

��� �� �����������C� �� ��� ���� �������� ������ ����������� �� � ����� � � �

�� ����� ����� � ������ ��������'�������� ������ ����� ������

��� ������ ��� ��������� ��� ���������� �� ������� ����� �����������$�� ��

������"�� � � � ��� ��� ������������ �������� ���� �� ������� ���� �����������

��$�� ��������"�� �� ���

-������$���� �������������������� ���� ��������������������������� �����

�����!������������������������������������ ��������������� � $�������

��� �������� ��� �������� �� � ������� ��� ��� ������������� ���� �����

���������� ��� ���� �� �� �� �� ������� ��� ��������� ��������� ��� ��

������������������������� ���������� ����������������������������

�������� ������������ �� ������ �������� �&����� �� ����� ��� �������� ���

����������� ������ ��������� ��� � ������ �� � ��������� $��������� �� ��

� ���������FA������-����� ����� � $������� ���������������� �������� ��

� ������������ ������������������������ ��� ���������� ����������������

���� ������� ������ ���� �������������� ���� ������� �� ��� �� ������

��������������������������������� ����������� ��� �����&��������"���

�D�����(�������������.D(�3�.S�#��6<6@C�)��������/������6<<J3��� ��

�������-��#������.-;3�.(�#������ ���6<<BC�(�#������ ��� ��� � ��6<N<3�������

Page 29: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

����0��������������1����������2�������3�������"������0��������������1����������2�������3�������"������0��������������1����������2�������3�������"������0��������������1����������2�������3�������"������

29

5 ���� ��$��� �� �� �������� ��� ���� ������� ���������� ��� �� ������

����������������������

-��5 ������������������ ���������� ���� �������� � ��������������A

G������ ������������� ������ ������� ������������������������������ ��

���� ������������ �� ������� ���������������� ������������� �������

��� ����������� ��� �������� ��� �� ��������� ��� ����� ������� � �A

����������1����������������������������� ����� ������������������������

����� ��������� �� ������������ �� ������� ��� ������� ���� �� ������ ��� ��

����������,��� ���� ���������� �� ������� ��� ������� ��� ������������ ���

������������������� ������������������������������������������������

������������������������������������������ � ��������������������� �

������������������ ����������������������������

Page 30: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información
Page 31: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

4�+����������������� ����� ����� ������� ��� ��������� �� ��������� �� � ������� ��� �����������

���� ������� ������������ �������������� ��������� ������������-����

� ����#������� ������������ ���������������������

��.%/���"����� �����������������������

��'��% ������������������������ �������� �����������������������

������������ ��������� ��"����������������������������� �� ���������

��� ��������������� ����&��� ����� ����������� ��������������� ���

���#���� ���������� ������ ����� ��� ������ ��� ����������� ���� ������� ��

������ ������ �� � �5� �� �� � ������� ��� ������������ ������ ����

�� ������������ ��

��(����������� ��� ����� ���� ��� � ����������� ��� ������ #����� � �

��������������������������#���������������������$����������"�� ��

����������� �� "��������������� ������������'�� $��������� ��� ��

��������������������������������������$��������������"�� �����

���&��

������ ������������� ���%� ����������� ��� ������ ������&�������� ���

������#������ ����������"���� ��� "����������������������������

(����� ��� ��������������������������������������������� ��������#��

�������������������� ��� ������ ������ ���������������� ���������

������������ ����� ������ ��� ���� ���� ��� �� ���� �"�� ������� ��� ��

��������������

5

Page 32: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"������

32

!78���������� ������������ ���� ��� ������ ��� ��� ����� ������ � ��� -���������

���� ����� ������ ��������� ��������������������������������

��+� ��������� �����

��(����������)��� ���������� �����

��/ �������)�������"���0� ����"����'� ������"���

���&�����������)���������

��+��� ���������)���������

��-�������������������$��4����� �

��:���� ������1�� ������2�����(�� ��

1������������������������������ ��������� ���&���������� �����������

����"�����#���� ��� �� � � � ���������� ��� ������������� �����������

���� ��� �� ���� ����� ������� -�� � � ��� ����� ������� ����� ��� ��

$����� ���� ��� � ������ ��� ����� ������� ��� ������������ ������� ���

������� ������ �� � � ����������� ����� ������������� ���� ��� ��� �� ��

#�������������������� �$�������������� ���������� ���������������������

��������������

��� ���������������������������� ��������������������+������ $���

�������� ��� � ��������� ������������������������ �������������������

��� ����������������������������������� ���.+�3������������������ �

��� ��� �������� ���� �������� ��������� -�� ������ �� +�� ��� �������

������ � � ����&�� ��� � � ���� ��� �������� � � ������ ���� ���� ������ ��� �����

��� �$���������������������� ��� ������������������� ���������������

���� ��� ��� �� ������� �������� ��� ����������� ����������� ��� #� ������

���� ������ ���� #����� �� ��� ��������� ����������� ��� #���� �� +���

��� ���#������������ ������ �������������������� ���&����������

��� ��$����������� ����./ ����"���'�������"���'� ������"���1�� ���

���2����� (�� ���� ���3� ���� �� ���� ��� ��$���� ��� �������� ������������

��� ���� ����� ������� ������������ ;��������� ������ ��� #�� ���� ���

������������� � ������ ������������ �������������� �����������

Page 33: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"������

33

����������� � ��� ������� �� ���� ���� ������ ����"����� ������ ���

����������������0� �������-�������������� �� $���������������������

������� ��� ������2 ����� �� � �������������������� �� �������� 2 ��

�� ��� �� ������ ���������� �������������� �� ��� ����� ��� �������� ���

�"�����2 �����������%������������������� ����������

-�� ��� ��� ���#��� ������ ����� ��� ���� ��� ������ ���������� ���

�������� �� ���� ��������� ���� �� ��� �� ����� ��� ��� ����� ��� �����

�������� ��������� ����#����� � ����������������� �� �����������

��������������������� ����� ��0� ��-���$��� �� ������������������ ��

����������� ���E����������)������"���� �(��G������/�������������� ��

������������������ ��������������� ��������������� �)()���������� "�

�������������� ���������������������������-������� ������1�������

�&�������� ��� � �������� ��� �� 3�%4� ���� ����� �%����� ��

� �������� ���������� ��� ��� ��� �� $����� ���������� ��� ��� �����

����������������������

� �5 ��� $����� ��������#������ ���������� ��()����������������

������� ������������������������� ������ ��������������� ������(��#��

��������������������������������������������������� ����������

������� �&����� #����������� ���� ��� ���� ����� ������ ������ �������� 1�"�

����� ��� ������ ���� � � 9BT� ��� �� ������������ �� ������� ��� ��

�������� ��� ��������� ��� �� ������������ �5 ��� ������ ��������� �� ��

������������� ������������-������� ������������� �� ������������������

���������� � ������� ���������������������������������� ������������

�� ������������� ������ ��������������� ������1��������������������

2 ���������������������������������������������������� �5 ���

��� �� $������ �������������������������������������

�2�������� �� $���������� �����������������������������

��������������� ����������������������

�������� �� ������� �� ��� �������� ��� ������ ����� ������ ���������

������������1�"������� �����������������������������������

����� �������&���������������������������� ��0� �

Page 34: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"������

34

��1��������� �� �������� �� ������� ��������� ����� ������ ���������

����������� �

4�7��� ������� ��������������������������� �� $������� ����������������������

������������������������������ �� ���� ������������#�������������� �

���� ��� �� ������� ������ ��� ����� ����� ������ ��� �� $�����

�����������

����� ������������������������ �����+������������������ ��������� ������������������������ �����+������������������ ��������� ������������������������ �����+������������������ ��������� ������������������������ �����+������������������ ����

� � ������ � $���� ��� �� �������� ��� ��� ������ ���� ����� ��� �������

��������� ����������� �� �� ����������� ����� � � ��� ����� ��� ��� ���

���������������������� ��������� ��������� ����������������������

�������� ������������������ ���������������� ������ �$������ �����

���������� ���� ���� ������ ������������������������������������������

�����������������$��� ��(����������������� ��������G���#������2-�

.���������� 2������� - ������3� �� �� �� �� �������� ��� ��������� ����

� �������� ����� ��������� ������������� ��� ������ ������ ���� �������

���� ����.�����������&���������3������ $���������&��������������

��������� ������������������#������������������������� �������� ��

���������������� ��.��� ������� �� ��������� ������ ������ �������3��

������������ ����������������������������������������� ��������������-��

������� � ������������� ���������������� ��� ��� �$������ ���������

���������� ���� ���� �� ���� �������� ��� ��������� ������� ���� ���

������������ ������������������������������������������������ ��

()������������ �����������������������

��(�� ������� �������� ��������� ��������� ������ ��������� �&�������

����� 5 ��� ��� ��� ��������� ��� �� ��� ��� �������� �&������ �� ��

�������������

����� �$��������������������������#������������������������ ��� ����

������������ ���������� �������� ��� ����������� �������������������

���������������� ������������������������� ��������������������

Page 35: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"������

35

������� �� �� ����� ��� ���� ��� ������������ ������ ���� ����������� ���

���������������������������������������������� ���������� �������

���������������������������������� ��������������������� � �����

������

��;�� ������ ��������� ���� �� ��������� ����������� ����� ����

��������������# "�������� ������������������ � ����������������� ���

������������������������ ���������������� ����������� �� ����������� �

������ ���������� � ��� ������ �������� ��� ��� ��� ��� ���� ��� ��

����������� ��� ���������� ��� ����� ����� ������ ������� ��

������������������� ���5� ������������������� ���� ����� ���������

���� ���� ���� ��� �� ������ ��� �� �5� ��� ��� �������� ��� ���� ��� �� ��

����������������������������������� ���� ������� ��������� �������

� ����������������������� ��� �� ��������� ��� ������������"����

���5� ���������������

����������� ���� ������ ����������� ��()���� ��+�������

�� )�����������������#���������������������

�� )�������� �������������������������� ��������������� ������

��1���������������������&��������

��I ���������������# "�������� ��������������������������������������

��� ������ ��������

������,��� ��+��9���� �������(�� ��� �������������������,��� ��+��9���� �������(�� ��� �������������������,��� ��+��9���� �������(�� ��� �������������������,��� ��+��9���� �������(�� ��� ������������������: �7�����: �7�����: �7�����: �7

��� ��������� ��� ��� �$��� ��� ��������� �&������ �� �� ���� ���� ���

������ �������������������� �� ���� )������������#���������� ��� �����

������ � ��()���������������������������� �$���������������A ������ ��

� � �������� ������ � ��� ����� ���� �� �� #������������ ��� �� ��������� ��

��������������������������������� �$���������������A ������ �������-��

��� ����� ��� ��� �� $����� �������� ������ ����� ����� ������� ���

����������� #�� ��� ��� ��� � � ����� ��� ��������� ���� �� ()�� �������

��������� ��� �� ����� ������ ��� ����� �������� ����� ��������� ���

�� ��� ������������ �� ������&����� ���1��������������������������� ��

Page 36: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"������

36

��������� 5���������� ��� ����� ��� ������ �� ���� ����������������

� ��������� ������ ������ ������������ ������

��� �������������� ��������������������#�������� ��������������� ����

�������� ������������ ��������������� ���� ��������

���&���� ��� )���������� ��� �� � �� �������� ��� ��������� ���� �� ���

)������������� ��������������� ���&�����������!��������$�����������

������������� ����������� 5����������� ���������� �7BT���� �9BT����

��������������� ���

��)������������������#��� �������� ���5�� ����� ������ ��� ��� ��� ��

���� ���� �� ������������������� ����������� 5���������� ������

#� ��� ���������� ������ ���>+� �����14������ ����?��� ��������

����������� ���������� ����� ����>���� �����14��+� ����?��

��)��������� ��� ����� ������ ��� ������ ��� ����� ������ ��� ��

��������� ������� ��� �� ������ ��� 5�������� ��� ���� ��� �� .6�

����3�:� �� ����� ��� ������� ��� ����� ���� � � ���� ������ ��� �����

�����������������������������

��D��#�� ��������� �� �������� ������� �� �� ����� ������ � ����#���

����� �� �������� �������� ��� �� ��� ��� ������ �� ����� ��������� ���

����������� �� � ������� � � ��� ���&�� �� 5 ���� ����� ������ ��� �����

���������

-���� ��� ���� �� �� ����� ��� �� ������ ��� ����� ������� ���

��������������� �������������������������������������� ������������

����� ��� ���� �����"���� -���� ��� ���� ������ ������� ��� ������ �� ����

#����������� ���;������ ���G ���� � ���A(������ ���G ����.-������/���

6<<<C�/����A:�������2 ��A4���6<<<C�'#������� � ��7BB63������� ��������

� ������������ ��������������� �����

��'������������������������������ �� ������

��'�����������������������������������������

Page 37: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"������

37

,��� ���� �� ����� �� ��������� ��� ���������� ��� � � �� ���� ���

�����&������ ��������1������������������������������� ����������������

��� �������� ����0�������.(�����'#�F�� ���� 7BB73������ ��� ��� ������

0����������#�����������������������������������&������ �������������

� ������� ������������������������

��'�������������������������������&�������

��1�����������&������ �����������

��1������� ��� ������� ������� ��� �� ��� ������������� ���� �� ������

���������� �������&���������

-��5 ����������������������� �� ��������� �� ��������&���"��������

�������������������������������������������������� �#�������� �����

��� �� ���� ����� ��� ����� ' ������� ������ �������� �� ���� ��

�������������� �������������� ��� ����� ��� ������ ��������� ��������

��� �� ����� ���� ������� ���� ��� ������� ��������� ��� ��� ����� ���

���������"�� ����� ������������������#����

2�������� �� �� ���������� ������ ���&����������� ������������ ��

0� �����

��'������������������������������ �� ������

��'�����������������������������������������

��'�������������������������������&�������

��1�����������&������ �����������

��'������������ ��������

��(�;������������������4������

2����������� �����������������������������������������������#�������

��� �� ���� ����� ��������������������� �������� ������ ���������

�������������� ������� ������������� ��������-��� �#������ �������

� ����#�������������������������� ����������������1������������� ���

�������� ��� ��� ��� ����������� ��� �������� ��� ��� ��� �� ���������� ��

Page 38: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"������

38

�������������� ���������������� ���������$��� ������������ ��������

�������� ��� �� �� ��� ���� �� ���������� ������ ��� �������� ������ ���

��������������������������������

������ ����� ����� ����� � ���� ������� ��� �����"��� 1� ������ ��� ������

���� �������#���������������� ��������������������������� ������ ���

���������� ���������������� ���������� ������

��-�% ��������� ������������ ��%��������� ����� ������ ���� ����

���������������������� ���������������������������������������

��������� ��������������������� ����������� ������� ���������������

���� �������������������������"��������"� � ������ �������# "���������

������������� �����������������������

��6��� ������� � 7!�������� � ������������� ��� ������ ���� ���� ���

#���� �������� ��� � � ������ ��� ��� �������� �� ������������ �����

�� ��������'��G ������0���������������#������������������������ ���

����� ��� ���� �� �� ����� ��� �� ������ �� �&�������� ��� ���������

������������� ��0� ��

����� �������������� ��.(����7BBC�0����������;�����6<<9C�/����

6<<7C� /��� ��� 7BB73�� 1���� ������ ��� ����� ���� ���� ��

�������� ������� ��� ����� ������ ��� ���� ��� �������� �� ������ �� �� �

������������� �������� ������������ �������������� ������������ �

��� ������ ��������������������� ���������������������������������

����������������������������'���$��� ������� ������ ��� ���������

#��� �� ���� ����&�� ������ �������� ������������� ���� ���� ��� ���

������� �� ������ ��� �� � ���� � ������ ���� �"��� ���������� ���

������������� ��&�� ���� ���������� � ������� ��� ������� ����������

����������������������������������

� � ������ ����� �� �� � ��� #�� ��������� �� ��� ������ �����������

��!� ���������������� ���#����������������������������������������

������ ��� �������� ���� ������ ��� ����� ������ � ����� ���� �� ������ �� ��

�� ������ ���������������������������������������� ���������������

Page 39: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"������

39

��-������������������$���4�����

��+��� ���������)��������

��2�������� �$��

����������

����&�����

;�� ��������������������������������������� ���������������#��

������������ ����#���������� �������#����������������������������

��������� ������ ��������������������� �$��� � ��� ������������ ���

���������.��������� �����������G� ������������ ����"������"��������3�

���������������������

�����������

��� ������������� �������������������������������� �������������� ���

���������� �����������

���������������� ����

A� 1� ��������� ����������������������� ���� ��������������� ����

A� ������������������� ��������������������������

A� 1����������� ��5� ���

��)��������������������������� ������������������ ���������������

��� �� ���������&����������������������� ��0� ��

�%������������*������%������������*������%������������*������%������������*�����

���� ���������� ���� �� �������� ��� ��������� ������ ��� ��� �������� ���

��� ��� ���������� -�� ��� ��� ��� #�������� ��� ����� ����� ����������

������ �+"����� �������� /��������� 5��� �� ������� � � ��� ���

��������������������������� ��������������������������������� ���� ���

������������ ��� ������� ���� ��� ������� ����� ����� ����� ������ �������

��� ���� ���������� ���� ������ ������ ���������������������������������

���#���������������������������������������������������� ��������� ��

���� .������ ��3�� ��� ��� ��� #�� ��� �������� ����� ����� ������ ���

Page 40: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"������

40

�������� ��� ���� ������� ���� #�� ������� ��$���� �� ������������� ��� ��

���������������������������������������

-�� ��� ���� �� ��������� ��������� � ���� ��������������������

���������� ��� ��� ��������� ��� �� ��������� ���� ������� �� ���������

������������ ��� ��������� ����������� ��� ���� #���������� ���� �������

��� ���� �� ��������� ���� ������� �� ����������� ��� ���� ����� ,��� ���

��������� ���������� ��� ����� ����� #�� ��� �� �� ������ ��� �� ���������

������������������� �������������������������������������������������

2 ��������� ��������������

-�� 5 ���� � � ��� ��� �������� ��������� ����������� #�� ������� ��

���������� ��5� ��������� �����������5� ������������ ��������������� �

��F ��� � � ���������� �� ����� ������ ���� ����� ��� ���������� #����

���������������������������������������������������+���������

�� ������� ��� 6-����� ���� ������� ��� �� ���� �� �������� � ������ ���

����������� ��� ������������ $��������������� ��������� � �5� ����� �� �����

������������������ ��������� �����������������������$���� �����������

�$���������������������������"���� ���� ������� ����������� �������� �

� ����� ���� ����� �������� ��� ���� ���� ���������� ������ ��� � �����

��������������������� ������ ����� ������.�� ���3��

'�� �������� ��� ������ ���������� ����������� ��� ���������

�� ��������

��;����� ��2�������2��L������;��L��� �����;��+� �����>1�� ��� ���2�����

(�� ��� �������� ��������� ����������� �� ��������� ���������� ��>��

2������2������#������������ ���� ��������������� ����)((4�6H@<AB6NJ�

8�����(���� ��������� ��5�������E� ����7BBJ��

��;����� ��2�������2��L�������+��'�$����>1�� ��������������������"�����

�������� �������������� ��5� �?��8�����-���������������������'1�-)1�

7BBJ��

������� ��+�������,��� ���������������������������������������� ��+�������,��� ���������������������������������������� ��+�������,��� ���������������������������������������� ��+�������,��� ���������������������������������

���� ������������������� ��������� ��������������������������������#��

������ ���� ������������ ���� ������� �� ������������ ��� ��� ������� ���

Page 41: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"������

41

�� ������ ���� ������ ��� ���� �� ������ �� �������� ������ ��� ����������

��� ����� ������������ �������������� #�� ��� �� �� �������� ��� ������� ���

�� �������� ������������� �� ���������&������������������������������

��� ��0� ����������������������������������� ����������� ������

�������.����������� �����3�-����� ����#����� ������� ������� ����������

���������� ����� �� �������� �� MA(1+�.)��������F�G ����� ������������

��� ���� ���� ���� ����3� ��"� ��� �� ����� ��� ������� ��� I��� �����

��������� ��� �� ������������ ��� ���� ��� ������� ������ ������� �������� ���

�� ����� ���������� ��� �� $����� ���������� '�� �������� ��� �����

����������� �������������� ��������

��;����� ��2�������2�D��L������'���� �+� �����2��'� � ���>1��������������

��� '��G ��� ����� �&������ ��� ������������ �� '������� ��� 2�������

� ��������?��E����������)������"���� �(��G������/�������������7BB7���

��;�� ��� �� 2��� ���� (�� -�� �� 2�� D�� L������ >1�� ��� �� +��� ������ ���

'���������'���"����� ���)����������&���"��� ��� ��0� ?��)���������

1������������������)((4�6J9NAB<<7��+ ������8�� � �1������6�� � �1!��

D�����7BBJ��

������7�������

-������ ������������������������#������ ������������&���������������

�&���������#��� ������� ��� ��� ���� �������� ���������������� �������

�����������������"���������#����������������������������������������

��������� ��&���"�������������������������A����"���� �������������������

���������������������������������-������� ����������&������������#���

�� ���� �������� �������� ��� �� ������ �� �&�������� ��� ��������� ��� ��

0� ������������������#�������� ��� ���� ������� ���������������(��#���

�� �������������� �$������$��� ����������� ���� �������������������

��� ��������������������������"������

��;�� ��� �� 2��� ���� (�� -�� �� 2�� D�� L������ >1�� ��� �� +��� ������ ���

'���������'���"����� ���)����������&���"��� ��� ��0� ?��)���������

Page 42: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"��4�6�!�1�������!�������������������������� �������"������

42

1������ ������������)((4�6J9NAB<<7��+ ������8�� � �1������6�� � �1!��

D�����7BBJ��

��;�� ��� �� 2��� ���� D�� ��� L����A������ �� 2�� D�� L������ >1�� ���� ����

+��� ����� �� �#�� �U� '������� G�#� )��������

�&�������������#��0� ?����U1�7BBJ��

��;�� ��� �� 2��� ���� D�� ��� L����A������ �� 2�� D�� L������ >1�� ���� ����

+��� ����� �� �#��'��������-���������'�������G�#�)��������

�&�������������#��0� ?��8�����-����������������������

��� �� �� ���� ��� ��� �������� ������ ����� ��� ����� ������� ���

��������������� ������ ��������� ���� ������ ��������� �� ������������

�����������������������(����������� ��������� ����������� ���������

����������������� ��������������������$��� ������������ �������

�����������

���&� ���������������������������

���&� �����������������������������0� ��

��'������������������������G������

���������������������������4��G�F���

�����

Page 43: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

<�7�����(.��

�=46!�4�����������!�" ���>�=46!�4�����������!�" ���>�=46!�4�����������!�" ���>�=46!�4�����������!�" ���>����

D12�V4� -�2��1�� E�� 1�� .6<<H3�� -��������� ���� ������ ���� ���������� �� ���

���� �"����������� ������������������"�����D������;��������'�����

I4,�)�.7BBB3��>D���� ����D��� �"���?�-����������-������������� ����������

�������������� �'�� ����� ��I4,�)��

=�� �����������=�� �����������=�� �����������=�� ������������!�" ������������� �������!�4�������>�!�" ������������� �������!�4�������>�!�" ������������� �������!�4�������>�!�" ������������� �������!�4�������>����

=����������������� ����������!�! ���>=����������������� ����������!�! ���>=����������������� ����������!�! ���>=����������������� ����������!�! ���>�

1�I4(I� /�22I'1��� E�� ��C� ;)L,�2I�1�� '�� L�C� S1SI�� 1�� ;�� .7BB93�� P' ������"���

�������������������������� �� ���� �0� �?�L$��������������)(/4��N9A<@BA9669A8���

'1(�2I� �V1SA/1�12��� ;�� .7BB73�� P'������ �������� �� �����P�� /���� ���� ����

L�$� ������)(/4��N9A7J8A8HJBA8��

�('I2(1�� -���� D1(-I4(�� 2�� .7BB63��P��� ���� ��������� ������� ����� �������

���������P�D������-�������=� ��)(/4�N9A7<<JA8BJ@A8��

�('I2(1��-����+1��(��E��.6<<@3��P���� �"��������������� ���������������������

�������P����������� ��,���������- ����������'��� �!���)(/4��N9AN8B6A7JJA6��

-1�I-� ;�� �� +)�'�4���� E�� D�� .6<<<3�� P+� ����� ���� ����� �� )��� ������

'�������P�� (�� ������ � ����� �� �������� ����! ��� D������ ;�������� '�����

������'�����W6J��

+)'�4����E��D����-1�I-�;�������.6<<<3��P+� ��������� ����P��D������;��������

'�����' ���������������I������������W�69����

=-���6���>=-���6���>=-���6���>=-���6���>����

/211D��2����C�DI����=��;������+14�2114��1��;�� E��.6<<63��PD��������������� ��

�� ���� ������� ���� G��� ��� ����� ))�� ������� � ��������P� E���� � �� �#��

1�������(��������)��������(�������97.93��7J7A7HH��

/�4SX'2)��E�� -�� .6<<73���P'������������1�� ����=��� F�P�D���� ���FF����4�G�

:�F��

Page 44: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

<���<����� �6���'����<���<����� �6���'����<���<����� �6���'����<���<����� �6���'��������

'1��I4��D�C�'I,2�1)���E��-�������1+)�����;��.6<<63��P'A0������ ���������� ����

����� ����#�����G�F������������� ��G���� �����������#� ��� ��������#���#��

�������� ������#������P��(������������� ��77���W�6������6JJA7BJ��

'1��I4�� D�C� 'I,2�)1��� E�� -�� ���� -�414�� =�� .6<<J3�� P'�������"��� � � ������

������������� ��������������"�������� �� ����"���� ���� ��������� �����P�

I�����������)(/4��N9AN@@88A<9AN��

'1��I4��D�C��10�� E�C����� 2)-�� 1��.6<NH3��PD�������#���������� �������������

���#� ����(� ���������������#����� �G� ��P�������D��� ����

'=1ID�)� '=�4� .7BB83�� PD������ �������� ��������� �#�� ������ ��� F�G �����

���� ����P��������(������A+�� ����)(/4��6ANJ788A9<9AB��

'I,�����4�C�DI412'=��)������MI4�1��(��.6<<N3��P(��G���� ���������� ��� �����

�#���#�����������#� ����������1����������AG������ ����P�E���� ����#��1�������

(��������)��������(�������9<.683������67BHA6778��

���(I��1�-2)�'������E��.6<H83��P��� ��(�������/��(������P�' �� ��,����-������

4�G�:�F��

�LL=��� ��� ���� 2I,((�1,�� 2�� .6<<B3�� P)��������� �� )���������P�� � ��������

(������-� #�����)(/4�BA999ANN9<8A<��

;�22�)2I�1�O�S�����.6<<83��P/ ����"���1�� ��� ��������P�D��������������)(/4��

N9AHB9AH98@A@��

L2��41'2��� D�� E�� .6<<83�� >'������������ 1�� ���� �� -�������?� (��� ����� '1��

1�������-������

M�I'M��=������/,=D14��E��D��.6<<@3��P��������� ����� ��D� �������� �(�� ����

1������������1���� ���1�����#�P�

M2,(M1��� E�� /�� .6<@@3�� >�#�� �� ���� ��G���� �� �������� � ��� ��� ����

� �������?��)���E�����2����.��3��' �������������� ���������4�G�:�F��1�������

-������-���6@A99��

�I-�S��I-�S��-��.6<<H3��P)������������ ��/ ����"��P�+� ������-�� ���)(/4��

N9A@<NHA69HAB��

2�1����,(��E�����.7BB63��P���� ������D� ������� P���������D��� ��)(/4��N9A

@688A@B@AU��

Page 45: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

<���<����� �6���'����<���<����� �6���'����<���<����� �6���'����<���<����� �6���'��������

2,)SA/1YI(��2����'I4�2�21(�;��.6<<N3��P'������ ������������������� �������

����� �������� � � ����� ��� ��� �� � ���� ��������P� #����**GGG�������*�

�������*������ ��*� ���#�� ��

(-)41M�����.6<<N3��P)��������������������P�'��������)�������[email protected]�696AN��

�I2L�2(I4��0��(��.6<JN3��P�#��������D��#�����(�� ��P��0 ����4�G�:�F��

=�!����3���"��1��?�6����"�������'!6����"��������: �<>=�!����3���"��1��?�6����"�������'!6����"��������: �<>=�!����3���"��1��?�6����"�������'!6����"��������: �<>=�!����3���"��1��?�6����"�������'!6����"��������: �<>����

/1�S1A:1��(�� 2�� ���� 2)/�)2IA4��I�� /�� .6<<<3�� PD����� )�������� 2������ �P�

1�����0�� ����)(/4��BA7B6A8<N7<AU��

'=14L��L�C�=�1��:��D��E�C�D'=,L=��E��1��D������014L�E��������.7BB63��PD�����#��

0� ��0���0� �A�1��)��������(����#�1�����#P��M �G���1�������-� �#������#��

M �G���)��������� �(�������)��������2������ ��+ ����6B��)(/4��B@<78@89<<��

-1L��� ������� /2)4�� (�� .6<<<3�� P�#��1������ �� �� �����A(�� �� =������&��� �0� �

(����#������P��

(I,D�4� '=1M21/12�)� .7BB73�� PD���� �#��0� �� 1�� ���� �� =������&�� ���� (���

(��������������P��D�����M���������)(/4��6JAJNHAB@J9A9��

=��0���������6������!������>=��0���������6������!������>=��0���������6������!������>=��0���������6������!������>����

/121/O()��1�����.7BB73��P��F�����#��4�G�(��������4��G�F�P�-�������-� �#����

)(/4��BA@8N7ABHH@A<��

/,2���2��(��.6<<73��P(�������� �= �����#��(�� �(�����������'������P�'�� ������

=��������,��������-������)(/4��BAH9@AN98@7AU��

('I����E��-��.7BBB3�� P(�� �4��G�F�1�� �����1�=��� F�P�(�����������(����

-� �������)(/4��BA@H6<AH88NA8��

01((�2D14�� (�� ���� ;1,(��� M�� .6<<93�� P(�� � 4��G�F� 1�� ����� D��#��� ����

1�� ������P�'�� �����,��������-������)(/4��BAJ76A8N@B@AN��

=���2���3���"�>=���2���3���"�>=���2���3���"�>=���2���3���"�>����

(=4�)��2D14� /�� .6<<73�� P����� +��� ����� G�#� ����AD����� 7A�� (����A; ���

1�����#��P�1'D��������������L���#����+ ��66.63�������<7AA<<��E�������6<<7��

�)� /1��)(�1�� L�C� �1��(�� -�C� �1D1(()1�� 2�� ���� �I��)(�� )�� L�� .6<<<3�� PL���#�

���G����� ���#�������#������ �����������#��P�4�G�E�������-������A=� ��

Page 46: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

<���<����� �6���'����<���<����� �6���'����<���<����� �6���'����<���<����� �6���'��������

)4L21D�� 2�� ���� /�4�;I2��� (�� .6<<J3�� >��� ��� ��#��������� ��� ��������

���� �����?�-��������� �� �#��H�#� 1���� � )����'�������(�����'��������� ��

+��� ������I�� ���6<<J��1� ������L1��,(1������7B<A6H��

MI=I4�4����.6<<N3��P(� �AI�����������+������������������' �������(�������

�#��1���P�-�����������)'144<N���#��N�#�)��������� �'�����������1����� �4���� �

4��G�F���

2I0�)(��(��������(1,������M��.7BBB3��>4� ������������ ����������� �� �� ��

������� ������?�(�������7<B�.JJBB3��7878AH��

('=+14�+������ 2�� 0�� .��3� .6<<B3�� P-��#������ 1�������� 4��G�F��� (������ ��

M�G �����I���������P�4�G���4E��1 �&��

('=+14�+������ 2�� 0�C� U�,2(I�� ;�� ��� ���� ��12=I���� ��� 0�� .6<N<3�� P4��G�F�

����������� �� ��&���� �����P� )��� L� /G��.��3�� �#�� -���# ��� �� �������� ����

D�������+ ��79��4�G�:�F�1��������-���������79<AN9��

��4�4/1,D��E�� /�C� ()�+1�+�� ��� ���� �14L;I2���E�'�� .7BBB3�� P1� � � � ��������

�����G�F������ ������������ ����������P��(�������7<B�.JJBB3��786<A78��

S1=4��'�����.6<6@3��>L���#A�#������ ����#����������������������� ���L���� ��

� �������?�)�����������������'���������'7B��HNANH�

4�7���������������,��������������

�������������������� ����*, � � ���� �,� �,9, :���� � ;, �, .�����,0���������� ����� ��

+"����� ��� �� ��� �� 5�� ����� ��� ��������� �� ,���� ��� /�����

��&� ���,��;�������-�% �������)����� ��,��-8�<5=>??=>0@>=

A,� �����B������� C,'��,�0A@=00+,0AA+,

��;��E��'� �����E��1��I������� 2��D�� L�������;����� ��2������"#$� ��%�����

����������� ��� �������� � &�������� �� �� ������ ��������������� ���

������������������������������ � )� E������� ��� ��� �$� � ��� ��������

)(/4��N9A<J9<<A8JAJ��+� �� ���-�����JBAJ<��7BB6��

Page 47: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

<���<����� �6���'����<���<����� �6���'����<���<����� �6���'����<���<����� �6���'��������

��2��D��L������E��1��I�������D�������;����� ��2����'���������������������

������������� ���������� ������������ ��������� � )� E������� ��� ��� �$�

� �����������)(/4��N9A<J9<<A8JAJ��+� �� ���-�����@6A@N��7BB6��

��*,� ������,��,9,:������,� �� ���,��%� ��,+�2 ����� ���

��� � ���7��� ����� 5&������ ��� 5��� �� ���� �� ��������� ���

8�� �����5���������9 ��� ;������ � ���������� � ����D��� �

-���� �)����, ��-8�<5=><<=A0A>=?,7 7������ B9���C,'��,�

0E?=0><,0AA0,

��*,� ������,�6,:���� ����,9,:�����*,�� ����,0����������

����� �� 8������������ :�" ���� ��� 8�������� � ���������� �����

�����������������9 �� ;������ �����,����������� �����"�� �

)��������,��-8�<5=?E5??=>0=0,�� ���"�,'��,�5+=5<,0AA0,

��2�� '� � ��� ;�� ��� �� 2��� ���� (�� -�� �� -�� E�� '�������� '�������� ���

$�������������(����������������'���)��*����(������ �)U�E����������

)������"�� �� � (��G���� ��/����� ��� ������ )(/4�N9AHNNAN<N8AB�� D� �����

-����7JA8H��7BB9�

��;�� ��� �� 2��� ���� (�� -��� -�� E�� '������� �� 2�� D�� L������ &!����� ��

+����������� ��� (���������� (���� ����� ��� $ �������� ,-������� ��� ��

.�� �)U�E����������)������"���� �(��G������/��������������)(/4�N9A

HNNAN<N8AB��D� �����-����7<6A8B6��7BB9�

��;�� ��� �� 2���� 2��D��L������ (�� -�� �� 2�� '� � ���/������ �������������

�� �0������������1�����(��������� � -��������� ���#��+�1�)(�7BB9�

0�F�#�� �� ������ (������ �� (��G���� ����������� D� ����� (�����

)((4��6H68ABB@8��4��� ���<��7BB9��

��*,� ������,��,'�����,9,:����,+"���������� ��1��������

��� ������������ ��������� ��������5&������������3�%9���8�

+E5<=A??0,�7776�����������������������,0AAE,

Page 48: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

<���<����� �6���'����<���<����� �6���'����<���<����� �6���'����<���<����� �6���'��������

��2�� '� � ��� ;�� ��� �� 2��� ��� �� (�� -��� '�������� ��� $����������� ��

(�������������� �� '���)�� *����(������ � )((4��6J9NAB<<7�� )���������

1������������������7BBJ��

��;�� ��� �� 2��� ���� D�� ��� L����A������ �� 2�� D�� L������ &������ ���

+����������� � � ���� '2� (�������� 0���� $ ��������

,-�������� ��������.�����U�A6H�#�)��������� �0�F�#��������� �����

��������-���6J6A6JH���7BBJ���

��*, � � ���� �,� 9, �, :����=6� ��� �, 9, :����, +������ ���

��� ��1����� � � �*�� /;� ���� ���� 7��*� � ��������

5&�������� �����*��3�%,+>�F������������ ������������)���%���

��7! ����������� ��������G)7H�,0AAE,

��D�����L����A�������2��D��L������'���� �+� ����;����� ��2������"���������

3������� (�������� 4������5������� '�������� �� 1����������

'���������6H�#�)��������� �'��������������� ���������&�����(�������

1�� ������Z���U1��7BBJ��

��6,:���� ���*,�� ������,9,:�����*,� ������,5�� ���� ���

������ ���� ����� <����� ���"�����9 ��"���� 7� �I� � �

)����������������������,���8�A0+A=A>+5,�� ,0<,8J�,0,0AAE

'���,+EE=+>?,

��*,� ������,��,9,:�����6,:���� ���*,�� ����,+"��������

8����� �������� �������� /��������� 5������������ �� 5��� �� ����9

����� ��"����K�� ��� ��� � ��� ���� � ���� ����� ��, ���8�

+E@?=A+<E,�� ,<,0AAE,

Page 49: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

���?!���

Page 50: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información
Page 51: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

���?!�/�

Page 52: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información
Page 53: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

���?!�5�

Page 54: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información
Page 55: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

�;���������������@��������9���

������������+��������������

6����������� �����A�

�B����C�����������������.��������(@���+�<�������������/DD/E�

Page 56: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información
Page 57: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

Arquitectura de un Crawler para Extraer las Estructuras y Contenidos de Recursos

Electrónicos

F. de la Rosa T., R M. Gasca, C. Del Valle y R. Ceballos Departamento de Lenguajes y Sistemas Informáticos

Universidad de Sevilla { ffrosat, gasca, carmelo, ceballos}@lsi.us.es

Abstract. Hoy en día Internet se nos presenta como el gran escaparate de la información, la cual podemos observar y consultar. Sin embargo, esta información es difícil de manipular o procesar para asimilarla adecuadamente o adquirir nuevos conocimientos. En este trabajo presentamos una arquitectura que permite la extracción de las estructuras y los contenidos de los recursos electrónicos, con el objeto de facilitar el procesamiento y/o la representación de dicha información mediante otros paradigmas para mejorar su comprensión.

Palabras Claves. Arquitectura Crawler, Extracción de Información, Navegación, Recursos Electrónicos, Web Semántica, Wrapper Inductivo, Base de Datos Semiestructurada, Digestión de Información, WebL.

1. Introducción

La enorme cantidad de información disponible en Internet es fácil de observar y consultar, pero difícilmente podemos convertirla en conocimiento. Se está realizando un gran esfuerzo en algunas disciplinas para desarrollar el concepto de Web Semántica [1][2], cuyo objeto es proporcionar un orden en el caos que gobierna la información almacenada en Internet. Se han conseguido varios logros con el desarrollo del metalenguaje de marcas XML [3]. El objetivo de este metalenguaje es que la información que hoy se encuentra en los recursos electrónicos en formato HTML sea accesible en el futuro a través de una sintaxis común para su automatización. Para conseguir esta automatización el lenguaje XML asocia a los datos una información semántica, lo que permite el posterior cruce de distintas fuentes electrónicas. El metalenguaje XML no impide el acceso a la información como se ha venido realizando hasta la fecha, pudiéndose utilizar una plantilla XLST, donde se describe el proceso de transformación de los repositorios de información XML en algún formato interpretable por los navegadores, como puede ser el HTML.

Como hemos visto, el metalenguaje XML permite asociar información semántica a los datos. Sin embargo, esto no es suficiente para que varios actores independientes

Page 58: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

puedan colaborar para conseguir sus objetivos. Para ello es necesario definir una ontología, es decir, debemos describir los conceptos y las relaciones de un dominio común para que pueda existir una comunicación entre los distintos actores. Para realizar las definiciones de las ontologías existen varios lenguajes, como pueden ser XOL, Topic Maps, SHOE y DAM+OIL [2]. Pero entre todos destaca RDF [3][4], un estándar de propósito general para describir ontologías, auspiciado por el consorcio W3C [3] y que está definido sobre XML. El concepto de ontología se ha fraguado en diferentes disciplinas, como en la Ingeniería del Conocimiento con el objeto de desarrollar sistemas expertos, o en el área de Documentación para el desarrollo de estándares en la catalogación de recursos, no sólo electrónicos o bibliográficos, sino también otros tipos de recursos. Destacamos como estándar de catalogación DublinCore [5].

Una de las pruebas de que la Web Semántica no es aún una realidad es que uno de los campos más activos de investigación es el de la extracción de información Web mediante el uso de wrappers inductivos [6]. En los trabajos actuales se están desarrollando sistemas capaces de aprender a extraer de páginas HTML la información que nos interesa. Para ello utilizan una pequeña porción de los datos que quieren extraer para conseguir que el sistema aprenda a recuperarlos. Estos esfuerzos nos hacen pensar que en el futuro una gran parte de la información a la que podremos acceder seguirá siendo accesible solamente mediante páginas HTML.

En este trabajo presentamos la arquitectura de una herramienta que permite la extracción de información de los recursos electrónicos, tanto de su contenido como de su estructura y además con un bajo coste tanto en recursos humanos como en medios. A diferencia de los sistemas inductivos, donde se busca extraer la información de forma automática, nuestra herramienta es programada para navegar por los recursos electrónicos y extraer la información que nos interesa como lo harían los programas rastreadores de la red, también conocidos como crawlers [7][8]. Nuestra propuesta no debe ser entendida como contrapuesta a éstas propuestas, sino en simbiosis con ellas, ya que una de las aplicaciones más interesantes, como veremos posteriormente, es la generación de corpus para entrenar sistemas inductivos de forma general (como pueden ser los sistemas para extraer información de páginas Web o algunos modelos de procesamiento de lenguaje natural).

El resto del trabajo queda estructurado de la siguiente forma: en la sección 2 presentamos la arquitectura primitiva de nuestro sistema y los nuevos requisitos que surgieron tras la etapa de pruebas. En la sección 3 presentamos la arquitectura actual del sistema surgida a partir del sistema primitivo y el modelo conceptual subyacente para la descripción de la navegación y extracción de la información. Por último en la sección 4 presentamos las conclusiones, centrándonos en dos aspectos fundamentales: (i) las características particulares de nuestra arquitectura y (ii) la aplicabilidad de ésta.

2. Arquitectura Primitiva: Generación de Resúmenes de Prensa a partir de Periódicos Electrónicos

La motivación de la herramienta que presentamos en este trabajo fue la creación de un periódico electrónico a medida, que hiciese llegar diariamente a cada uno de los

Page 59: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

usuarios del servicio un resumen de prensa personalizado, con el objeto de facilitar al usuario la asimilación de información. Los resúmenes estaban personalizados con la relación de las noticias publicadas en los medios de comunicación que eran de interés para el usuario y por un estudio estadístico del impacto que ellas tenían en los medios.

Para la generación de los resúmenes la herramienta debía conocer cómo navegar por los periódicos electrónicos y cuáles eran los centros de interés de los usuarios. El paradigma utilizado para la descripción de la navegación se basaba en la especificación de dos elementos: secciones y noticias. Las secciones o semillas son las páginas Web donde se inicia el proceso de navegación y la forma de especificar las semillas se hacía indicando su dirección URL. A diferencia de las secciones, las noticias eran páginas desconocidas para el sistema, pero podían describirse utilizando un rango de URLs. Con estas descripciones el núcleo de la herramienta extraía las referencias almacenadas en las páginas semillas y en caso de encontrar una referencia que perteneciese a algún rango de noticias, realizaba una descarga de la noticia.

Para poder generar los resúmenes de prensa era necesario que el usuario definiera sus centros de interés. Como lenguaje para definir estos centros de interés se utilizaban las expresiones regulares que proporciona WebL [9] y que se utilizaban para la búsqueda de patrones en ficheros planos. De esta forma la herramienta asociaba una noticia al centro de interés de un usuario si encontraba en ella alguno de los patrones definidos por dicho usuario. En la Ilustración 1 se muestra el esquema de la arquitectura y la implementación del núcleo del sistema en pseudocódigo.

La herramienta que hemos descrito arriba fue la primera versión del sistema y tras un periodo de pruebas se detectaron dos inconvenientes importantes en su arquitectura: − El sistema de generación de informes era poco modular y resultaba muy costoso

cambiar el contenido de los resúmenes de prensa. − Un porcentaje alto de noticias eran clasificadas incorrectamente, ya que durante el

proceso de clasificación, no se separaba el contenido de la noticia del resto de la página Web. Esto generaba ruido en el proceso de clasificación pues por norma general las páginas que albergaban las noticias hacen referencia a otras noticias que no tienen relación alguna con el contenido de la misma.

Como resultado de la fase de prueba obtuvimos una lista de nuevos requisitos que

debía contemplar la nueva arquitectura:

Semillas <- {Referencias Iniciales}MIENTRAS Semillas.NoVacia() HACER refS <- Semillas.PrimerElemento() refS.Descarga() refNs <- refS.Referencias() MIENTRAS refNs.NoVacia() HACER

refN<-refNs.PrimerElemento() SI EsNoticia(refN) ENTONCES refN.Descarga() refN.Clasifica() FIN SI

refNs = refNs - {refN} FIN MIENTRAS Semillas = Semillas - {refS} FIN MIENTRAS

Centro de Interés Palabras Claves (Exp. Reg, xml)

Resumen de Prensa (html, link noticias)

Internet

Periódicos Digitales

Navegación Sumario-Noticia

I lustración 1: Arquitectura del sistema y pseudocódigo del núcleo del sistema primitivo

Page 60: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

− Era necesario mantener una cache de URL descargadas, para evitar descargas duplicadas y bucles infinitos en el procesamiento de las noticias y secciones.

− Resultaba imprescindible cambiar el paradigma de navegación para ampliar el dominio de procesamiento de los recursos electrónicos, de forma que pudiésemos procesar cualquier estructura encontrada como recurso electrónico y no solamente periódicos digitales.

− Era conveniente reducir el tiempo de descarga, aprovechando al máximo el ancho de banda y evitar ataques DoS (Denegación de Servicios) sobre los servidores. Por ello surge como nuevo requisito el realizar descargas de forma concurrente.

− Finalmente, para resolver los dos inconvenientes antes mencionados se creyó justificada la necesidad de extraer información tanto de las estructuras como de los contenidos de los recursos electrónicos y almacenar esta información en una base de datos. No bastaba con descargar las páginas Web, era necesario extraer parte de su contenido. En el caso de las noticias, es posible la extracción de items tales como: los autores, los resúmenes, los títulos, la localización de los sucesos, etc. Esta solución permite: 1) eliminar los problemas de ruidos detectados, al obtener la noticia sin referencias falsas a otras noticias; 2) alimentar una base de datos para mantener un sistema modular de generación de informes utilizando un lenguaje de consultas.

Para satisfacer todos estos requisitos no bastaba con disponer de funciones para la

búsqueda de expresiones regulares en los textos, necesitábamos además otros tipos de servicios, que nos permitiesen implementar procesos concurrentes y manipular páginas HTML o XML. Hemos encontrado en el lenguaje WebL todos los servicios necesarios para implementar la nueva arquitectura, consiguiendo además una plataforma de programación muy homogénea. Esto diferencia la arquitectura que proponemos en este trabajo de otros sistemas como LORE [10], ARANEUS [11] o AKIRA [12], que necesitan utilizar varios lenguajes para describir su funcionamiento.

3. Arquitectura Actual: Extracción de Estructuras y Contenidos a partir de Recursos Electrónicos en General

En esta sección describimos la arquitectura actual del sistema y por su interés dedicaremos dos subapartados específicos donde serán desarrollados: primero el modelo utilizado para navegar y extraer información, y finalmente la interfaz utilizada para desacoplar la herramienta de otros sistemas de información. En el esquema que aparece en la Ilustración 2 podemos observar una visión global de la arquitectura que iremos exponiendo a lo largo de la sección.

Page 61: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

Resumenes DatawarehouseWorkflow

Internet

Contenidos Web

BDSECache

Def. Extracción de Contenido

Def. de Navegación

Copia local de contenidos

Procesamiento de Resultados

Xlst, webl, CSSsql

Semillas <- {Referencias Iniciales}MIENTRAS Semillas.NoVacia() HACER ref <- Semillas.PrimerElemento() ref.Descarga() refNs <- ref.Referencias() MIENTRAS refNs.NoVacia() HACER

refN<-refNs.PrimerElemento() SI EsInterior(refN) ENTONCES

Semillas = Semillas + {refN} FIN SI SI EsHoja(refN) ENTONCES refN.Descarga()

refN.Procesa() FIN SI

refNs = refNs - {refN} FIN MIENTRAS Semillas = Semillas - {ref} FIN MIENTRAS

I lustración 2: Arquitectura del sistema y pseudocódigo del núcleo del sistema

Uno de los subsistemas más importantes de la herramienta es la cache de

descargas. La función de este subsistema es la de gestionar las descargas de ficheros y páginas Web, evitando las descargas y los tratamientos duplicados. Para realizar esta gestión, el subsistema mantiene en un fichero XML la información de las descargas realizadas, almacenando la dirección URL, la localización de las descargas y la información que los servidores proporcionan sobre el estado de los ficheros descargados. Entre la información proporcionada por los servidores nos encontramos con la fecha de actualización del fichero. Esta información es fundamental y permite al subsistema de cache decidir en el futuro si es necesario o no realizar de nuevo la descarga. En la Ilustración 3 podemos ver un ejemplo del fichero XML que mantiene la cache de descargas.

El sistema realiza la descarga y el tratamiento de las páginas de forma concurrente. Tras la descarga de la página, ésta pasa al subsistema de procesamiento. Como veremos en próximos subapartados, el procesamiento de las páginas se particulariza para cada recurso electrónico, mediante la implementación de dos tareas: la navegación y la extracción de información, siendo ésta última opcional.

Si existe la tarea de extracción para una página, el sistema la utiliza para obtener un objeto que mantiene la información relevante. Y mediante la introspección del objeto el proceso de almacenamiento consigue guardar la información que contiene en una base de datos semiestructurada (BDSE). Podemos apreciar esta dinámica en la Ilustración 4.

<Cache objeto= " CacheA lbumes.xml " > <EntradaB ck url = "http://www.efrance.fr/arti cul os/basedonnee/albumescompletos/estadi sti cas.asp" > <U RL > http://www.efrance.fr/arti cul os/basedonnee/albumescompletos/estadi sti cas.asp< /U RL > <Fi chero>d:\tmp\A lbumes\trash\i nd16112.html< /Fi chero> <D ia> 4< /D ia><M es>3< /M es><Anyo>2002</Anyo> < /EntradaB ck> <EntradaB ck url = "http://www.efrance.fr/arti cul os/basedonnee/albumescompletos/l i star.asp" > <U RL >http://www.efrance.fr/arti cul os/basedonnee/albumescompletos/l i star.asp< /U RL > <Fi chero>d:\tmp\A lbumes\trash\i nd16113.html< /Fi chero> <D ia>4< /D ia><M es>3< /M es><A nyo>2002< /Anyo> </EntradaB ck> ...< /Cache>

I lustración 3: Ejemplo de fichero XML mantenido por el cache de descarga

Page 62: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

Aunque el formato utilizado para implementar la base datos es XML, no se define una estructura semántica fija, ya que ésta se adapta al contenido de cada objeto almacenado, obteniendo por tanto una base de datos de objetos heterogéneos. Debido a la importancia de la BDSE dentro de la arquitectura, como interfaz para alimentar otros sistemas de información, le dedicamos un subapartado dentro de esta sección.

Además, podemos recalcar que la arquitectura propuesta genera dos tipos de productos: por un lado mantiene una copia local de las páginas visitadas, operación que se realiza automáticamente, y por otro lado se puede configurar para generar una BDSE con información extraída de los recursos visitados.

3.1. Paradigma de Navegación y Extracción de Contenidos

En el proceso de navegación el usuario define cómo la herramienta debe navegar a través del recurso electrónico a visitar. El paradigma utilizado para navegar tiene su base en la catalogación de las referencias según dos características: su comportamiento o modo de navegación y su contenido. Debido a que la catalogación de las referencias de forma individual consumiría muchos recursos, la catalogación se realiza por rangos de referencias, describiendo éstos mediante expresiones regulares. Por tanto, una referencia pertenece a un rango si la referencia es reconocida por la expresión regular que representa al rango. Dentro de los rangos podemos definir islas de rangos de referencias, que determinan las referencias que son excluidas del rango principal. En el modelo de navegación se han detectado tres posibles modos de navegación según el comportamiento de las referencias: Referencias Hojas: Son referencias que tienen asociado un proceso de extracción de información para los contenidos a los que hacen referencia. La información extraída será posteriormente almacenada en la base de datos semiestructurada. Referencias Intermedias: Son referencias usadas para extraer otras referencias que realimenten el proceso de navegación. En algunos casos, el conjunto de referencias

def art1 = [. autores = [“Arturo Valader“,”Ana Valle” ],localidad=”Madrid” ,referencia=”http://www.elpais.es/2002/....” ,titulo=”ElIPC vuelve a subir” .];

<Articulo> <Autor>Arturo Valader</Autor><Autor>Ana Valle</Autor><Localidad>Madrid</Localidad><Titulo>ElIPC vuelve a subir</Titulo><Referencia>http://www.elpais.es/2002/....</Referencia>

</Articulo>

Artículo en Formato XML

Objeto WebL

Artículo en formato HTML

Internet Sistema de Extracción

Proceso de Extracción

Proceso de Almacenamiento

I lustración 4: Etapas en el procesamiento de un artículo

Page 63: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

extraídas se verá influido por su contenido. Nada impide que una referencia intermedia sea definida también como referencia hoja . Referencias Semillas: Son las referencias iniciales, desde las cuales comienza el proceso de navegación. En el modelo de navegación de la arquitectura primitiva de la herramienta, éstas referencias eran conocidas como referencias a sumarios. La forma de procesar estas referencias es similar a las referencias intermedias.

Como ya hemos comentado al principio de la sección, además de realizar una catalogación de los rangos según su comportamiento, existe también una catalogación subjetiva dependiente de los contenidos de los recursos electrónicos. Por ejemplo, si estamos navegando en un servidor de ficheros de música, se podría definir una categoría de referencias que distinguiesen los siguientes contenidos: tendencias musicales, grupos musicales, miembros de grupos, álbumes y canciones de los grupos. Una vez catalogado los rangos el usuario deberá implementar los procesos de navegación y de extracción para cada uno de ellos. Muchos procesos de navegación y extracción serán reutilizables gracias a su catalogación. En la Ilustración 5 podemos ver las relaciones entre las diferentes categorías y de procesos.

3.2 Extracción de Información a par tir de Recursos Electrónicos

En la primera arquitectura que hemos presentado hacíamos uso de las expresiones regulares como lenguaje para definir los centros de interés y generar resúmenes de prensa personalizados. Aunque los lenguajes regulares eran mecanismos adecuados para nuestros propósitos, en esta segunda arquitectura que presentamos resultan insuficientes para extraer información manipulando los contenidos de las páginas Web. Los objetivos han cambiado y nuestra intención es la extracción de los campos específicos de esos contenidos. Por ejemplo, para el caso de las noticias podemos extraer: el autor, la localidad donde se produjo el suceso, el texto de la noticia, etc. A este conjunto compacto de campos extraídos de una página Web y que hacen referencia a una misma entidad se le denomina esquema. En el ejemplo anterior la entidad sobre la cual se construye el esquema sería la noticia.

Modo de Navegación

Álbum

GrupoMiembro

Canción

Contenido

Proceso NavegaciónSemillaIntermedioHoja Proceso Extracción

- Noticia

- Sección

Servidor de Música

Per iódico Electrónico

I lustración 5: Categorización de los procesos según modo de navegación y contenidos de los rangos

Page 64: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

A diferencia de otras arquitecturas wrappers como LORE[10], ARANEUS[11] y AKIRA[12], que utilizan analizadores léxicos y sintácticos para construir parsers que extraen esquemas predefinidos, nuestra herramienta utiliza un álgebra de etiquetas. Los lenguajes que implementan álgebras de etiquetas tienen un gran potencial para extraer esquemas de los lenguajes de marcas como HTML y XML. Este es el caso del lenguaje WebL.

Las álgebras de etiquetas permiten recuperar de las páginas Web conjuntos de etiquetas y conseguir la localización de la información que queremos extraer mediante la aplicación sucesiva de los operadores básicos de los conjuntos: unión, intersección, selección y diferencia. Como se puede observar en el ejemplo de la Ilustración 6, en el que se imprimen las referencias contenidas en una página Web, las álgebras de etiquetas proporcionan un modelo menos genérico pero más potente que el modelo utilizado por los analizadores léxicos y sintácticos para manipular textos etiquetados.

Nuestra arquitectura utiliza el álgebra de etiquetas que implementa WebL para construir los procesos de extracción utilizados para alimentar la BDSE de contenidos. Cada objeto extraído pertenecerá implícitamente a un esquema y este esquema se almacenará total o parcialmente en la BDSE.

/ / Func i ones r ecol ect or as de i nf or maci ón.var Aut or es = def un( obj , HTML) . . . . / / Códi go ext r acc i ón.end;var Ti t ul o = def un( obj , HTML) . . . . / / Códi go ext r acc i ón.end;var Resumen = def un( obj , HTML) . . . . / / Códi go ext r acc i ón.end; . . . . . .expor t var Cons t r uc t or = f un( HTML) / / Recopi l ac i ón de l os dat os . var dat os = Aut or es( [ . . ] , HTML) ; dat os = Ti t ul o( dat os , HTML) ; dat os = Resumen( dat os, HTML) ; dat os = Cont eni do( dat os, HTML) ; dat os = FechaSuceso( dat os, HTML) ; dat os = Local i zac i on( dat os, HTML) ; r et ur n dat os ;end;

I lustración 7: Ejemplo de biblioteca WebL para extraer un esquema de noticias

var P = GetURL(“http://www.elmundo.es/nacional.html” );every e in Elem(P,”a”) do PrintLn(e.href);end;

I lustración 6: Ejemplo de extracción de referencias mediante un álgebra de etiquetas

Page 65: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

3.3 Integración del Sistema en otros Procesos

Una de las características más interesantes de la arquitectura es el desacoplamiento del proceso de extracción de información del proceso de explotación de los datos extraídos. Esto se ha conseguido a través de la BDSE. Esta característica permite integrar nuestro sistema en otros sistemas más complejos, como pueden ser un Datawarehouse, un Workflow, un generador de resúmenes de prensa o algún paradigma de representación visual. De esta forma se permite la construcción escalar de un sistema de información. Por ejemplo, se pueden ir actualizando los datos de un Datawarehouse, a medida que se vayan obteniendo resultados de los recursos electrónicos o ir generando nuevos contenidos como los resúmenes de prensa.

No hay que olvidar que el sistema siempre realiza una descarga local de los contenidos visitados, aunque llegado el caso estas descargas puede ser eliminadas, por problemas de falta de espacio. La información descargada localmente puede resultar útil para extraer nuevos esquemas que anteriormente no han sido tenidos en cuenta o disminuir el tiempo de acceso de los usuarios que visiten nuestros contenidos. A diferencia de la descarga local, la extracción del contenido a una BDSE es opcional.

4. Conclusiones

De la arquitectura propuesta en este trabajo podemos destacar las siguientes características: − La generación automática de una base de datos semiestructurada en XML de las

estructuras y los contenidos de los recursos electrónicos distribuidos por Internet. − El desacoplamiento de la estructura y el contenido de los recursos electrónicos, del

paradigma o de los procesos utilizados para digerir adecuadamente la información. − La robustez alcanzada al permitir el cruce de la información de varios recursos

electrónicos mediante el mantenimiento de un Datawarehouse. Esto permite completar las descargas parciales o fallidas de información y evitar que el usuario final se quede sin servicio.

Datawarehouse

Workflow

Resumen de Prensa

BDSE

Sistema Procesos Escalables

WebL

Paradigma Visual

I lustración 8: Posibilidades de los procesos escalables

Page 66: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

− Es un sistema que necesita poco esfuerzo de mantenimiento, ya que es fácil detectar cuándo se extrae de forma incorrecta la información y por tanto como corregir estas situaciones anómalas.

Todo ello conduce a una alta aplicabilidad del sistema. Podemos poner como

ejemplos de aplicabilidad: − La generación de corpus de noticias de prensa para entrenar modelos de

procesamiento del lenguaje natural, o para entrenar sistemas inductivos de extracción de información Web.

− La generación de periódicos a la carta, donde podemos generar tanto resúmenes de noticias catalogadas, como realizar estudios estadísticos de los impactos de las noticias.

− La realización de copias locales de recursos electrónicos o la monitorización de recursos mediante el envío de avisos en caso de producirse cambios en los contenidos.

Como conclusión final podemos decir que la construcción de este sistema consigue

mostrar la viabilidad de la extracción de información de Internet de forma semiautomática, siempre y cuando estos sistemas mantengan una cierta redundancia sobre los recursos, que evite la siempre indeseable caída de los servicios. Por tanto para asegurar el éxito de estos sistemas, creemos que es necesario realizar una planificación detallada de los recursos a explotar, que permita alcanzar las expectativas de los servicios ofertados.

Referencias

1. Tim Berners-Lee, James Hendler and Ora Lassila. "The Semantic Web is an extension of the current Web in which information is given well-defined meaning, better enabling computers and people to work in cooperation.". May 2001. The Semantic Web, Scientific American.�

2. Natalya F. Noy, Michael Sintek, Stefan Decker, Monica Crubézy, Ray W.Fergerson,a Mark A. Musen. “Creating Semantic Web Contents with Protégé-2000” . Sandford University. 2001 IEEE Intelligent Systems.

3. W3C Word Wide Web Consortium: http://www.w3.org/ 4. Pierre-Antonie Chaping “RDF Tutorial” : http://www710.univ-lyon1.fr/~champin/rdf-tutorial/

5. Dublin Core Metadata Iniciative: http://dublincore.org/ 6 Ariadne: http://www.isi.edu/ariadne/demo/index.html 7. Prasanaa Thati, Po-Hao Chang, and Gyl Agha. “Crawlets: Agents for High Performace Web

Search Engines” University of Illinois at Urbana-Champaign USA. 5th International Conference, Mobile Agents 2001. Springer.

8. Goerge Chang, Marcus J. Healey, James A. M. Mc Hugh and Jason T. L. Wang. “Mining the World Wide Web. An Information Search Approach.” Kluwer Academic Publishers.

9. Hannes Marais. “Compaq's Web Language. A Programming Language for the Web”. Compaq Systems Resarch Center (SRC).

10. Lore: http://www-db.stanford.edu/lore/ 11. Araneus: http://www.difa.unibas.it/araneus/index.html 12. Akira: http://www.cis.upenn.edu/~lacroix/AKIRA/SIGMOD/akira_home.html

Page 67: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

��*������+��������,��� �����

��� �������������.(���������

��(�� ��� ���9�.���������: �7�

����B������������ %���������������/DDFE�

Page 68: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información
Page 69: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

Análisis y Visualización de Comunidades Científicas con Información Extraída de la Web

F. de la Rosa T., S. Pozo, P. J. Casanova y R. M. Gasca

Departamento de Lenguajes y Sistemas Informáticos Universidad de Sevilla

{ ffrosat, sergio, casanova, gasca} @lsi.us.es

Resumen. El objetivo del presente trabajo es el de representar gráficamente las estructuras de una determinada área de conocimiento, a partir de datos recopilados de Internet. El recientemente desarrollo de la red Internet ha facilitado el acceso a nuevos recursos, esto ha contribuido a crear nuevas disciplinas que pretenden explotar estos recursos. Los principales problemas para su explotación son su localización y su procesamiento. A lo largo de este trabajo se combinarán técnicas de extracción, análisis y visualización de datos, para definir una arquitectura que solucione los problemas de procesamiento que plantean estos recursos. En concreto en este trabajo exploraremos dos de las estructuras más importantes que definen una comunidad, los temas que generan mayor interés y su red social. Como ejemplo de aplicación de la arquitectura y de las técnicas utilizadas, se presenta un estudio sobre la comunidad de las JISBD, a partir de datos extraídos de Internet.

Palabras Claves. Extracción de información, DBLP, JISBD, Visualización de Información, Co-Autorias, Co-Palabras, Cibermetría, Ingeniería del Software, Bases de Datos, Content Web Mining, Data Clearing.

1. Introducción

Extraer conocimiento de los recursos disponibles en Internet es una de las áreas de investigación que más interés está generando en la comunidad científica. Existen muchas áreas implicadas: Webmining, Cybermetría, Webometría, PLN, etc. El objetivo de este trabajo es la implementación de una arquitectura que permita las labores de extracción o descubrimiento de conocimiento. Entendiendo la transformación de información en conocimiento como una “extracción de información implícita, no trivial, previamente desconocida y potencialmente útil” [1]. Como veremos, para conseguir este objetivo, la arquitectura ha necesitado integrar técnicas pertenecientes a distintas áreas, entre estas se pueden destacar: Extracción de Información, Recuperación de Información, Cienciometría, Técnicas de Visualización y Técnicas de la Teoría de Grafos.

El presente trabajo se centra en analizar dos de las estructuras más importantes que definen una comunidad de investigadores: la red de social y las áreas temáticas que la definen. Para realizar estos análisis ha sido necesario conocer la información bibliográfica de la comunidad. Esta información permitirá analizar la red

Page 70: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

social a partir de su red de co-autorías, así como aplicar la técnica de las co-palabras, para analizar sus áreas temáticas. Como ejemplo ilustrativo de estas técnicas, presentamos un estudio aplicado sobre la comunidad de las JISBD. Para ello se ha extraído de Internet la información bibliográfica de la comunidad, información que recientemente ha sido publicada en la base de datos DBLP (Digital Bibliograph & Library Proyect). DBLP es una base de datos cuyos servidores proporcionan información bibilográfica sobre las revistas y congresos más importantes sobre Computes Science.

Aunque estas técnicas puedan parecer sólo aplicables a la información bibliografíca, lo cierto es que tiene gran aplicabilidad en cualquier sistema que pueda ser modelado como una red o grafo, donde los nodos son entidades (autores, palabras, páginas web, artículos, clientes, empleados, empresas, productos, etc) y las aristas nos informan sobre las relaciones existentes entre las distintas entidades (publicación conjunta o colaboración, aparición conjunta, referencia, amistad, subordinado, compra, etc). Por ejemplo, la técnica de las Co-Autorías puede ser de utilidad para analizar las relaciones que se producen entre los miembros de un foro de discusión o entre los empleados de una empresa y la técnica de las Co-Palabras permite el análisis de las temáticas tratadas en cualquier corpus de documentos o campo con información textual (páginas HTML, mensajes de email o campos de una base de datos).

Como se describe en el trabajo [2], para crear nuevo conocimiento a partir de la creciente cantidad de información que disponen los sistemas, es necesario la utilización de herramientas que permitan enfocar la información desde distintas perspectivas. La construcción de estas perspectivas estaría guiada por nuestros objetivos o necesidades informativas. Por ello en este trabajo, proponemos una arquitectura que permita alcanzar nuestras necesidades informativas mediante el adecuado modelado de dichas redes. Por ejemplo, para el problema que planteamos, el análisis de las estructuras que forman las JISBD, no tienen las mismas necesidades de información un experto en Ingeniería del Software o en Bases de Datos que un investigador novel. El experto en Ingeniería del Software o en Bases de Datos estaría interesado en la búsqueda de autores afines o de líneas de investigación emergentes dentro de su área, mientras que un investigador novel estaría más interesado en conocer las temáticas que forman las jornadas o conocer a los autores más influyentes capaces de orientarle en sus investigaciones. También una empresa podría tener necesidades diferentes a las anteriores, con la idea de obtener alguna ventaja competitiva. Ésta podría por ejemplo estar interesada en buscar expertos que colaborasen en algún proyecto conjunto o conocer los intereses de los investigadores de empresas competidoras.

Como vemos, las necesidades informativas son muy amplias y la información a analizar es muy extensa y difusa, a veces sólo disponibles desde Internet, caso de las comunicaciones de las JISBD. Por ello es necesario el desarrollo de aplicaciones que nos proporcionen medios para descubrir la información que necesitamos. Aplicaciones que deberán conjugar técnicas procedentes de diversas áreas. Para describir la arquitectura y las técnicas utilizadas para resolver estos problemas, el artículo se ha dividido en las siguientes secciones: en la sección 2 se describe la arquitectura desarrollada, en la sección 3 se detalla el proceso de aclarado de errores de los datos extraídos y en las secciones 4 y 5 se describe las técnicas

Page 71: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

utilizadas para analizar las estructuras de las JISBD, la red social y las áreas temáticas.

2. Arquitectura

En un trabajo previo [3] se presentó una arquitectura que integraba todos los procesos necesarios para descubrir conocimiento, desde la extracción de información, hasta los procesos de análisis y de visualización. En la figura 1 podemos observar las distintas fases de la arquitectura. En aquella ocasión se aplicó la arquitectura para producir resúmenes de prensa con información extraída en distintos periódicos digitales y se expuso ampliamente, una metodología para construir un crawler/wrapper utilizando WebL [4]. Esta metodología se basa en dos políticas: la primera, indica al sistema de extracción cómo navegar y la segunda, cómo extraer los contenidos. Una de las características más interesantes de la arquitectura es el desacoplamiento del proceso de extracción de información, del proceso de explotación de los datos extraídos (análisis y visualización). Esto se ha conseguido haciendo uso de una Base de Datos Semiestructurada (BDSE). En este trabajo, se ha enriquecido la arquitectura, introduciendo nuevos módulos que permiten, corregir errores en los datos extraídos y analizar visualmente estos datos, aplicando la arquitectura a un problema más complejo, como es la exploración de áreas de conocimiento.

Siguiendo la arquitectura, se ha construido un crawler/wrapper, al cual se le ha indicado cómo navegar a través de DBLP y cómo extraer la información de sus páginas web. Posteriormente esta información se ha almacenado en una BDSE, la cual recoge la información sobre los distintas JISBD, en concreto se ha almacenado la información sobre los artículos, los títulos, los autores y las fechas en que se publicaron dichas comunicaciones.

Figura 1: Arquitectura del sistema.

Una vez extraída la información de DBLP, se han realizado tres procesos para conseguir la visualización de la información. El primer proceso ha consistido en

Page 72: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

filtrar los datos erróneos. Aunque los datos que ofrece DBLP sobre los autores son muy precisos, sobre todo si son comparados con otros sistemas bibliográficos como CiteSeer, hemos podido comprobar, que siguen existiendo identificadores de autores duplicados. Para la eliminación de estos errores se ha desarrollado una herramienta que permite buscar y eliminar dichos errores, ésta será descrita en la sección 3.

Una vez la base de datos ha sido filtrada de errores, en la fase de procesamiento y análisis, dos procesos se encargan de construir la red de Co-Autorias y de Co-Palabras, finalmente estas redes se analizaron visualmente. Para llevar a cabo esta última tarea, se ha desarrollado una herramienta que de forma visual asiste al usuario en el desarrollo y la exploración de nuevas perspectivas. Los procesos de análisis y visualización de las redes, serán descritos detalladamente en las secciones 4 y 5.

3. Data Clearing o Aclarado de Datos

Tras la extracción de la información de DBLP sobre las comunicaciones de las JISBD, descubrimos que existían algunos identificadores sinónimos de autores (identificadores escritos de formas distintas pero que hacían referencia al mismo autor). Por ejemplo “ Rafael Ceballos” , era un identificador sinónimo de “ R. Cevallos” . Este proceso de eliminación de errores es conocido como Data Clearing, en [5] podemos encontrar una revisión de las distintas técnicas de aclarado y así como su taxonomía.

Para eliminar estos errores se ha desarrollado una herramienta que calcula, a partir de los identificadores (en este caso, cadenas de caracteres), varias medidas de similitud entre pares de ellos. El objetivo de esta herramienta es facilitar al usuario la selección de identificadores sinónimos. Para ello la aplicación muestra los conjuntos de pares de identificadores, ordenados según su similitud. En la gran mayoría de los casos los identificadores con una alta similitud son identificadores similares, aunque no siempre. A partir de estas selecciones, la herramienta forma grupos de identificadores sinónimos, que luego son sustituidos por un identificador representativo de todos ellos, por defecto este identificador es el más frecuente, aunque el usuario puede cambiarlo por otro o crear uno nuevo. Salvo la selección de los pares, el proceso es totalmente automático.

Inicialmente la BDSE disponía de 539 autores y se detectaron 38 autores con identificadores sinónimos (un 7%). Esta herramienta ha permitido la corrección de dichos identificadores y como consecuencia se ha conseguido disminuir aproximadamente en un 10% de las relaciones erróneas que poblaban la BDSE. Este porcentaje consideramos que es bastante significativo.

Las medidas de similitud utilizadas en esta herramienta, se basan en el algoritmo de la subsecuencia común más larga a dos secuencias, técnica de programación dinámica de complejidad polinómica. En nuestro caso las secuencias eran las cadenas de caracteres de cada una de los identificadores. Seguidamente mostramos las definiciones de las métricas utilizadas:

Page 73: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

),min(

),(1

yx

yxscls = ;

yx

yxscls

+=

),(*22 ;

yx

yxscls

*

),(3

2

= ; ),max(

),(5

yx

yxscls =

3*33.02*33.01*33.04 ssss ++=

En estas definiciones ),( yxscl es el algoritmo que calcula la subsecuencia común más larga a los identificadores x e y, y el cardinal representa la longitud de los identificadores. También es posible utilizar otras medidas de similitud entre cadenas, como Levenshtein distance o edit distance, de coste polinóminco O(n*m), pero menos vulnerable a la permutación de palabras dentro de las cadenas, como por ejemplo el caso “Rafael Ceballos” y “Ceballos, R.” , y la distancia LikeIt [6] de coste O(n+m) y que resulta apropiada para comparar cadenas de gran tamaño (n y m son las longitudes de las dos cadenas).

El proceso descrito anteriormente se ha incorporado a la arquitectura y su utilización en diferentes BDSE ha sido muy efectiva, ya que el número de parejas de palabras con alto porcentaje de similitud es escaso y en cuestión de pocos minutos un usuario puede decidir que parejas de identificadores son sinónimas. En la figura 2 se puede observar el proceso de selección ofrecido por la aplicación.

Figura 2: Proceso de selección de identificadores sinónimos, ordenados por la métrica s1.

Aunque el cálculo de las medidas de similitud para todas las parejas de identificadores en las BDSE tratadas es razonable, consideramos que este cálculo puede ser muy costoso en BDSE de mayor tamaño. Proponemos como trabajos futuros, la utilización de la información contextual que nos ofrecen estas redes, para mejorar el rendimiento del algoritmo, así como automatizar el proceso de toma de decisiones, utilizando técnicas de clustering.

Page 74: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

4. Red de Co-Autorías

Una vez filtrado los datos erróneos de la red, se desarrolló un proceso para calcular la red de co-autorías, posteriormente esta red fue analizada visualmente. El objetivo de esta técnica es la representación de los colegios invisibles que se forman en las distintas áreas en su etapa de madurez. En el trabajo [7] se definen los colegios invisibles como “ círculos de investigadores influenciados por unos pocos investigadores de alta productividad” . Existen varias métricas para representar los colegios invisibles a través de las relaciones entre los autores: métricas basadas co-citas [8] (número de citas conjuntas que reciben dos autores), métricas basadas en la centralidad sociométrica y métricas basadas en la distancia geodésica [9]. Finalmente se decidió que la técnica más apropiada para representar visualmente los colegios invisibles, a partir de los datos disponibles, era representar la red de co-autorías de las JISBD en forma de sociograma [10], para ello utilizamos como métricas, el impacto de los autores y las co-autorías entre autores, definidas como:

ia de nesPublicacio#)impacto( =ia

jiji ay a autores los entre conjuntas onesColaboraci#)a,acoautoría( =

donde ai y aj representan a dos autores distintos y # representa el número de publicaciones o de colaboraciones conjuntas. Para una revisión de las técnicas de visualización de las co-autorías se puede consultar [11].

Recientemente se encuentra disponible una herramienta, DBL-Browser, que permite la consulta offline de bases de datos bibliográficas digitales, como DBLP, esta herramienta no sólo permite la consulta de las fichas bibliográficas de los autores y navegar a través de ellas, sino también implementa algunas metáforas visuales basadas en el ego, por ejemplo, permite visualizar la producción temporal, diagrama de barras, y las colaboraciones realizadas por el autor, sociograma. A diferencia de esta herramienta, la herramienta de visualización que se ha desarrollado en este trabajo, permite una visión holística, a partir de la cual podemos modelar la red, pudiendo crear distintas perspectivas de la misma.

Seguidamente presentamos los procesos utilizados para obtener los mapas que se exponen en este trabajo. Nuestro primer objetivo fue construir un mapa holístico representativo de la comunidad de las JISBD, para ello seguimos los siguientes procesos: • Partiendo de la red completa, observamos que debido al gran número de nodos y

relaciones, alrededor de 539 nodos y 1190 aristas, era imposible visualizar íntegramente la red. Nuestra primera decisión fue calcular las redes conexas, y de entre ellas, seleccionamos la red con más nodos, 328 de los 539 autores, considerándola como representativa del núcleo de la comunidad.

• Aún así el número de relaciones, aproximadamente 814, era excesivo para una visualización adecuada. Por tanto para visualizar correctamente la red, generamos un árbol de expansión mínima, permitiendo un 3% de redundancia en las

Page 75: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

relaciones. La selección de las relaciones se realizaron por orden de importancia. En la figura 3a podemos observar la escena final.

Nuestro segundo objetivo fue observar los autores con más impacto en las JISBD, así como los autores que trabajan con ellos, para ello seguimos un proceso semejante al anterior, que resumimos a continuación: • Para obtener una visión óptima de la escena, seleccionamos los 121 autores con

más impacto del núcleo y realizamos un filtrado de las relaciones, generando un árbol de expansión mínimo con un 6% de redundancia (figura 3b).

Figura 3: a) Imagen holística; b) Filtrado de los 121 autores más importantes.

• Para finalizar decidimos aumentar el tamaño de las etiquetas de los 7 autores con más impacto. El resultado final de la escena lo podemos observar en la figura 4.

Figura 4: Escena final de los 121 autores con más impacto de las JISBD.

Page 76: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

Respecto al algoritmo para la distribución de los nodos en la pantalla, se ha utilizado el algoritmo de Kamada-Kawai [12].

5. Red de Co-Palabras

El objetivo de la técnica de las co-palabras, es la identificación de focos o centros de interés, así como las relaciones que existen entre ellos. Estos focos o centros de interés son asimilables a las áreas temáticas que componen las JISBD. Y nuestro objetivo es producir una serie de mapas, a partir de la información obtenida con esta técnica, que permitan comprender la estructura temática de las JISBD. Esta técnica han sido ampliamente analizada en [13,14,15] y en [16] podemos encontrar la descripción de una herramienta, Leximap, que utiliza esta metodología junto con técnicas de análisis de lenguaje natural (NLA). Los fundamentos de la técnica, se basan en la construcción de una red de co-palabras, a partir de un conjunto de documentos o de sus títulos y resúmenes. La red de co-palabras se compone de nodos que representan las palabras y de aristas cuyos pesos representan las co-ocurrencias entre dos palabras. A diferencia de la técnica clásica y debido a la baja redundancia de los datos disponibles, pues solamente disponemos de los títulos de las comunicaciones recopiladas, asumimos en este trabajo que los términos más frecuentes son los más importantes. Las métricas utilizadas son las siguientes. :

artículos de en títulos sAparicione#)impacto( =iw

artículos de en títulos y w wpalabras las de conjuntas sAparicione#)aparicion(co ji, =− ji ww

donde wi y wj son dos palabras o tokens distintos y # representa el número de apariciones o de apariciones conjuntas. El proceso de producción de estos mapas temáticos también difiere de la técnica clásica y consta de las siguientes fases: • Determinar y normalizar los tokens en que se dividen los títulos. Por ejemplo, el

título “ BD-Web: una propuesta metodológica basada en UML y XML” sería normalizado como “ db-web una propuesta metodológica basada en uml y xml” .

• Eliminar las palabras huecas (palabras sin significado léxico) a partir de una lista de palabras huecas. Por ejemplo, el titulo normalizado “ db-web una propuesta metodológica basada en uml y xml” se transformaría en “ db-web propuesta metodológica basada uml xml” .

• Búsqueda de bigramas y trigramas, como estrategia para disminuir el número de nodos y relaciones implicadas con la objetivo de mejorar su compresión. Para ello, en un primer procesamiento de los títulos, se buscan las parejas de palabras con frecuencias de co-ocurrencia extraordinarias, para conseguir esto, se utiliza el test estadístico de detección de outliers, definido como:

xSX *3)w,waparición(co ji +>−

Page 77: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

Donde X es el número medio de co-apariciones y xS la desviación típica de las

co-apariciones. A partir de esta información se calculan todos los posibles bigramas y trigramas. En un segundo procesamiento de los títulos, se convierten en tokens los bigramas o trigramas encontrados en ellos.

• Paralelamente, al segundo procesamiento de los títulos, se calcula el impacto de cada uno de los tokens y el número de co-apariciones conjuntas en los títulos.

• Finalmente el proceso seguido para la generación de los mapas temáticos, es similar al descrito en el apartado anterior. En la figura 5 podemos observar los resultados.

Figura 5: a) Red de términos; b) Proceso de selección de las redes conexas. Selección de la red conexa 6; c) Red conexa 0, núcleo de la red de términos; d) Escena final de la red de términos.

6. Conclusiones y trabajos futuros

Como conclusiones destacar dos, la primera, es que los recursos disponibles en Internet se encuentran aún poco explotados. La causa principal es la falta de integración de las distintas tecnologías implicadas en el proceso. Por ello, en este trabajo hemos desarrollado una arquitectura que soporta todas las etapas necesarias para analizar y visualizar la información extraída de Internet. Podemos denominar a este tipo de arquitectura como Internet knowledge summarization, analysis and visualization iK-SAV.

Page 78: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

La segunda de las conclusiones, es el potencial que tienen las técnicas análisis visuales de redes para el desarrollo de aplicaciones interactivas, que faciliten las tareas del usuario final. Como ejemplo podríamos citar: la exploración de foros de discusión, la construcción de crawlers especializados en buscar determinados tópicos, así como para el desarrollo de redes de contactos o la difusión de nuevas innovaciones.

Con respecto a los posibles trabajos futuros, esperamos mejorar el rango de análisis que puede realizar nuestra herramienta. Podemos destacar la importancia de implementar algoritmos de clustering, que permitan la construcción de mapas jerárquicos y que faciliten la exploración de las redes. También sería necesario mejorar la aplicación para que permitiese la visualización de redes más complejas donde se mezclen distintos tipos de entidades. En ellas, su filtrado podría realizarse a partir de los atributos almacenados en las entidades y/o relaciones.

Referencias

1. W. J. Frawley, G. Piatetsky-Shapiro and C.J. Matheus. Knowledge Discovery in Databases: An Overview. In: G. Piatetsky-Shapiro and C.J. Matheus. Knowledge Discovery in databases, pages 1-27, MIT press, 1991

2. Bent Hetzler and Paul Whitney and Lou Martucci and Jim Thomas. Multi-faceted Insight Through Interoperable Visual Information Analysis Paradigms. In: Proceedings { IEEE} Symposium on Information Visualization 1998.

3. F. de la Rosa T., Rafael M. Gasca, Carmelo Del Valle, Rafael Ceballos: Arquitectura de un Crawler para Extraer las Estrcturas y Contenidos de Recursos Electrónicos. JISBD 2002: 259-269

4. Thomas Kistler and Hannes Mariais. WebL – A Programming language for the Web. Computer Networks and IDSN Systems (Procceding of the WWW7 Conference). Volume 30. pages 259-270. Elsevier.1998.

5. E. Rahm and H.H. Do. Data Clearing: Problems and Current Approaches. IEE Bulletin of the Technical Commitee on Data Enginnering. 23(4), 2000

6. S. R. Bus, And P. N. Yianilos, A bipartite matching approach to approximate string comparison and search , NEC Research Institute Technical Report, 1995.

7. Derek J. de Solla Price. Little Science, Big Science. Columbia Univ. Press, New York, 1963.

8. Henry Small. Co-citation in the scientific literature: a new measure of the relationship between two documents. Journal of the American Society for Information Sciences 24, pp.265-269, Jul-Aug 1973.

9. José Luis Molina, Juan M. Muñoz Justicia y Miquel Domenech. Redes de publicaciones científicas. Un análisis de la estructura de coautorías. Revistas Hispano Americana para el Análisis de Redes Sociales. Vol1. 2002

10. Moreno, J. L. (1934). Who shall survive? New York: Beacon Press. 11. Chen, C. (2003) Mapping Scientific Frontiers: The Quest for Knowledge

Visualization. Springer. 12. Tomihisa Kamada and Satoru Kawai: An algorithm for drawing general indirect

graphs. Information Processing Letters 31(1):7-15, 1989 13. Callon, M., Law, J., and Rip, A. (1986). Mapping the dynamics of science and

technology: Sociology of science in the real world. London: Macmillan.

Page 79: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

14. Callon, M., Courtial, J.P. y Laville, F. Co-Word analysis as a tool for describing the network of interactions between basic and technological research: the case of polymer chemistry. Scientometrics, 1991, vol. 22, nº 1, p. 155-205.

15. Coulter, N., Monarch, I. & Konda, S. (1998). Software engineering as seen through its research literature: A study in co-word analysis. Journal of the American Society for Information Science, 49(13), 1206-1223

16. Ira A. Monarch. Information Science and Information Systems: Converging or Diverging? 2000. http://www.slis.ualberta.ca/cais2000/monarch.htm

Page 80: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información
Page 81: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

��*���������6����������������������

������������%������+����������

����������

�B6����G�6������H����������������*�����������������������/DDFE�

Page 82: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información
Page 83: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

+"��������8���������������������/���������5��������������/���������5��� �� ����

;��;���������� ��2����������,������������(�� �6�

2���� �D���"����L������,������������(�� �7�����L��� ���1 � ��,������������(�� �8�

;�������+� ����D�������,������������(�� �9�

�-������

�#��������#����������G�F��������������#������ ������G�F�G#�#���� �������#����� �������#�������������������G�F������������� � ��� �����#�������G���������#��������������AG������ ��������#���G�#��#����� ��������� ����G�F���1�������� �� �� �#�� ������� �� ������ �� �������� �� ��� >��������� � �������?� #��� ���� ��������#��F�����#������������ ���������� ���� ���������������#����� ���#�����G�F�� ���� �� ���G�F� ���� �� � ������� ��� �� ���� ����� ����� �#�� ��������������� �� �#�� �#������ � �����G�F� G � � G� �� ������� ������������� �� �#���������� �� ������������ ��� ���#�������� ���G�F���)���#�� ����&��� � ��������� ������������#������������������������#������ ��&� ��������#�����G�F�����G� ���������������#������������#�������������G#�#���� ���#���������������������� ��������G�F�������#����1������������&��� ��������� ���� ��������#���#������ ������G�F���#����� ����G�F����#��E���� ���(��G���������������������� �����.E)(/�3�����������������#��� ������� ������ �����������A���#��#�����G�F���

M�:�0I2�(��(�� �4��G�F�1�� ����� (�������� �1�� ����� (�������� ����������'AG���1�� �����-���������4��G�F���� ����+��� ������'A1��#����������������(��������

�7�(978�

� � $������ ������������� �$���� ���������������������������������� ���� ������������� ��� ���� ���� �� ��� � ������ �� ����� � � ��� #�� �������� � � ��� ��� ����� � ���������������� ���� ��������������� ����'������ ����������������������#��� ������������������������������ ������>������������������� ��?��'������������������������ �� ����������� �� �����������������"� ��� � ������������������������������$��������� �"������� ����������������������������������������$��� �� ���������� ��� �� ������� ��� �� ����������� ���� ������������������������������������&���������� ���� ������������ ��������������������� ����������$���� ������������������&� ���������� ���� ������������"���������������� ���������������������������������������������� ���� �"���������������������'���$��� ����������������� ��������� ��������������������������� ��� �� ���� � ��� � ��� �� �������� ����"���� ��� ��� E������� ��� )������"�� �� �(��G������/�������������.E)(/�3�� ����������������������������A����"�����

-1�1/21(� '�1+��� 1�� ��� ��� 2����� (�� ���� 1�� ��� ���������� �� ������������������� ���� 1�� ��� ��� -� � ���� 1�������� -�������� �� �"��� ��� 2����+��� �������'A����"��������������(��������

1 ��������������$�����(�������)�������������������������������������[ ������� 2 ��������������$�����(�������)������������������������������������[ ������� 3 ������������"��1� �����)����������������������� ����[����� 4 ������������"��1� �����)������������������������� ���[�����

Page 84: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

�����������

� � ��� ��� ���������� � ��� ������ .'� �����G�K�2���6<NHC�'� ���'������K�

��� ��� 6<<6C� '� ����� D����#� K� M����� 6<<NC� D����#�� 7BBB3� � ���

������������������������������������������������������������������ �

��� � ��� ���������� ��� ��� ��� �������� 6���������� ������������7�� ���

�������� �$���������������� �����������������������������#����������

����� ��� ���� �� ����������� ��� ��� ��������� ��� ��� ������ �� ������ ��� ���

��������� �������� �� -�� ��� ���� �� ��������� ���������� ��� ��� ����

#���������������� �������������� �� ��������������������������������

������������������ ����� ���� ������ ������������������ ������������ ����

��"��������������� �������

��������� ���������������� �������������������������������� ��� ���������

������������ ����������&� ���� ���������������������������$��������

��������� ������� � ��� ���� ���� .������� ����3�� �� �������� ��������

�&� ���� ������������������� ��� ��������� ���� ���� .�������� ����3��1�

������ ��� ��� ���� ���������� ��� ��� ��� ����� ������ ��� ���� ����� �� ��

��������������� ���������������������� ����������� ��������� ��

����������������� �� ��������� ��������� �������������� �� ��������

'�� ��� ������ �� ���� ������ ��� �� ��������� ���������� ���� ��� ��� ���

�������� �� ��������� ��� �� ��������� ������������ -���� � �� ���

���������� ������������ ��������������5 ����."���������#��������������

�&�����3����������$��������������.������ ��������������������������3�

�� ������ ��� � � ����� �� � ��� ��� ��� ������ ��� ���� ��� ����� �����

��������������� ���������������������� ��������

���� ��������������"�� ������"������������� �������)�����������������

�� ��������� ��� ��� ���� ������������ #�� ���� ��� �� ���� ���� ��� ���

������� ������ ������� ��� ��� ������� ������ ����� ��� ������ ��� �A����"����

-�� ���� ��� ��� ������ ��� �A����"���� ��� �� �� ��� ���� ���� ��� ���

���������������� �������������������������������������"������������

��� �� ���� ����� ��������� ������ �� ���� ��� �A����"��� ���������������

��� �$�� ��� �� ������ ��� ��� ���� �&����� ������ �� ��� ��� ��� ����

Page 85: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

��������� '�� �$��� � ��������� �� � ��� ��� �������� ���������

���������� ��� ����������� ��� ������ �� ����� � ��� �� ��������

������������� �� ��� E������� ��� )������"�� �� � (��G���� �� /����� ��� �����

.E)(/�3�� -���� � � ��� #�� �&���"�� ��� )��������� ��� ����� ��������� ��� ��

������������G ����� ����������� ���������� ������������� ��������

�� �������������/�-6�.���� �/ ����#�K�� �����-�$���3��

1������ ������ �������� ���� �� ������� ��� ��� ��� ���� ��� ��������� �� � ���

�� �� ������������� ���� �������������������������� �� ���������� �����

������������������������ ���������� ����������������������������"���

���������� ��� ����� ���� �����������"��� ��������� .�������� �� � ������

�������G� �����"�� ���� ���������� ����������������������������3������

�������� ���� ������"��� ��� ��� �� ������ �&�������� ������ ��� ��������

��������� .�� ������ ��$����� � � � ������� ����������� ��������

�� �����������������3��������������������������������������������� ����

�������� ���� ����� ��������������������������� ����� ���������������

����������������� ���� ��������������������������������������G� ��'��

$��� ��� ������ ���� �� ���� ����� ������� �� � ���� ��� ����� ��� �$��

#� ������ ������������� ��� �� ������� �� �� �������� ���������� ��

������������������������ ��������A����"������� ���������������� ���

����������A����"����������� �����������

���������� ������� �� �������� ���������� �� ����������� ��� ����� ��� �$� ���

��������� ����������������������

• �������� ��������� ��������������������� �����&������������������

���������������� �$��

• �� ������������ ��� ���� ������� ��������� ���� �� ����� ��� �� ���� ��

������������������������������������� ������������ ����

• �� ������������ ��� ���� �������� ��������� �������� ���� ����� �� � �

��� ������������������������������ ������"���� ������������ ��� ���

���������� ��

1 �/�-�������� ����������������������������������� ��������� �������� ��� ������������������������������������ ���'�������(������

Page 86: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

• ����� ���������� ������ ��������� �1��&�)��X������� �$��������������

���������������� �� ������������������� ���������������� ���������

�������� �$��

9�����������

�������������������������� ���������� ���������������������� ���� ������

��������� ����� �������� � ��������������� �$��������� ��������� ����

� ���� �������� � ����������������������� ���������������� �����������

�������������������������������� �

8�������

���������$�����������.������3��+���������$��������������.�� ������

����A����"��3��,�������������� ������ >=< EVG , ��(�����������/����������

���&�� ��"� ��� ��� ����� �� ������������ ����������� ���� ���� ��� �� (��

������� ��������������������

6�������������������+�����

���

∉∈

=Ejisi

EjisiAij ),(0

),(1

�����8���9∈,�������������&�������������������� ���� ���������������+�����

����������������������+�������������������������������:+:�������:+:�� �

����!�������� ������ ���$����+���

� ���$�����������"������� ������6������

}1|{ =∈= ivAVviN

��� ������ � �������������� � �� �� ������ ������������ �

����������������������

jiijg y nodos los entre mínimos caminos de Número=

kjig ikj nodo elpor pasan que y nodos los entre mínimos caminos de Número* =

����������������������#������/�����

jiijD nodo al nodo delllegar para necesarias aristas de mínimo Número=

Page 87: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

' ������������� ������/����������������������� �����������+���4������

/���������������

� ������ ����#������� ��� � ��� ������ ���� ��� >=< +++iii EVG , ��

�����

}{iiNiV ∪=+

{ } }|),{(|),( iNkkiiNwiNvwviE ∈∪∈∧∈=+

��� ����������#������� ��� ��!� ������ ������� >=< −−−iii EVG , ��

������

ii NV =−

{ }iii NwNvwvE ∈∧∈=− |),(

��� ��������������������/���������������;<���� �����=�������

��$��������� ���������&���� ������/�������� ��J��������������

�����������������:�:��� ��J���������4����� ����� ��������

��� ��� :��:�� � � ���/���� � ������� � ������� =�� ��� $8�9� �� � �

���/������������4������� �������=����� ���������������

���4��8�9 ��

9�������� ������������ �

-���� ��������� �� ���� ���������� ������� ����� ��������������� ����

��������������������������������������� ���������� ����������������

������� ��� ������ ��� ��� ������ � ��� ���� 63� ��� ���� �� � �����

� �%� ������������������ ���������������������������� ������ ������

��� ����� 73� ��� ���� �� � ����� ����#������� � ��� ���� ����

������������ ������������������������ ���� ��� �������� � � ��$�������

�����������>���

1������������&������ ����������� � �����

Page 88: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

• ��� �/����B�������� �C� ��������� ���������� �������������� ������

� ���������������� ������.��������� �������� ��������� �����������

�����������������3��

�=

=V

jiji Df

1, Vi ∈∀

• ��� �������� � ������ �� B� ������� � ������ ���� ��C � ��� �

.;��������6<@<3D��� ����&������� ������� ���������������� ������

.���������� �� �$��"�3��

ii f

c1= , Vi ∈∀

• ��� ������� � �� �������� B��������� ��C � ��� � .-���� K� /����

6<<<C�/����#��6<@73�-�������������������� ������������� ����

�� �� �������������� �� �����'������L��� ���� ��� �� �� ������������ �

������������������ ��������������������������5�� ���� �������

10)1(1

<<+−= �−∈

γγγ siendoV

aa

iVj j

tjt

i

�����tia ���� ������������ ���� ����� ������������������ �����������

������������������������ �������� ������ ������� �����������γ�

;�?�� ���� ��������� ������� ���������������� �����������"��� ��

������� � ������������� ��������������� γ�;��� ���� ��������� ��

������ ����#��"��������������� ������������� ���$�����������

�������

• 7 ������������������B%��D���������>C� ���>�.;��������

6<@<C�/��������7BB63��V����������������� ��5��������������"����

�������������� ����@���

�<<

=jki ij

ikjk g

gg

*

, Vk ∈∀

Page 89: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

-����� ������������ ���������������������� �� ������������

• � �����B��������C� ����.;��������6<@<3��5���������������� �

������

�∈

=Vj

iji Ad , Vi ∈∀

• ��������B�������/�)C� �������������������������&�����������

�� �������� ����� ����������������� ���$��������������� �������

( )1*

*2

−=

−−

−−

ii

i

iVV

ED , Vi ∈∀

• ������������B����������C� �����./�����6<<7C�/�������6<<@3��

����� ����������#�������� ���������� ��������

=i

i

iV

Er

*2, Vi ∈∀

��� �����'� �%��������������� �������='� �%����

� � $���� �� � ��� ��� ��� ����� � ���� �������� .'� �����G�K�2���6<NHC�

'� ���'������K���� ���6<<6C�'� �����D����#�K�M�����6<<NC�D����#��

7BBB3���� �������������������������������������������������������

������� ������#��� ��"� ��� ��� �� ���������� �&����� ������ � ��� �����

���������� � ����� ����������������������� ��� ��������������

�������������� ��� ���� ������ ����� � ������������������ �����������������

��$��������������������������������� �����������������������

1� ������ ��� ����� ��� ��� ��� ������ ��� ��������� �� �� ��� �� ��

�� ���� ��B���������������#�����C�� �� ��� ��� ��� ����������� ���

�� ��� ��� ��� ��� ��� ������ �� ����,� ��� ����������� ��� �� ���������

��������������������� �� ���������� ���������� � ��������� �����������

���������� ��$������� �����������������������������������������

��� $������#����� ���������������������� ����

Page 90: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

� ���� ������ ����� � ������������������ ��������������������� �� ���� ������

��� �������� ������ ��� ���������� �� ����������� ��� �� ���������

������������(������������������� �����������������������������

�� �� � � � �� � �#��������1� ������ �� � ��$���� ��� ���������� ���

���������������������� ���������� ������������ � ���������������

������������� ������������ ����� �����������������������$������������

.��=����������� � ��=� �������C� ������� ��� � ������� �4��"� ������ �

��������������� �������������������

1)(),(02

≤==≤ji

ijji cc

ckSwwS

����� 0��� 0�� ��� ��� �������� ���� ��� � � �5���� ��� ��������� ��� ����

�����������$���������� ���������0����0������������ ��5����������������

��� ���� �������� �� �� � ��� 0�� .��������������� ��� ��3�� '�� �������

� �����������(80��0�9������ ��� ���&�������#8@9�������@���� ����������������

����� � ����0����0���

'�����������������B�������� ����C����������������������������������

������ ��������� �������� ��� ����������� ��� ����������� ������ ��� ��

������� ��� ������� �� � ����� � ��������� ��� �� ���� ��������� -���� � � ���

������������������

63��� ���� ���������������������������� ���������������������������

������������������ ������������������������������������ � �����

���������'�� ������������ ��� �� ��������� ��� �� �� ������� ��

��������������������������

73����� �� ������ ������ �������� ��� �������� ��� � � � �� ����� ��� �A

��������������&����������� ���

� � ������ ��� ���������� ��� �� ������ ��� ��� ��� �������� ��� ������ ���

�������������� �����������������

;����63�(� ������������� ���������� ��� ����������� ������������ �������

�� � ��� ����������� � ����������������������� �� � ��� �A����������

Page 91: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

)��� ������ � � � ����� ������ �� ����$�� ��� �� � ���� ��� ����� �A

��������������� �������%J�4��������F����������!��������������

�� ����������� ����� 5������� ������ ����������� ��� ������� �������� �A

���������� ��� ��� ��� ���� �� 5������� �� ��� �5���� ��&�� ���

�������������� ���������������������������������������.�"���������

������6J���7B�������������7B���7J��� ����3��,�������������� ����������

� ������� ������ ��������������� ���������������������������#�����

�������&����������� ����������� ��������� ��� �� � ��� �.A��������

�����3���

;����73�(� ��������������!�������������������������!�����������������

����������� ��������������� ������������������������������������

�� ������ ��� �� ������ ��� �� ���� �&������ ����� ��� ������ ��� ��� ���

�������� ��� ����� ����������� �� ���5�� ��� "����� ��� ����� ������ ���

���������������� ���������������������������� ��������������� �

�������������������������� �������������������������&��������

�� ��������� ������������ ������ ��������� ��������������������

�� �� ��������� ��5������&������������������������������������

��������#���������#��� �� �������� ��������������������� �������

�����������.A�������� ����B3��

*�����+�*���+�0� �����������������,�

�������������)��������7�����#�����B������� ����C����� �����������

��� ������� �� �� ����� ��� �� ������ ����������� ��� �� ������� ���������

.�����3� ������ ��� �� ������ �������� -���� � � ��� ������� ��� �������

Page 92: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

������� � ��� �� �� ����� �� �������� ��� �� ;����6� �� ;���� 7� ��� �� ������

��������

• M���� � ��F����� �!����� � ������ �� � ������� =�� ����

'�������� ����� ����������������������������� ���������������������

�������'������������������������ ������� �������������������������� �

������� �"���������� �� ������

)(

)()(

iOut

kS

C iOutki

�∈=

• M���� � ��F����� ������� � ����� � �� ������� =�� /���

'��������� ����������#������� ����������'������������������"������

���� ��������� ����� � � �������� ����� ������ ����� �� ����������� ��� � �

������ -�� ��� ���� �� � � �� �� ���� ���� ��� �����!� ������� ���� � �

�������� ����� �������� ��� �� ������ �� ��� ���� �� ��� ������� �����

� ���������������������#���������������������������������"���

������������(���� �� ������

�∈

=)(

2 )(iInk

i kSD

�� ������� �� � ������� ��� ��� ��� ��� �� � ���� ��������� ������� �����

����������������������� � $���������������������������� ���� ����

�� �������������&����

1���������������"�����6�������������� ������������������������ �����

����������� ������������������������������������������������ ��$��

X � �� � � �$�� Y � ������������ �� ������ ���� �� �� �������� �������������������

������������ ������� �������� ������ �������� ����� #���� ����� ���

������� ���������� ( )YX , ���� ���� ������������"����������� "������� �

��&����� ��"������ X ������ Y ��'������������������������������������

����������������������������������

1 D����#F��� 7BB9� ������ ��� ������� � ���������� ����� � � �� �� � ��� �� ������ ���� �� ��

�������� ������������ )1(

)(

−=

H

iOutC i

)1(*

)(*2

−=

iii HH

iInD

Page 93: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

)��������7�����#��������������� ��

,��� ��� ��� ������ ��� ���������� ��� ����� ��� �$� ��� ���� ����� ���

���� � ��������� ��������������������� ������������ ���������������� ��

������������������������������������ �"������������� ����������� ��

���������� ����� ������������ ����������-����� �������� ������������ ���

� �"������������� ��������������������

1)(),(02

≤==≤ji

ijji AA

AkSaaS �

����������������������������������� �����C�&�������� �������� ���� �����

�������������C���&��� ���������� ��������������� ����� �������� ���������.���

�������� ����������3��-����� ����������� ������������������A����"���������

���������� �����"��� ��� � � �5���� ��� �� ������� ��$������ ��� ���

���������� ��5������� ������ �������������� ��������������

/�������� ��� ����� ���� � ���� ��� ����� �������� ��� #���� ��� ��� ��

���������������������������� ���� �������������������������� ���E)(/���� �

��������������������� ���E)(/�����#��������������������� ����������A

����"��������#���$��������-������������������������������ ���������

������ ����������#���$�������������6<<H�#�����7BB8������ ����� ������

����A����"������� ���������� �� � ������������������������������ � �

����������������������#����������� �"������������� ��������� ���������

��������=�����������

��

���

=jaia

jaia

ijca yautoreslos entre conjuntanpublicació existe si 1

yautoreslos entre conjuntanpublicació existe no si 0

� ���������������������������� ��������������������#�������������

6�� ���������������� ������������������.L����K�4�G�����7BB73��

7�� � ��� �� ���� ��"����������#�����.D����#F���7BB93��

8�� �� �� �������������� �� � �������� ���������� .'� ��� ��G� K� 2��� 6<NHC�

'� ���'������K���� ���6<<63��

Page 94: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

��� �� A������ B� ��� ������ �� �������������� ��������� ���������������

������������� �� ������ �������� ����������������� �������:���� ��

A������C�������������� ���������������������� ����������������������������

�������� ��� �� ��� �������� ��� �"��� �� � � ���� �� � �"��� � ���

��������������� ��5������������������������������������������������ �

�������C� �� ��� �������� ������ � ��� �� ������� ���� �� �������� �� �

�������������������������� �������������������������������

'����� ��������� ��A������C� ������������� ��������������������!����

������������ ������� ���� ������ ����� ��� � � �5���� ��� ������� ����

���������� ���������������������������(��#�������������������

������������������������"���������������������������������������������

� ������������ ������������ ���.;����F���6<N6C�4���$����6<@8C�(�$������

6<N63�� �� �� �� ����� ����� ��� ������ �� �� ���� � � ����� ���� ��� ���

���������������������#������������� ������ ����� �������� �����

��������������������������������� ��A������D���

*�����0������������ ��;��-),6������������������������������� ������� ��,

Page 95: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

*�����1�)�������������#����� ��������� ��;��-),7 �/�H��� ������� ������� ���� �/�N� ������,

Page 96: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

�*����� 5� )������� ������#���� � �� ;��-), 7 �/� H� �� ������� � ������ �� � � �/� N� � ��������� �������,

�������������������������������������������������������������� ��

����� ��� ���� ��� ������������ �� ������ ���� ������� ��� ����� ���

����������������������� �$������� ��� ��������������������������� ���������

��� ��� �������� ����������� ��� ����� ������ ��� ������ ���� ��������� ����

����������� ���������������������� ������������������� ������������

���������� ����������,� ������ ��� ��������� ��"����������#��������

��������������������.A������D3��

• ���������������+��(��������������� ����������������������

� � -���� ��� �� ��� ������ ����� ��������� ����� ��� � �� ����� ���

������ � �� ���������� �� ������� ��� ���� ����� ������ �����������

��������� �������

• ������ � �������� 0�� (�� ���������� ��� �� ��������� ��� � ���

�������� �� �$�� ������ ����� ����� ��������� ������ ���� ������ �����

1º Cuadrante 2º Cuadrante

3º Cuadrante

4º Cuadrante

Page 97: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

-� � ���������������������������������������� ��5� ��������#���

����������������������������� ������

• ���������������1��(��������������� �����������������������

����� ��������� ������ ��� ���������� ���� ��� ������ ����� (��

������� ������������������ ��5� ����� ���������� �������

• ���������������5�(���������������� ���������������� ��������

(�������������������� ���������������� �� "�������� �������������

�������������������� ������������������������������

1���������� ��� ��������������������������������������"������������ ���

����������������������������������8A������E9��

• ��������� +�� -������ ����������� ���� ���� ��������� ��� ���� �� ����

� ������ ������������������������ �������� ����� �������� ������

���� � ������ ��������� �� ��� ������ ����� '��������� �� ����

��������� �������������� �������

• ��������� 0�� (������� �������� 2���������� ���� ���� ��� �"�� ���

���������������

• ���������1������������������� �$������������� ����������������

���� ����������� �������(����������������������������� �������

*�����E���������������� ����������������#��������������������������������"������

������� ,

/�������� ��� ��� ����� ������"��� ��������� �� ����������� ������������� ��

�������� ��� ������� ���� �� ���� ��� ��� E)(/�� ��������� ���� �������

��� �$�� �� ����� ��� ��� ����� ��� ������ ������ � ��� ��� ��� ��� �� ���

Page 98: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

������������ �$��������.'� �����G�K�2���6<NHC�'� ���'������K���� ���

6<<6C�'� �����D����#�K�M�����6<<NC�D����#��7BBB3������������� ������ ��

������� ������� ��� �� ������� ��������� .� � � �$� ��� ��������� ������

��������������������������� ��A������D����� ��#������ ��3��

)��������7��������� ������������ ��

1������ �� ��������� ����������� ��������� ���� ����� ��� ������ ��

�������������� ���� �������������������������#�����������������������������

���� ������������������������������������� ������������������

/����������� ����� �$����������� ���������������������� ���������� �

��� ��� ��� ������ ��� ��� .(����� 7BBB3� .��������� ������������� ������

��������������������3��������������� ���������� ������������ �$�

���� ��������������������� ������������������� ��������������� ���� ��

�������������� ������������ ����D������� ������������������������� ����

���������������������� ����������������������������.������� ��3�� ��

������������������� ������ ���� ���������������������� ��������������

�����������.������ ��3������������

• 1������������������ �����������������������

• ���������� ������������ ���������� ��������

-���� ����������������������� �$�������������������� �������� �� ���� ���

��������������������������� ������ ������������� ���E)(/����

1 ���� ����� ����������������������� ��������������������� ����������

�� ���� ��� ���� ��������������7��� -���� � � ��� ������� ��� "������� ����

������������������������� ���$����� ����������������������� �������� ��

"�������� ��������� ���� ���������������������������

• M�������F������!�����������B�/�HC�� �'�� �����"����� ���

�������������������� ������������������������������������ ���������

���� ��� �� ����� ����� � � ��� �� �� � ���� ��� ������ ��� ��� �������

� � ������������������ ���#����� ���� �������� ����� ������������ ��

�������������

Page 99: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

• M����� ��F����� ������� ��� ��� B�/�NC�� � '�� ����� "����� ���

�������� ������������ �� ������ �� � ��� �������� �� ��� ������ ����

������������������������� ������ ��� ������� ��������� ����������

�� �����������������#����� ����� ������� ��������������� ������������

1� ��������� ��� �� ��������� ������������ �� ��������� ���������� ���

��������� ����������� ������������������� ���� �������������������������

����������������� ������������������������������������ �����������

�������������������������������� ��������� �����������������������

���� �������������5� ���� �����'���$��� ������ ������ ����#��� ����� �

������������������ �����A��������������������A������������� ����� ���

#���������� ��������������� ����������� � ��� �������������� ��������

������������ ��� ������������ �������

2������� � � �������� ����A��������� ���� ���� ������������� �� ���� ��

����������$���������������� ���� ( )YX , �.��������3�����#�������

� � � ��� ��� ������ �������� ��� ��� ��� ������� �� �������� �������������

.A������F3���

• ������ � �������� +�� (�� ���������� � � -���� ��� �� ��� ������

����������� ���������������������������������������������

��������� ���������������� ��� �������������������������� �����

�������������������������� �������

• ���������������0��(��������������� �������� ���������������

�� �������� ��� �� ��������� ������� ���� ��������� �$�����������

��������������������������������� �����������������������������

�� ������ ��� ��������$����� ���������������������� �����������

�� ������

• ���������������1��(��������������� �������� ��������������

�����������������������������������������������������������

�� ������ ��� ��� ����� �����!� ��� ������ ������ �� ��� ��� ��� ��� ��

������� ��� ������������(�� ������� ��� ��������������� ��5� �� ��� ��

�������� ��������

Page 100: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

• ���������������5��(��������������������������� �����������

������� ��� ���� �������� �� ��� ������ ��� ���� �������� ���

������ ��������� ������� �� "����� ��� �� ���� ��� ����� �����������

���������������������������� �������������������������������

*�����>�)����������������� ����=�������� ��;��-),7����������� ������������������4�����"��������������������� ,7 ������ ������� ��� �����,

������������ ��� ��� � �� �� ����� �������� ������� �� ��������� ��� ���

������� �� � ���������� ���������� �� � ������ ������ ��� ��

��������� ��� ����� �� ���������� �� ������������ .D����� 6<893� ��"�

��� ���&� ��������� �������������� �������������� ��������������

����� ����� ��� #�� � ����� �� ������� ��� ������ �$\�5� ���

��� \���������������\���������������� \��������.A�������G���H3���

Page 101: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

*�����@�)����������������� ����=�������� ��;��-),7 �/�H��� ������� �����������/�N� � ����,7 �� ����� � ������ ��� ��/�O�J� ��� ��� O��� ���"���O���������������� �O ����#�����,6�� � ��F�� ��� �� ������ � � �/� ����� ����� �������� � �� � ��F�������� �������������� �� ���� ������������������ ���������������������� �/�,�

*�����<������������ ��;��-),6��������F���� ��������J� �� ����������������� ����������������� ����=�������� �*�����@,

-���� ����� �� �� � ��� ������ ��� ����� ����� ������ � � ����� ��� ����� ��� ��

��������� �������������������������������������������� ��� ���������

Page 102: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

����� ��� ��� ������ ��� �$��� ��� ��� ��� �A������ (��5�� �� ��� �$�� ���

./��� ��� K� 1 ����� 6<<<C� 4�G����� 7BBBC� /��� ���� 7BB7C� /��� ��"� K�

/��/�����7BB83��������������������������������������� ��������������� ����

• ����������� ���� �������������������� � �����������������������

��������� ��� �������� �������

• 7� ��� ���������� �� '���� ����� �� ���� ��� �� ���� ��� �� ����

������������������ ���������������5��������� ������-�����������"��

������ � ������������������������������������������� ��5� ��������

�������������������������������������������������������������1 �

��� ��������������������������� ��5� ��������������������� ������

������������������������ ���������������� �����������

������� ���� ���������������� ���� ���� �$����� ������.�����������

���������������� ��A������G����� ��#������ ��3��

• )��� ����#����� � ������������ 1������ ��������� ���� #��� �� ��

������#��� �����$�������������� ������ ��������� ������������1������

���������������������$���� ���� �������������� �$����

• )��� ����#����� � ������������ 1������ ��������� ���� #���

���������� ���� �� ������ ��� ���� ��� ��� ��������� ������ ��� ���

�����������

• )��� ��������� � �J� ���� 1������ ����� ��� �$�� ��� #��� ��

��� �������������� ���������� ����������������������� ������

���������������������������������"���

• )���������������J� ����1��������������������#�������������

������ ���������������� ������ �������$���������������

• )����J� ��������������������������������� ����� ����������

������������������������$�������� ����������������������� �$������

��������������� ��5� ����� �������

-������� ��� ������ ���������� ��� ������� ��� ����� ����������� ����

������ �������� �� ��������� �� ������ ���������� �� �5� �� ��� ��������

���������������� ������ ���������������� � ������� ��� �����������������

Page 103: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

� �$�����������������������������������������5� ������� �� ����������

����� �������&�������.A������G�� ��#�������������������3���

-�� 5 ��� ���������� �� �� �� �&������� ��� � � ������� ��� ��� ���

�������������� �� ����� ������� ��� ����� ���� �����"���� ����� ���� �� ��

��� ����� �������� �� �� �� �� �� � ���� ������ ��� ������� ���� ���"��

������������������������������ ������1 ���� ��������#���� ����� ��������

��������������������� ����������� ��� ���������������������������

�������� ������������������������� ������������ �����������������

�������������� ��� ����� ���� �� ���"���� ��� �������� ���������� �

������������ �� ������������ ���� �� �� ������������� �@�� ��� "������ ���

������������������������&���������������������.A������I3������������������

����������������������� ��������������

• ���������������+��������������������������������� ����������

������������������� ����������������������������(�� ����������� �

�5� ������������ ����������&� ���� �����������������������.���

�� A������ �?� ������ ���� ��� ��� �� ����"�� ��� �� ������� ����

����������� ������� ��������������������� � � �5� ������� �� ��� ������� ��

������3������������������������������ �������������������#%� ��

• ���������������1��������������������������������� ����������

������������ �� ���� �$�� ����������� ������ �����������(��"��� �������

����������������������������#��� �����$���� ���������� ������ �������

���������������������������� ��������������������������

��� �� A��������� ������ ������� � � �������� ����� � � � ����� ��� ���

������ ��� �� ���� ������� �������� ������ �� ��� ���� ��� ����

��������������

Page 104: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

*�����?�)����������������� ���������=�������������� ��;��-),7 �/�H�� ������� ��������������� � � N� � ���������, �� ����� � �������� ����O�����������P#%� �����O�����������P������,

*�����+A�)����������������� ���������=�������������� ��;��-),7 �/�H��� ������� ���������������� N� ����������,6��������F���� ��������J� �� ����������������� �����������=�������� �*�����@,�

1

3

1

3

Page 105: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

*�����++������������ ��;��-),6��������F���� ��������J� �� ����������������� �����������=�������� �*�����@,6���������� ��������F���� ��������J� �� ����������������� ����������������=�������������� �*�����?,�

I������ �����������#������������� ��� ������������ ����������������

������� ��� � � �������� ����Z�������� �� ����� ��� ����� ���������

�������A���������(���� �������� ���&�������������#������� ������

#���� �������� ������� �� ���� ��������� ������� �� ���� ���� ������������

�������������������������������������������.A��������B����C3���

Page 106: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

*����� +0� )������� ���������� �����=������� � �� ;��-), 7 �/� H� �� ������� ��������� � � N� � �����, �� ����� � �� ���� ���J� �� �������� �����������/�O��������+���� O��������0�"���O��������1������ �O��������5,

*�����+1������ �������� ����������� ��;��-),�� ������ ���������J� �������������������������������������������� �����=�������� �*�����?,��

�����������������.;����F���6<N6C�4���$����6<@8C�(�$������6<N63����

�����$������� ������������������� �����������������������������!��

������������ �����&������������� �$�����������$���� ���� ����������'����

����������������� ����������������������.���� ��$��� ���� ��A������

�D� ������ �������� � ���������������� �� ��������� � �!������������

Page 107: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

������������3���� ����������������������� ���� ����� ����������������

���������� �� �����������������������������������

*�����+5�7/�� �� ������ ���������"��� ������������������,

I�������������������������������������������������� ��������������

��� �#����� �&������ �� ������ ���� � �� ��������� (�� #�� �������� �����

�� ���� ������ ��� ������������� � � ���������� � �� �������� �� ��

����%� ������ ������������

������������� ���������� ����� .������ ���� � �������3� � �����������

� �� ��������������� ����������

• ���� ���������� ������� �������� ����.A��������F����G3����������������

��� ������� ��� ������� ����� �� ���� ������ ������ ���� ��������� -��

�$��� ���������� ��������������$������ ������������������ ����

���������������� ����������$������6����7�����������������������

����������� �����������5� ��������������� �������������� ���$����

�6��� ���������� �������������������� ���������� ��� � � ��$���� �7�

.A�������E3���

• � ��� ������� ������������������������������� ������������������

��������������� ������������������������������� ������������� ��

�������.A�������E3��-�����������������������������$�������$���� ��

$������ ������������������� �$��� �� �����������������������������

������������������ ������������������� �����

2������� �� �� ����%� ��� ��� ������������ � � �������� ���������� �����A

������ ����� ���� �� ��� ������� �� ����� ������ �� ��$����� �6� �� �7�� ��

������������������������������������������������ �����������������

���������������5� ��������������������������������������� � ����� ���

Page 108: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

.� ��#����� ���� ��A�������E3��(���� ����� � �������������� ���A��������

�������� ���� �� ���������� ��� ����� �� ������������������� ��������

�5���� ��� �� ����� ����� ������� �� ��������� ��� �������� �� �� ����

.A��������H����I3������������������������������������������� ���� ��

������������������ �������� �����

*����� +E� Q���� � �� ������� � �� ������� � ������ � � ���� ��� ���� �� � ����������������� ������� ����������,6������� ��� �������������� ���������������� ��� ������ ������� ������B����� ���������C,

C2 C1

C2 C1

Page 109: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

*����� +>�)����������������� ����=������ ��� ��;��-),�� ������ ���������J� ���������� ����������/�O�J� ������ O����������"���O���������������� �O ����#�����,

*����� +@� ���������� � �� ;��-), �� ����� � �� ���� ���J� �� �������� ����������������� ����������������� ����=������ ��� �*�����+>,

Page 110: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

*����� +<� ���������� � �� ;��-), �� ����� � �� ���� ���J� �� �������� ����������������� ����������������� ����=������ ��� �*�����+>,6��������� ���������� ���� �����I����� ������� �������� �� ����������������,

*����� +?� ���������� � �� ;��-), �� ����� � �� ���� ���J� �� �������� ����������������� ����������������� ����=�������� �*�����@,6��������� ���������� ���� �����I����� ������� �������� �� ����������������,

Page 111: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

���� �������

������ ��� ���� �������� ����"���� �� �������� $������ ��� ���� � ����

������������#���������������������� ������������������������������

��� �$��������������������������������������� ���������� ���������� �

�����������������"��6��1�������������� ����� ���������������"����

�&����������������������"�� ��� �5�������������� ������������������ �

������ ����� ������� ��� ����� �� ������ ��� �� ��� ������ ��� �� ��� �$��

����������������� ������� ��������� ������������#���������������������

�������������� ����������������� ���������������� ����������� �

�������������� ����� �$������"����������� ����������������������� ���

������������������������������ ������������ ����� ����������������������

���� ��� ���� ��� � �� ���� ������ ���������� ���� �� �������� �� ���������� ���

����������� ���������� ���� �������� ����� ������� ���� ������������ ��

�������!���������������������� �$��'���������������������� �$�����#���

������ ����������������������������������� ��������������������

��������� �����������������-�������� ������� �������������������

��� �� ��������� ���� �� �������� ����� ��������� �����������"��� ��

>� ���� ��� ��?� ���� ��� ������ ��� ������ ���������� ��� ��� ������ ���

��������� �� ���� ��� #��� ������ .( �� -����� 6<H83� ��� >�"��� �� ���

������������ �� �������� ��� ���� ���� ������������ ��� � ���

����������?��

��� ������� �� �� �� ���� ��� �� ����������� � �������� ��� ��� ���

���������� ��� ����� ��� �$�� �� ��� �������� � � ������ ��� ��� ����������

����"������ ��� ��� ������� ���� �� ����� ��� ��� ��������� ��� �� ���� ���

������ � ����������$�� ���������� -���$��� � ���� �������� ���"��������

������������� �������&����������� � ���������� �5�����������$�����

������ �� ��������� ��� �� ������������ ��� ��������� �����������

1 �������������������������������� ���������������&�����#������������������ ����������������� ����� ���������������������������������� ����������������������������������������

Page 112: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

��� ��������"��������&� ���� ��� �� �����������&����������� ����� ���

��� ��� ������ �������� � ����� �&� ���� ��� ������������ ��� ��� ��$���� ���

������� 0� �� ��� ������ � �����"�� ����� �&� ���� ��� ����� ���������

���������� ������������������

���� �������� ������������������ ��� ������� ��� �������� ���������������

����������������������������������� ����������� ������������������ ���

�������� ����������� �� ������� �� ��������� ������ ��� ��� �������� ��

��������� ������������ �������� �� ���������� ��� ��� ���������� �

��������� ��� ���� ���� .������ ��3�� �������� ���� �� ���������

���������� ��� �������� �� ������� ������������ ��� �� ������� ���� ��

�������.������ ��3�� ����� ��� ���� �� �� �� ������� ������ �������� ���

��� ���������

• ��� ��������� ����������� ��� ��� ���������� 5� � ����� ������������ ���

�������� ������ ��������������� �����������������������������

������� ������������ �������� ���������������������"�������

����� �������������������������

• ���������������������� �������A��������������������A������������

�!����� ���� ������ �������� �� �� ��������� ���������� ��� ��

����������������������������������� �������� �� �� ���������� ���

����������������������� ��������������������������������� ������

���������� �� � �. �����3��������� � �� �.� ��������3��1�"����� ��

�� ��������� ����� �������� ��� ��������������� ������ �������� � �

��� ����� ���&� ���������� ���� ����������������������������

��� ��������� �������� ��� ��������� �������� ������� �� ��� ��� ��� ���

���������� ����� ���������� �� ������� ���� �� ����� ��� ���� ���� ��

������#��� ����� �������� ����� ��� ��� �� ����� -�� �$��� � �����

���������� ���������������� ����������� ����� ����������� ������"��6��

������� $���� ���"�� ���������� �� ��� ���� ���� � �������� ������ ��� ��

������"��8��-���� �������� ����� ��� �� ��� ������������ ��"��� ���������

������������������������������������������������������������������ �

����� ��"��� ������#��� �� ���$���� ���������� ������ �� �������������� ���

Page 113: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

� � ������� ������ �� ������� ��������� ��� ��� �������� ����������

�������������������� ������������������������������ �����������������

���������������� ���������� ������������������������������� �������

������ ����������������.=��F�#����7BB83��

������ �������� �� � ����������������������$������������������ ���������

������� ���� ��������������� ������"��������� ������������ ���������

• ��� ���"�� ��� �� ���� �� ��� .L����������� 6<@83� �������� ���� ���

��������������� �����������������5� ������������������ �������� ���

��������������������������������������5� �������������������� ����

�����$��������� ������������� ������������������������ �$������#���

����� ��� ������� ���� �� ���� �� ��� ���� ������� ������ ��� ����

�������� ����"����� ��� ���� ����� ��������� �� ����� ��� �$���� ��� ��

�������������"�������� ����

• ��� ��������������������������� ����������������������� ����������

��� ���������� ��� ��� ����� ��� ��������� ������ ��� � � ��� � �������� ��

� ���� ��� ������������ ��� �$� ��� ��������������������������������

������ ����� �� ������� ��� �� �������� ������� ���������� ���&���

�����������

• -��5 ��������������� ����������������������������������� ����������

������������������ ���������� ������������&��������5�����������

���������� ���� ����#������"� ����������������������� �������� ����� ��

������

;�� ������ ��� ��������� ��������� ���� ������� #���� ����� �����

���� ����� � � �� ���� � � ����� ���� ��� �� ��������� ����������� ���

����������#����� ���������� �� ��������� .�� �&�������� �� ������������

������ � � ����� ���� �� � � �5���� ��� ������������ ���� ������� ���

�������3����� ��������������������������� �$�������� ��������������

�����������������������������������&���� �������������� �������������

������������� ��������� ��������������������� ����������� ��������� �

���������

Page 114: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

-�% ��������

/��� ����1�����.7BB73��J�@����-�������-� �#����

/��� ���� 1�� �������1 �����2��� .6<<<3�>��������������� ��� �� ����������G�F�?��

#�������+ �7NH��)�����J98<������JB<AJ67��

/��� ��"��1���������/��/��������.7BB83�>(�� �A;����4��G�F�?��#����� ���&���������W�

7NN������HBAH<��

/����#��-��.6<@73�>;�����������G���#���������#����������������������� ����

���������?��K������ �1�����������#����������W�7������668A67B��

/������ (�� -�� .6<<@3� >(�������� � = ���� ,����F��� /���]�� 2���������� D�������?��

(���������7B.63������8JA8N��

/�������� ,�� .7BB63�� >1� ;������ 1 ���#�� ��� /��G�������� '����� ��?�� K������ �

1�����������#���������7J.73�����6H8A6@@��

/�����2��(��.6<<73��#�������������L�����#�����#���������� �(���������'�� ������

=��������,��������-������

'� ��� D��� '���� �� E�-�� ���� ��� ��� ;�� .6<<63�� >'A0��� ��� ���� ��� �� � � ���

����� ����#�����G�F��� ���������� ��G���� �����������#� ��� � �������#���#��

�������� ������#������?��#��������������� ��77���W�6������6JJA7BJ��

'� ��� D��� ��G�� E��� ���� 2��� 1�� .6<NH3�� 1������������������� �����������

��������L�#��������� ������������������0�����������D��� ����

'� �����4���D����#��)������M�����(��.6<<N3��>(��G�����������������������#���#�

����������#� ����������1����������AG������ ���?��K������ �����&�������#�������

���$ ��������#�������9<.683������67BHA6778��

����F�E�����( ��-�����.6<H83�>��� ��(�������/��(������?�' �� ��,����-������4�G�

:�F��

;�����������'��.6<@<3�>'����� �������� ����G�F���'������� �' �������?��#�����

>��0��@���W�6��

;����F��� 4�� ��� .6<N63�� >�#�� ���� �� �� (��������� �� 2����� 4��G�F�?�� #�����

>��0��@����W�8��

L����� D�� ���� 4�G����� D�� ��� E�� .7BB73�� >D�� '������� ���������� �� ��� � ����

��� ����G�F�?��-������������#��4���� �1���������(���������,�����(������

��1�������E����66��+ �<<���W67��

Page 115: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

L������������D��F�.6<@83��P�#��(��������0��F����P�1�������E���� ���(� ���

@N�.H3������68HBA68NB��

=��F�#����2��.7BB83��>�#����F����#���#��?��'1�5����0��1�����AI�� ����

D����#�� )�� .7BBB3�� >)�������� (������ ���� )�������� (��������'�������� ��

������� ?̂�#����**GGG�� ���� �������*���7BBB*�����#�#���

D�����E�����.6<893��.��������������M�4�G�:�F��/�����-������

D����#F���-������%�����=������1�� .7BB93�>' � ��������������������������� ��

��� ���������������#��� ��?�#�������������9.73������9@AHH��

4�G�����D�����E���.7BBB3��>D�� �����#��(�� �0� ���1�2���G?��E���� ���(������ �

-#�������W6B6������N6<AN96��

4���$���� 2�� .6<@83�� #���� &���������� � � >����� � � '������� �� /������� ����

D��#� �.���3��

-������������/����(��.6<<<3��>�#��1���������������A(�� ��=������&��� �0� �(����#�

�����?��

(����� E�� -�� .7BBB3� #����� >��0��@� &�����L� &� ������@ � #����� �������� (����

-� �������

(�$���������1��/��.6<N63��>�#���������+������?��#�����>��0��@����W�8��

Page 116: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

1��&�)��2�������'������� �

Page 117: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

��*�������������������������.(�����

������������������ �������I�����

�B4������������������ �����4���/DDFE�

Page 118: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información
Page 119: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

Análisis de comunidades científicas mediante la agregación del núcleo

F. de la Rosa T. Dpto. de Lenguajes y Sistemas

Informáticos Univ. De Sevilla [email protected]

R. M. Gasca Dpto. de Lenguajes y Sistemas

Informáticos Univ. De Sevilla [email protected]

V. Cejudo Dpto. de Lenguajes y Sistemas

Informáticos Univ. De Sevilla [email protected]

Resumen El análisis mediante diagramas estructurales define el núcleo de una red como un subgrafo que contiene los nodos y las aristas que forman el backbone o columna vertebral de una red. Este trabajo propone utilizar esta definición para descomponer una red en una serie de agregados. Para ello, se formaliza la definición de núcleo y se describe como obtener los agregados a partir de él. Como se verá, existe una relación directa entre los agregados del núcleo y los agregados más relevantes de la red de donde fue extraído. Con esta propuesta se persigue, facilitar la comprensión de los agregados que forman una red, así como mejorar los tiempos de computación de las técnicas clásicas de agregación. En un trabajo previo, se analizó la red social de la comunidad científica de las Jornadas de Ingeniería del Software y Bases de Datos (JISBD), obtenida a partir de su red de co-autorías. Para ello se extrajo de la Web la información bibliográfica de las jornadas. En este trabajo se ha avanzado en el rango de análisis realizados desde el trabajo anterior con una nueva familia de técnicas de agregación.

1. Introducción

La propuesta de este trabajo es integrar las técnicas de agregación con un nuevo marco teórico dentro del análisis estructural de redes. Nos referiremos a este nuevo marco teórico como el análisis mediante diagramas estructurales. Gracias a esta herramienta de análisis se obtienen de forma sistemática una serie de patrones que facilitarán la compresión de la estructuras que forman una red. Utilizaremos estos patrones para extraer el

núcleo de la red a partir del cual obtendremos los agregados que componen la red. La abundancia de artículos científicos y su disponibilidad en Internet, tanto de los documentos como de sus referencias, ha contribuido a que una de las mayores redes susceptibles de ser analizadas sean las redes de co-autorías. Gracias a las redes de co-autorías es posible analizar una de las estructuras más importantes que componen una comunidad científica, su red social. Esto es posible gracias a que la red de co-autoría, en gran medida, refleja las relaciones sociales que existen entre los miembros de una comunidad. En un trabajo previo [1] se presentó un análisis de la red social de la comunidad de las JISBD, basándose en su red de co-autorías. Este análisis se realizó utilizando una arquitectura que extrae de forma selectiva información disponible en Internet, utiliza técnicas de aclarado de datos para eliminar errores en la información y permite el análisis visual, desde distintas perspectivas. Para el caso de las JISBD se recopiló de forma automática la información bibliográfica de la comunidad, que se encuentra publicada en la base de datos DBLP1 (Digital Bibliograph & Library Project). Aunque por el contexto en que se enmarca este trabajo puedan parecer que la técnica de análisis que se presenta sólo es aplicable a redes sociales, lo cierto es que tiene gran aplicabilidad en cualquier sistema que pueda ser modelado como una red o grafo. Estas redes estarían compuestas por nodos, que representarían

1 DBLP es una base de datos cuyos servidores proporcionan información bibilográfica sobre las revistas y congresos más importantes sobre Computer Science.

Page 120: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

entidades (autores, palabras, páginas web, artículos, clientes, empleados, empresas, productos, etc) y por aristas, que informarían de las relaciones existentes entre las distintas entidades (colaboración, referencia, amistad, subordinado, compra, etc). De esta manera, la técnica de los diagramas estructurales puede ser de utilidad, tanto para analizar las relaciones que se producen entre los miembros de un foro de discusión, como para analizar la estructura de un comunidad de páginas web. Con objeto de generalizar los resultados obtenidos, a lo largo de este trabajo, hablaremos indistintamente de actores y de autores, considerando los autores como actores de una red de co-autorías. También se considerarán las redes de co-autorías como un subtipo de red. Teniendo en cuenta lo anterior este trabajo se divide en las siguientes secciones: • La primera sección está dedicada a la

notación utilizada a lo largo de este trabajo. • La segunda, presenta el análisis mediante

diagramas estructurales, y detalla como aplicarlo e interpretar sus resultados.

• En la tercera sección se ilustra como integrar las técnicas de agregación con la definición de núcleo para obtener los agregados de una red.

• Finalizaremos con las conclusiones.

2. Marco Teór ico

Dado un conjunto de nodos (autores), V, y un conjunto de aristas (relaciones de co-autorias), E, se considera el grafo >=< EVG , .

Supongamos que G es un grafo conexo, acíclico, sin pesos y no dirigido, que representa una red social. Se define la matriz de adyacencia, A, donde las filas y columnas son nodos de V como:

���

∉∈

=Ejisi

EjisiAij ),(0

),(1

y (i,j)�E significa que existe una arista que enlaza los nodos i y j de V. De la definición se sigue que A es una matriz cuadrada de orden |V|, siendo |V| el tamaño del conjunto V. Se define el conjunto de nodos vecinos al nodo i, y se denota Ni, como:

}1|{ =∈= ivAVviN

y al grafo egocéntr ico del nodo i excluyendo el ego como >=< −−−

iii EVG , , donde:

ii NV =−

{ }iii NwNvwvE ∈∧∈=− |),(

Para analizar una red haciendo uso de su diagrama estructural es necesario definir previamente varias medidas utilizadas por el análisis de redes sociales. Estas medidas caracterizan los nodos de la red y se definen como: • La autor idad o impor tancia (autor ity, ai)

del nodo i [2,3] Pertenece a la familia de medidas globales, caracterizando la posición del nodo en relación con el resto de nodos de la red. Es indicativa de la importancia del nodo. Su cálculo se realiza a partir del algoritmo Pagerank, el cual calcula la autoridad del nodo i en función de la autoridad de sus vecinos según la relación:

10)1(1

<<+−= �−∈

γγγ siendoV

aa

iVj j

tjt

i

Donde γ es la constante de amor tiguamiento y simula un modelo de selección aleatorio: para γ = 0 el modelo será totalmente aleatorio ya que todos los nodos tendrían la misma probabilidad de ser seleccionados y para γ = 1 la selección de los nodos sólo se haría en función de la importancia del conjunto de nodos vecinos.

• El grado (degree, di) del nodo i [4]: Pertenece a las medidas locales, caracterizando la posición de un nodo respecto de su entorno más cercano, sus vecinos. Es el número de aristas del nodo i.

�∈

=Vj

iji Ad , Vi ∈∀

Los procesos de agregación se basan en el concepto de distancia o similitud. Para poder integrar estos procesos con la definición de núcleo, se hace necesario definir previamente

Page 121: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

alguna medida de similitud. La medida que utilizaremos vendrá dada por la siguiente función:

11

*2),(

−+−=

−−

−−

ji

ji

NN

NNjis

e indica la similitud existente entre los nodo i y j. También se expresa de forma alternativa como:

j)(i, arista lacontienen que 2 longitud de Caminos

j)(i, arista lacontienen que Triángulos*2),( =jis

Por tanto, esta medida se interpreta, como la probabilidad de que un nodo adyacente a la arista (i,j) forme un triángulo y representa la probabilidad de que dos nodos conectados formen parte de un agregado. Esta medida de similitud se basada en el coeficiente de agregación o de clustering [5].

3. Diagramas Estructurales Grado-Autor idad y Redes Sociales

Si descomponemos una red en un conjunto de agregados, utilizando una técnica de agregación cualquiera, se observa que no todos los individuos que pertenecen a un agregado tienen las mismas funciones. Basándonos en el trabajo de [6,7,8,9] y en varias medidas utilizadas en el análisis de redes sociales [10] (autoridad y grado), proponemos los diagramas estructurales, como una forma de analizar la estructura de las redes sociales. Estos diagramas permiten analizar la posición estratégica de los nodos o actores que forman una red (microanalisis), complementando la información obtenida por las técnicas de agregación. Para ilustrar este marco teórico, en esta sección se lleva a cabo el análisis mediante diagramas estructurales de la comunidad de las JISBD. Los diagramas estructurales posicionan los nodos en una representación 2D. Para ello se definen dos índices, que representarán cada uno de los ejes del diagrama: • Índice de cohesión externa de un nodo

(eje X): Con este índice se persigue representar la posición estratégica del nodo

respeto al resto de nodos de la red. En este estudio se utiliza la autoridad.

• Índice de cohesión interna de un nodo (eje Y): Con este índice se persigue representar la posición del nodo respecto a su entorno más cercano. En concreto se utiliza el grado.

Estos índices permiten definir una serie de patrones de comportamiento de gran interés para clasificar los nodos de una red. Una vez representados los nodos y tomando como eje de referencia el nodo (<X>,<Y>) (nodo promedio), se ha dividido el plano en cuatro regiones, estas se interpretan como sigue (figuras 1 y 2): • Región o Cuadrante 1: Se corresponde al

núcleo de la comunidad, compuesto por los individuos con mayor autoridad y grado. Estos individuos tienen un alto grado de desarrollo e integración y disponen de una buena posición estratégica dentro de la red.

• Región o Cuadrante 2: Se corresponde con los individuos distanciados o aislados de la comunidad, con un alto grado y una baja autoridad. Pertenecen a un grupo bien estructurado, pero que no se relacionan con individuos ajenos al grupo.

• Región o Cuadrante 3: Se corresponde con los individuos emergentes, con una gran autoridad y con poco grado. Se relacionan con un grupo pequeño de vecinos entre los cuales realiza la función de intermediador. Son susceptibles de pertenecer al núcleo de la red en el futuro.

• Región o Cuadrante 4: Individuos periféricos, tienen poca autoridad y grado. Es una comunidad poco desarrollada, definen los límites de la red. Son susceptibles de convertirse en individuos emergentes.La asignación de un color a

cada región permite utilizar éste como un indicador del posicionamiento del individuo dentro de un agregado, facilitando la comprensión del sociograma [11] así como la exploración de las distintas familias que componen la comunidad. De esta forma se han coloreado los individuos como sigue: rojo=núcleo, azul=aislado, verde=emergente y amarillo=periférico (figura 3).

Page 122: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

Figura 1. Diagrama estructural grado-autoridad de las JSIBD. Enumeración de las cuatro regiones en que se divide un diagrama estructural. El nodo de color amaril lo es la media.

Figura 2. Diagrama estructural grado-autoridad de las JISBD. El eje X, representa la autoridad, y eje Y, el grado. Coloreado de las distintas áreas: rojo=núcleo, azul=aislados verde=emergentes y amarillo=periféricos.

Page 123: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

Figura 3. Sociograma de las JISBD. Los nodos se han coloreado según los patrones definidos en el diagrama estructural grado-autoridad (Figura 2).

Para llevar a cabo un estudio de la estabilidad de los diagramas a lo largo del tiempo, supongamos que ésta se caracteriza por las leyes que rigen en las redes complejas de tipo scale-free. Según los trabajos de [12,13,14,15] la gran mayoría de redes que se auto-organizan (ecosistemas, redes sociales, Internet, la Web, red de co-palabras, etc) pertenecen a este tipo de redes y se generan a partir de dos leyes fundamentales: • Crecimiento lineal: a medida que pasa el

tiempo se va agregando linealmente a la red nuevos nodos.

• Enlace preferencial: Cada nuevo enlace de la red se enlaza preferentemente a nodos que tengan un mayor número de enlaces.

Por tanto, sería más probable que un nodo emergente se acerque al núcleo de la comunidad que a la periferia o que directamente se transformase en un nodo aislado. Al igual que un nodo que pertenezca al núcleo es prácticamente imposible que pasase a formar parte de la zona que define la periferia.

4. Agregación del Núcleo

A partir de los cuatro patrones definidos en la sección anterior, se observa una relación jerárquica entre los distintos comportamientos que pueden tener los nodos pertenecientes a un mismo agregado (Figura 4).

Figura 4. Relación de jerarquía entre los patrones de comportamiento

Page 124: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

Figura 5. Agrupación jerárquica de la red para 160 agregados.

Figura 6. Agregación jerárquica del núcleo de la red para 37 agregados.

Page 125: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

Se observa como los agregados están dominados por los nodos definidos como núcleos. Basándonos en esta idea, se propone el Algoritmo 1 como una nueva técnica de agregación. Este algoritmo en vez de procesar la red completa, procesa solo la red que define el núcleo GN=<VN,EN>. Donde VN es el conjunto de nodos pertenecientes al núcleo y EN el conjunto de aristas que los unen.

Algoritmo 1. Algoritmo de agregación del núcleo.

La complejidad del Algoritmo 1 presenta el siguiente orden: O(max(|V|* I,|EN|* |VN|)), donde I es el número de iteraciones del algoritmo PageRank. Teniendo en cuenta que I<<|E|2, |EN|<<|E| y que |VN|<|V| la complejidad computacional es sustancialmente menor que la complejidad del mismo algoritmo sin filtrar la red, de O(|E|* |V|). En las figuras 4 y 5 se presentan los resultados obtenidos por el algoritmo jerárquico procesando la red completa y procesando solo su núcleo. Si comparamos las dos figuras se observa como el Algoritmo 1 obtiene los principales agregados que forman la red. Por tanto, utilizando esta técnica se consigue una reducción bastante significativa del número de agregados encontrados, de 160 a 37, esto es importante ya que facilita la comprensión de los principales agregados que forman la red. También es importante observar que cada agregado del núcleo tiene un agregado equivalente en la red. El agregado equivalente de un agregado del núcleo, estará compuesto por los nodos que pertenecen al núcleo y por los

2 De acuerdo con las publicaciones de Lawrence Page y Sergey Brim [2], alrededor de 100 iteraciones son suficientes para obtener una buena aproximación de los valores PageRank de toda la web.

nodos que dependen jerárquicamente de ellos (los vecinos de los nodos del núcleo). Puede suceder que un nodo pertenezca a más de un agregado (Figura 7).

Figura 7. A) Agregados del núcleo. B) Agregados equivalentes.

5. Conclusiones

Este trabajo propone utilizar las técnicas de agrupación solo sobre la red que forma el núcleo en vez de aplicar estas técnicas sobre toda la red. De esta forma obtenemos una serie de ventajas: • El coste computacional es menor. Cuanto

mayor sea el número de aristas del grafo más importante es la mejora.

• Elimina gran número de nodos y aristas pocos significativos para la red. Aunque no es una técnica de detección de outliers, por la definición del núcleo muchos de estos outliers desaparecen. Esto hace que los resultados obtenidos estén menos distorsionados y sean más estables.

• Se obtiene un número significativamente menor de agregados.

• No es necesario definir un ranking de agregados para decidir cuales son los más importantes, por la definición del núcleo todos los agregados que se obtienen son importantes.

Referencias

[1] F. de la Rosa T., S. Pozo, P. J. Casanova y R. M. Gasca (2004). “Análisis y visualización de comunidades científicas con información extraída de la Web” . IX Jornadas de Ingeniería del Software y Bases de Datos. pp. 291-302.

Page 126: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información

[2] Page, L. and Brin, S. (1999). “The Anatomy of a Large-Scale Hypertextual Web Search Engine”.

[3] Bonacich, P. (1972) “Factoring and weigthing approaches to status scores and clique indetification”. Journal of Mathematical Sociology. nº 2, pp. 113-120.

[4] Freeman, L. C. (1979) “Centrality in social networks. Conceptual Clasification” . Social Network, nº 1.

[5] M. E. J. Newman and Juyond Park (2003). “Why social networks are different from other types of networks” Phys. Rev. E 68.

[6] Callon, M., Law, J., and Rip, A. (1986). “Mapping the dynamics of science and technology: Sociology of science in the real world”. London: Macmillan.

[7] Callon, M., Courtial, J.P. and Laville, F. (1991). “Co-Word analysis as a tool for describing the network of interactions between basic and technological research: the case of polymer chemistry” . Scientometrics, vol. 22, nº 1, pp. 155-205.

[8] Coulter, N., Monarch, I. and Konda, S. (1998). “Software engineering as seen through its research literature: A study in co-word analysis” . Journal of the American Society for Information Science, 49(13), pp. 1206-1223

[9] Monarch, I. (2000). “ Information Science and Information Systems: Converging or Diverging?” http://www.slis.ualberta.ca/cais2000/monarch.htm

[10] Scott, J. P. (2000) Social Network Analysis: A Handbook. Second edition, Sage Publications.

[11] Moreno, J. L. (1934). Who shall survive? New York: Beacon Press.

[12] Barabási, A. L. (2002). Linked, Perseus Publishing.

[13] Barabási, A. L. and Albert, R., (1999) “Emergence of scaling in reandom networks”, Science, Vol 286, Issue 5439, pp. 509-512.

[14] Newman, M. E. J. (2000). “Models of the Small World”

[15] Barabasí, A. L. and BonaBeau, E. (2003) “Scale-Free Nerworks”. Scientific America. pp. 60-6

Page 127: Sistemas de Inteligencia Tecnológica y Científica: Resumen ... de la Rosa.pdf · Sistemas de Inteligencia Tecnológica y Científica: Resumen, Análisis y Visualización de Información